https://arxiv.org/abs/2006.15134
Critic Regularized Regression (Ziyu Wang, Alexander Novikov, Konrad Zolna, Jost Tobias Springenberg, Scott Reed, Bobak Shahriari, Noah Siegel, Josh Merel, Caglar Gulcehre, Nicolas Heess, Nando de Freitas)
오프라인 RL을 (환경과의 상호작용 없이 데이터에서 policy를 학습하는 방법) 위한 알고리즘. 학습된 policy 하에서의 value와 데이터의 action의 value를 비교해 업데이트하는 알고리즘.
#reinforcement_learning