https://arxiv.org/abs/2308.03526
AlphaStar Unplugged: Large-Scale Offline Reinforcement Learning (Michaël Mathieu, Sherjil Ozair, Srivatsan Srinivasan, Caglar Gulcehre, Shangtong Zhang, Ray Jiang, Tom Le Paine, Richard Powell, Konrad Żołna, Julian Schrittwieser, David Choi, Petko Georgiev, Daniel Toyama, Aja Huang, Roman Ring, Igor Babuschkin, Timo Ewalds, Mahyar Bordbar, Sarah Henderson, Sergio Gómez Colmenarejo, Aäron van den Oord, Wojciech Marian Czarnecki, Nando de Freitas, Oriol Vinyals)
알파스타 아직 접은 건 아니었군요? 오프라인 RL을 위한 벤치마크라는 형태로 공개한 것을 보면 마무리하면서 낸 것 같기도 하지만요.
개인적으로는 스타크래프트를 플레이할 수 있는 모델이 나올 수 있을까 하는 생각을 합니다. behavioral cloning이 아니라 스스로 플레이하면서 게임을 이해하고, 전략을 만들고, 실험하고, 개선하는 작업을 할 수 있는 행위자로서의 모델이 나올 수 있을까요. 그게 가능하다면 AGI가 그리 멀리 있지 않을 것 같습니다.
#rl