https://arxiv.org/abs/2211.09760
VeLO: Training Versatile Learned Optimizers by Scaling Up (Luke Metz, James Harrison, C. Daniel Freeman, Amil Merchant, Lucas Beyer, James Bradbury, Naman Agrawal, Ben Poole, Igor Mordatch, Adam Roberts, Jascha Sohl-Dickstein)
learned optimizer 연구 중에서는 가장 좋은 결과인 듯 싶네요. 구글 내에서 이것저것 적용해본 결과 튜닝 없이도 기존 방법들과 동등하거나 더 나은 결과를 냈다고 합니다.
#optimizer