https://arxiv.org/abs/2305.14342
Sophia: A Scalable Stochastic Second-order Optimizer for Language Model Pre-training (Hong Liu, Zhiyuan Li, David Hall, Percy Liang, Tengyu Ma)
새로운 optimizer가 또 나왔군요. optimizer 업계의 영원한 떡밥인 second order optimizer입니다. 학습 속도 두 배 향상 & 같은 iteration에서는 더 낮은 loss를 보여준다고 보고하고 있네요. 다만 LLM에 대해서라고 하지만 GPT-2 770M 레벨의 실험이라 더 대규모에서 어떨지가 궁금하긴 합니다.
#optimizer