https://arxiv.org/abs/2305.14342

Sophia: A Scalable Stochastic Second-order Optimizer for Language Model Pre-training (Hong Liu, Zhiyuan Li, David Hall, Percy Liang, Tengyu Ma)

새로운 optimizer가 또 나왔군요. optimizer 업계의 영원한 떡밥인 second order optimizer입니다. 학습 속도 두 배 향상 & 같은 iteration에서는 더 낮은 loss를 보여준다고 보고하고 있네요. 다만 LLM에 대해서라고 하지만 GPT-2 770M 레벨의 실험이라 더 대규모에서 어떨지가 궁금하긴 합니다.

#optimizer

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

230523 Sophia.md

230523 Sophia.md

Files

230523 Sophia.md

Latest commit

History

230523 Sophia.md

File metadata and controls