https://arxiv.org/abs/2301.07733
Learning-Rate-Free Learning by D-Adaptation (Aaron Defazio, Konstantin Mishchenko)
learning rate free optimizer. 흥미로운 점은 이전의 비슷한 시도들과는 달리 스케쥴링까지 다 알아서 해준다는 느낌보다는 hand tuning한 learning rate와 비슷한 것을 찾아준다 + learning rate scheduling은 쓰던 거 쓴다는 느낌이군요. 좀 더 잘 동작할 가능성이 있을 것 같은데 어떨지 모르겠네요.
https://github.com/facebookresearch/dadaptation
#optimizer