https://arxiv.org/abs/2110.02861
8-bit Optimizers via Block-wise Quantization (Tim Dettmers, Mike Lewis, Sam Shleifer, Luke Zettlemoyer)
8 bit optimizer. 대 파라미터의 시대를 맞아 optimizer state의 크기를 줄이기 위한 여러 방법들이 나왔는데 이쪽도 흥미롭네요. 학습 시간도 약간 줄어드는군요.
#optimizer