https://arxiv.org/abs/2004.01461
Gradient Centralization: A New Optimization Technique for Deep Neural Networks (Hongwei Yong, Jianqiang Huang, Xiansheng Hua, Lei Zhang)
weight standardization의 아이디어를 그래디언트에 도입한 듯한 접근. 그래디언트의 평균을 0으로 맞춰주기. weight standardization과는 달리 프리트레이닝시에는 적용하지 않았어도 사용할 수 있다는 것이 장점인 듯.
#training #optimization