Skip to content

Latest commit

 

History

History
7 lines (4 loc) · 470 Bytes

200403 Gradient Centralization.md

File metadata and controls

7 lines (4 loc) · 470 Bytes

https://arxiv.org/abs/2004.01461

Gradient Centralization: A New Optimization Technique for Deep Neural Networks (Hongwei Yong, Jianqiang Huang, Xiansheng Hua, Lei Zhang)

weight standardization의 아이디어를 그래디언트에 도입한 듯한 접근. 그래디언트의 평균을 0으로 맞춰주기. weight standardization과는 달리 프리트레이닝시에는 적용하지 않았어도 사용할 수 있다는 것이 장점인 듯.

#training #optimization