https://arxiv.org/abs/2110.13989
Revisiting Batch Normalization (Jim Davis, Logan Frank)
bn의 불안정성 완화하기. bn의 weight를 1보다 작은 값으로 초기화하고 learning rate를 1/100으로 낮췄네요. 더 많은 데이터에 실험을 해보면 좋겠지만...별개로 다른 형태의 normalization에 대해서도 의미가 있을지 궁금하네요.
#normalization