https://arxiv.org/abs/2105.03536
Pareto-Optimal Quantized ResNet Is Mostly 4-bit (AmirAli Abdolrashidi, Lisa Wang, Shivani Agrawal, Jonathan Malmaud, Oleg Rybakov, Chas Leichner, Lukasz Lew)
늘 궁금했던 quantization vs mode size vs accuracy에 대해 구글-퍼슨들이 답을 줬네요. 4bit에서 최적 tradeoff를 발견했다고. 물론 사용한 computational cost 모델이 실제 inference에서의 성능으로 어떻게 이어질지는 다른 문제이긴 합니다만.
#quantization #lightweight