https://arxiv.org/abs/2109.08668
Primer: Searching for Efficient Transformers for Language Modeling (David R. So, Wojciech Mańke, Hanxiao Liu, Zihang Dai, Noam Shazeer, Quoc V. Le)
language model 트랜스포머에 대한 nas. 텐서플로 코드 레벨에서 탐색을 해서 좀 더 특이한 구조를 발견할 수 있는 여지가 있었고...그 결과로 나온 것이 qkv projection 이후에 dwconv를 붙이는 것, x * relu(x)를 사용하는 것이군요. dwconv를 붙이는 건 많이들 하는 종류의 시도라 이해가 가는데 x * relu(x)는 약간 이해하기 어려운 결과이긴 하네요.
보통 그냥 수렴 속도가 빠른 거 아닌가라고 하면 폄하 발언인데 트랜스포머 lm은 수렴 속도가 빠르다는 것 자체도 굉장히 중요하긴 하겠습니다.
#lm #transformer #nas