Skip to content

Latest commit

 

History

History
9 lines (5 loc) · 601 Bytes

220921 Mega.md

File metadata and controls

9 lines (5 loc) · 601 Bytes

https://arxiv.org/abs/2209.10655

Mega: Moving Average Equipped Gated Attention (Xuezhe Ma, Chunting Zhou, Xiang Kong, Junxian He, Liangke Gui, Graham Neubig, Jonathan May, Luke Zettlemoyer)

각 타임 스텝의 임베딩들의 EMA를 계산하고 그 위에 attention과 gate를 얹은 형태네요. 추가적으로 local attention을 사용해 linear complexity를 갖는 variant도 만들었습니다. 전반적으로 gated rnn와 s4를 기반으로 삼아 만들었다는 느낌입니다.

이런 형태의 시도들이 어디까지 도달할 수 있을지 궁금하네요.

#efficient_attention