https://arxiv.org/abs/2104.08698
Demystifying the Better Performance of Position Encoding Variants for Transformer (Pu-Chin Chen, Henry Tsai, Srinadh Bhojanapalli, Hyung Won Chung, Yin-Wen Chang, Chun-Sung Ferng)
positional encoding 개선. t5 스타일의 relative scalar bias의 단순화. t5 pe가 abs pe에 비해서 성능적으로 좀 밀렸었던 것 같은데 성능적 개선이 있었다는 것만으로도 참고할만할 것 같군요.
#positional_encoding #transformer