Length Generalization in Arithmetic Transformers (Samy Jelassi, Stéphane d'Ascoli, Carles Domingo-Enrich, Yuhuai Wu, Yuanzhi Li, François Charton)

트랜스포머의 계산에 대한 extrapolation 실험. 덧셈 같은 경우 relative positional encoding을 쓰면 기본적으로 숫자의 자리수 증가에 대해 generalization이 되는데 곱셈 같은 경우는 안 되는군요. 그런데 500 샘플 정도의 긴 자리수의 곱셈 예제를 추가해주면 또 잘 된다고 합니다. 트랜스포머에 곱셈을 수행하기 위한 구조가 어느 정도 형성되어 있다는 의미 같은데, 동시에 그걸 바로 활용하도록(extrapolation) 학습되지는 않는다는 것을 시사하는 듯 하네요.

#transformer

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

230627 Length Generalization in Arithmetic Transformers.md

230627 Length Generalization in Arithmetic Transformers.md

Files

230627 Length Generalization in Arithmetic Transformers.md

Latest commit

History

230627 Length Generalization in Arithmetic Transformers.md

File metadata and controls