Benchmarking Large Language Model Capabilities for Conditional Generation (Joshua Maynez, Priyanka Agrawal, Sebastian Gehrmann)

llm의 generation task들에 대한 테스트군요. encoder-decoder vs decoder-only, multilinguality, few-shot vs finetuning 등의 조건에서 data to text, english generation, crosslingual generation, multilingual summarization 등의 과제에 대해 테스트해봤군요.대체로 기대할만한 결과가 나온 것 같긴 합니다. (finetuning이 few shot보다 강하긴 함, encoder-decoder 모델이 이점이 있긴 하지만 decoder only 모델이 커지면 따라잡을 수 있음, multilingual input보다 output이 어려움 등.) 그나저나 code-davinci-002가 새삼 강한 모델이구나 싶네요.

#llm #evaluation

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

230629 Benchmarking Large Language Model Capabilities for Conditional Generation.md

230629 Benchmarking Large Language Model Capabilities for Conditional Generation.md

Files

230629 Benchmarking Large Language Model Capabilities for Conditional Generation.md

Latest commit

History

230629 Benchmarking Large Language Model Capabilities for Conditional Generation.md

File metadata and controls