https://arxiv.org/abs/2204.07705

Benchmarking Generalization via In-Context Instructions on 1,600+ Language Tasks (Yizhong Wang, Swaroop Mishra, Pegah Alipoormolabashi, Yeganeh Kordi, Amirreza Mirzaei, Anjana Arunkumar, Arjun Ashok, Arut Selvan Dhanasekaran, Atharva Naik, David Stap, Eshaan Pathak, Giannis Karamanolakis, Haizhi Gary Lai, Ishan Purohit, Ishani Mondal, Jacob Anderson, Kirby Kuznia, Krima Doshi, Maitreya Patel, Kuntal Kumar Pal, Mehrad Moradshahi, Mihir Parmar, Mirali Purohit, Neeraj Varshney, Phani Rohitha Kaza, Pulkit Verma, Ravsehaj Singh Puri, Rushang Karia, Shailaja Keyur Sampat, Savan Doshi, Siddhartha Mishra, Sujan Reddy, Sumanta Patro, Tanay Dixit, Xudong Shen, Chitta Baral, Yejin Choi, Hannaneh Hajishirzi, Noah A. Smith, Daniel Khashabi)

70 종류의 과제 1600개를 묶어서 task generalization을 위한 benchmark suite를 만들었네요. 많은 건 좋은데 결과에 대한 분석이 숫자에 압도되지 않을까 하는 생각은 듭니다.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

220416 Benchmarking Generalization via In-Context Instructions on 1,600+ Language Tasks.md

220416 Benchmarking Generalization via In-Context Instructions on 1,600+ Language Tasks.md

Files

220416 Benchmarking Generalization via In-Context Instructions on 1,600+ Language Tasks.md

Latest commit

History

220416 Benchmarking Generalization via In-Context Instructions on 1,600+ Language Tasks.md

File metadata and controls