Language Models (Mostly) Know What They Know (Saurav Kadavath, Tom Conerly, Amanda Askell, Tom Henighan, Dawn Drain, Ethan Perez, Nicholas Schiefer, Zac Hatfield Dodds, Nova DasSarma, Eli Tran-Johnson, Scott Johnston, Sheer El-Showk, Andy Jones, Nelson Elhage, Tristan Hume, Anna Chen, Yuntao Bai, Sam Bowman, Stanislav Fort, Deep Ganguli, Danny Hernandez, Josh Jacobson, Jackson Kernion, Shauna Kravec, Liane Lovitt, Kamal Ndousse, Catherine Olsson, Sam Ringer, Dario Amodei, Tom Brown, Jack Clark, Nicholas Joseph, Ben Mann, Sam McCandlish, Chris Olah, Jared Kaplan)

llm이 내놓은 답을 llm을 사용해 맞는지 틀린지 평가하는 것이 가능한지(calibration 문제) 그리고 더 나아가 질문이 주어졌는데 모델이 질문에 대해 답을 할 수 있는지 없는지를 예측하도록 학습시킬 수 있는지에 대한 연구네요. llm으로 답을 하는 것 이상으로 틀린 답을 했는지를 알아내는 것이 중요하다고 생각하는데 그 부분에 대한 진전이네요. 단 답을 할 수 있는지를 미리 알아내는 것은 일반화가 까다로운 것처럼 보입니다.

#llm

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

220711 Language Models (Mostly) Know What They Know.md

220711 Language Models (Mostly) Know What They Know.md

Files

220711 Language Models (Mostly) Know What They Know.md

Latest commit

History

220711 Language Models (Mostly) Know What They Know.md

File metadata and controls