https://arxiv.org/abs/2209.12711
Can Large Language Models Truly Understand Prompts? A Case Study with Negated Prompts (Joel Jang, Seonghyeon Ye, Minjoon Seo)
llm에 correct solution이 아니라 incorrect solution을 생성하라고 하면 어떻게 될까? 성능이 떨어질 뿐만 아니라 모델 규모가 커질 수록 성능이 더 떨어진다는 결과네요. 모델이 정답은 말할 수 있어도 오답을 말하지는 못하는 상황이군요.
#llm