https://openai.com/research/gpt-4
아침부터 떠들썩해서 다들 보셨겠지만 여하간 제 소감을 적어보겠습니다. 구글이 PaLM API를 제공한다는 소식도 있었는데 그건 완벽하게 묻혀버리겠군요.
수치적인 향상은 당연하고 당연히 질적 향상 (이전에 불가능했던 능력의 추가) 도 있는 것으로 보입니다. 상당수 벤치마크들에서 Few shot으로 각 벤치마크의 SOTA를 뛰어넘었습니다. 불가능했던 능력의 추가에 대해서는 많은 정보가 있지는 않은데 Inverse Scaling Prize의 Hindsight Neglect가 풀렸다는 것이 그걸 시사하고 있네요.
그리고 루머로 나왔던 이야기들이 거의 맞았습니다. Vision Multimodal이고, Multilingual이고 (번역을 고려했을 때 이렇게 비교할 수 있는 건 아니지만 한국어 MMLU 스코어가 ChatGPT 영어 MMLU 스코어보다 높습니다.) 8k와 32k context length를 지원합니다.
그런데 문제는...모델 디테일에 대한 정보가 거의 없습니다. scaling curve를 다시 추정한 다음 그걸로 모델을 개발했고 결과가 정확했다는 것 정도. 이젠 영업 기밀이 되었다는 걸 시사하는 것 같네요. 사람들이 추측으로 정보를 캐내긴 하겠지만 사실 아직 ChatGPT 모델 크기가 어느 정도인지도 잘 모르는 상황이라는 것을 고려해보면 쉽지는 않을 듯 합니다.
100 페이지짜리 논문의 나머지 부분들은 수많은 평가 기록입니다. 그만큼 다면적이고 다층적인 평가를 했다는 것을 시사하기도 하지만 모델의 능력에 대한 과시처럼 보이기도 하네요. 평가 슈트를 공개했는데 (https://github.com/openai/evals) 평가해보고 우리 모델의 능력과 격차를 경험해보라는 의미 아닐까요.
굉장하다 싶으면서도 격차가 엄청나게 벌어졌다는 생각이 드네요. 이전에 GPT-4가 그러할 것처럼 GPT-5 또한 질적인 향상이 있을 가능성이 높다는 말을 늘 했었는데, GPT-4가 어떤 모델일지도 알 수 없는 상황에서 개발되고 있을 GPT-5를 기다리게 되는 상황이 되어버렸군요. 저자 목록이 너무 길어져서 다른 페이지에 실려있는데 거의 OpenAI 전체가 이 작업을 하고 있는 게 아닌가 싶네요. 개인적으로는 LLM 학습에 대한 스터디를 하고 있었는데 그게 의미가 있을까 하는 생각이 조금 듭니다.