Skip to content

Latest commit

 

History

History
13 lines (7 loc) · 981 Bytes

230712 Claude 2.md

File metadata and controls

13 lines (7 loc) · 981 Bytes

https://twitter.com/AnthropicAI/status/1678759122194530304?s=20

Claude 2가 나왔습니다.

https://www-files.anthropic.com/production/images/Model-Card-Claude-2.pdf

테크니컬 리포트...조차 아니고 모델 카드가 나왔네요. Anthropic 답게 주로 안전성에 대한 언급이 많습니다. 유행이 된 GRE 점수 같은 것도 있긴 하네요.

흥미로운 건 Helpful, Honest, and Harmless eval에서 human preference로 학습된 모델보다 5 shot LM이 파라미터 규모가 충분히 커지면 더 나아진다는 것(대략 200B)이네요.

추가로 long context도 눈에 띕니다. 100K를 공개했었는데 200K까지 확장했군요. long context를 보이는 방식으로 각 토큰 위치별 loss의 평균을 내고 power law fit을 했습니다. 생각해보면 간단하게 해볼 만한 좋은 방법인 것 같은데 이런 플롯을 그리는 걸 잘 보진 못했네요.

https://twitter.com/OfirPress/status/1679004167980064769?s=20