Skip to content

Latest commit

 

History

History
9 lines (5 loc) · 1.05 KB

230428 Speak, Memory.md

File metadata and controls

9 lines (5 loc) · 1.05 KB

https://arxiv.org/abs/2305.00118

Speak, Memory: An Archaeology of Books Known to ChatGPT/GPT-4 (Kent K. Chang, Mackenzie Cramer, Sandeep Soni, David Bamman)

GPT-4 학습에 대체 어떤 책들을 집어넣었을까? 책에서 한 문단 정도를 가져온 다음 등장 인물 이름을 가리고 이걸 예측하게 했습니다. 예측 성공율로 따졌을 때 이상한 나라의 앨리스 같은 고전적인 소설들이 높고...해리포터 같은 것도 잘 예측하는 군요. 결과적으로 저작권이 살아 있는 책들도 꽤 들어가 있다는 것을 확인했습니다.

그렇지만 이게 GPT-4 학습 데이터에 일부러 저작권이 있는 책들도 넣었다는 증거는 아닌 것 같고, 저작권이 있는 책들도 부분적으로나마 인터넷에 돌아다니는 경우가 많기 때문인 것으로 보이기는 합니다. 그렇지만 여기서 테스트한 책들이 대부분 소설, 베스트셀러 등이라서 아마 OpenAI가 더 관심이 있을 학술적인 서적에 대해서 확인된 것은 아니긴 하네요.

#llm