Skip to content

Latest commit

 

History

History
31 lines (17 loc) · 6.58 KB

230416 Open Assistant.md

File metadata and controls

31 lines (17 loc) · 6.58 KB

https://open-assistant.io/ https://huggingface.co/datasets/OpenAssistant/oasst1 https://drive.google.com/file/d/10iR5hKwFqAKhL3umx8muOWSRm7hs5FqX/view

Dolly 2.0에 이어 Open Assistant가 공개됐다. 보니까 LLaMA-30B를 SFT한 모델이 올라가 있다.

사실 흥미로운 것은 이 모델을 개발하는 데 사용한 데이터셋일 듯 하다. 161K 규모의 대부분 사람이 작성한 메시지, 461K 분량의 퀄리티 평가로 구성되어 있고, 이 데이터셋은 대화를 트리 형태로 구성해서 프롬프팅을 하거나 혹은 프롬프트에 대해 사람이 응답을 쓰게 했다. 더 깊이 들여다봐야겠지만 2월에 시작했다고 들었던 프로젝트가 이 정도 수준으로 결과물을 냈다는 것이 놀랍다.

조야한 표현이지만 참 유능하고 빠르다 싶다. ML 엔지니어로서 이런 수준의 판단, 속도, 결단, 퀄리티를 흉내낼 수 있을까 하는 생각을 하게 된다. 다들 ChatGPT를 distill 해서 값싸게 무언가를 해보겠다는 시도가 범람했던 시점에 말이다.

그리고 조금 다른 측면에서 보자면, 베이스 LLM이 있기만 하면 그 위에서 무언가를 하는 것은 비교적 쉽다는 생각을 하게 된다. 데이터셋을 만들거나 튜닝을 하는 것은 베이스 LLM을 만드는 것에 비해서는 훨씬 쉬운 일인 것으로 보인다. 그도 그럴 것이 LLaMA 정도의 모델을 학습하려면, 클라우드를 쓰는 경우에 대략 50억 정도를 생각해야 하는 것으로 보이고, 여러모로 가능한 문제들을 생각하면 100억 정도까지 대비를 해야할 것이다. 물론 더 저렴하고 효율적으로 작업하는 방법들이 있겠지만 여하간 지금까지 보통 개발되었던 ML 모델과는 단위가 다른 수준의 비용이 들어가고, 이 비용을 감당할만한 경우는 많지 않다.

데이터셋이 ML의 최대 자산이라는 말을 많이 하지만, LLM의 시대에는 기본 모델이 최우선인 것이다.

좀 다행스럽게도(?) 영어에 대해서는 아마 공개, 어쩌면 라이센스 문제도 없는 쓸만한 LLM이 나올 듯 싶다. 한국어 같은 마이너(?)한 언어는 좀 더 어렵겠지만, EleutherAI 쪽에서 모델이 나올 것으로 보이고 그렇다면 상당한 임팩트가 있을 것이다.

그리고 이 베이스 LLM들이 쓸만한 수준이라면 정말로 각자 데이터셋을 모아 튜닝해서 사용한다라는 시나리오가 가능성이 있을 것이다. 물론 이 규모의 모델을 배포하는 것과 추론 비용은 또 다른 문제이긴 하지만 어쨌든 비용이 훨씬 가능한 수준으로 내려올 것이다.

그렇다면 중요한 것은 이 베이스 LLM들을 기반으로 어디까지 도달할 수 있을까 하는 문제이다. 가장 위험한 가능성은 GPT-4와 그 이후 모델이 보여주는 능력, Capability가 실제 사용 시나리오에서 매우 중요하고, 그 능력이 있는가 없는가가 사용될 수 있는가 없는가를 결정하는 상황일 것이다. 그렇다면 베이스 LLM으로 GPT-4 혹은 그 이상의 모델이 보여주는 능력에 도달할 수 있어야 한다. 그런데 그것이 가능할까?

(계속해서 GPT-4와 그 이후 모델이라고 말하게 되는데, 현재 ML의 상황에서 현재 수준의 모델을 가지고 판단하는 것은 위험하다고 생각한다. 지금은 발전 도상에 있다고 생각해야 하고, 더 나은 - 특히 질적으로 더 나은 - 모델이 등장할 것이라고 가정하고 논의해야 한다고 생각한다.)

이런 능력이 모델에 투입하는 연산량에 의해 결정되고, 학습 토큰의 수 뿐만 아니라 모델의 규모 또한 중요하다고 가정하면 (즉, 많은 사람들이 기대하는 것처럼 더 작은 모델을 더 오래 학습하는 것으로 달성할 수 있는 것이 아니라면) GPT-4와 그 이후 모델들을 따라잡기는 아마 어려울 것이라고 생각한다.

물론 이것은 영어로 보여줄 수 있는 능력에 한정한 것이긴 하다. Multilingual 상황에서는 Effective Parameter가 감소하면서 훨씬 따라잡기 쉬울 수도 있다. 이건 언어간 Transfer와 Generalization이라는 요인이 어떻게 작동하는가에 달린 문제일 텐데, 아직 이 부분에 대해서 그럴 듯한 예측을 할 수 있는 수준의 데이터는 없는 것 같다. NMT나 인코더 모델의 결과를 바로 대입하기는 적절하지 않을 것 같고, BLOOM 같은 케이스의 결과는 유용하지만 대조군과 좀 더 구체적인 레벨의 Generalization에 대해서 가늠할 수 있는 수준의 정보는 부족한 것 같다. 아마 앞으로 나오겠지만.

그리고 한국어 같은 언어 하나를 타겟한다고 해도 Bilingual 상황 정도는 고려해야할 것이라는 것 또한 고려할 요소겠다. 요약하자면 영어에 대해서는 어려울 것 같고 Multilingual에 대해서는 어느 정도 가능할 수도 있겠지만 그에 대해서 확실하게 말하기에는 정보가 부족하다 정도라고 할 수 있겠다. 굳이 한쪽으로 말하자면 GPT-4 이후까지 고려한다면 Multilingual에서도 쉽지 않을 가능성이 높지 않을까에 한 표. (너무 돌려 말하는 것 같다...)

다른 수준, GPT-3.5 정도 수준으로도 충분하다고 하면, 좋다! 이런 시도들이 성공할 수 있는 가능성이 충분히 존재할 것이라고 생각한다. 올해 초에만 해도 완전히 비관적인 모드였지만 지금은 이 수준에 도달하는 것은 OpenAI나 구글 레벨의 기업 밖에서도 가능한 상황으로 흘러가고 있다고 생각한다. (물론 위에서도 말했듯 이건 베이스 LLM이 상업적으로 사용 가능하도록 공개되는가 아닌가에 크게 달린 부분이긴 하다. 그렇지만 이쪽에서도 충분히 유용한 사례가 몇 가지 나올 가능성이 높다고 본다. 한국어는 EleutherAI 쪽에서 나오는 것 외에는 쉽지 않을 것 같긴 하지만...)

물론 이것은 시장 상황에 대한 다면적인 고려 없이 모델의 능력만 고려해서 한 이야기이기 때문에, 시장 상황에 영향을 미칠 수 있는 다양한 요인들에 따라 국면이 달라질 수도 있겠다. 어떤 능력이 필요할지 아닐지 같은 것은 그 중 하나일 뿐이고, 네트워크 효과라거나, 모델을 내재화하고 싶은 동기의 수준, 익숙함 등등에 따라서 달라질 수 있는 여지는 충분히 있을 것이다. 그렇지만 그 부분에 대해서는 위의 문제보다 정보가 더 없는 것 같아서 무어라 논하기는 어려울 것 같다.