본문 바로가기
AI · 인공지능/AI 뉴스

'아이가 듣는 단어의 양' 만으로 대규모 언어 모델을 새롭게 트레이닝하는 「BabyLM Challenge」

by 두우우부 2023. 6. 2.
반응형



채팅 AI에 사용되는 대규모 언어 모델의 성능은 파라미터 수나 트레이닝 데이터의 양이 늘어날수록 상승한다는 것이 통설이지만, 이 통설에 반해, "적은 데이터양으로 고성능 언어 모델을 작성하는 도전인, 「BabyLM Challenge」가 개최되고 있습니다.

babylm.github.io
https://babylm.github.io/

https://babylm.github.io/

Summary: This shared task challenges community members to train a language model from scratch on the same amount of linguistic data available to a child. Submissions should be implemented in Huggingface's Transformers library and will be evaluated on a sha

babylm.github.io



대규모 언어 모델을 만드는 과정에서는 가장 먼저 사전 학습이라는 프로세스가 있습니다. 사전 학습에서는 문장을 입력하고 계속되는 단어를 맞추는 훈련이 이루어지며, 대규모 언어 모델은 이 훈련을 통해 문장을 작성할 수 있게 됩니다.

훈련에 사용되는 단어의 양은 해마다 증가하고 있으며,
2018년의 BERT는 30억 단어의 데이터로 훈련되었지만,
2019년의 RoBERTa는 300억 단어,
2020년의 GPT-3은 2,000억 단어,
2022년의 Chinchilla는 1.4조 단어의 데이터로 훈련되었습니다.

이렇게 해서 대규모 언어 모델의 성능도 향상되어 왔습니다만, 아래 그림 좌측에 표시되어 있는 것처럼, 인간은 태어나서 13년 동안 겨우 1억 단어밖에 안 듣는데도 말을 자유롭게 다룰 수 있습니다.



그래서 자연어처리 연구를 하는 젊은 학자들이 2023년 1월에 시작한 것이 「BabyLM Challenge」라는 것입니다. BabyLM Challenge는 13세 아이가 들은 단어의 양인 1억 단어로 데이터량을 제한하여 언어 모델을 훈련시키는 도전입니다.

주최 그룹에 따르면, BabyLM Challenge는 데이터 효율을 향상하는 새로운 기법의 실험장으로 이용할 수 있으며, 여기에 등장한 새로운 기법이 데이터량이 적은 언어의 모델링 기법을 개선하거나 자연 언어 처리에 일반적으로 사용하게 될 가능성을 내포하고 있다는 것.

또, BabyLM Challenge에서는 데이터량이 1억 단어로 제한되고 있을 뿐만 아니라, 트레이닝용의 데이터로 스피치가 사용되고 있습니다. 인간이 받는 것과 같은 종류 · 양의 데이터를 이용하여 언어 모델을 트레이닝하는 방법을 연구함으로써 인간이 언어를 효율적으로 습득하는 이유를 분석하는데도 도움이 된다고 합니다.

BabyLM Challenge는 누구나 참여할 수 있으며 교육용 데이터 세트는 GitHub에 업로드됩니다. 덧붙여 모델 및 결과의 제출 기한은 2023년 7월 15일로, 논문 제출의 기한은 2023년 8월 1일입니다.

반응형