본문 바로가기
AI · 인공지능/AI 뉴스

도쿄대학 마츠오 연구실에서 대규모 언어 모델 「Weblab-10B」를 오픈소스로 공개

by 두우우부 2023. 8. 22.
반응형

딥러닝 연구로 알려진 도쿄대학의 마츠오 유타카 교수의 연구실이 오픈소스 대규모 언어 모델「Weblab-10B」를 2023년 8월 18일 자로 공개했습니다.

100억 파라미터 사이즈로 일본어/영어 2개 국어에 대응합니다. 사전 학습이 끝난 모델, 파인 튜닝(미세조정)이 끝난 모델을 각각 AI 플랫폼 「Hugging Face」에서 이용 가능합니다.



최근의 LLM의 주류는 인터넷으로부터 수집한 대량의 텍스트 데이터를 학습에 이용하지만, 대부분은 영어를 비롯한 주요 언어로 구성되어 있어, 일본어 텍스트 데이터를 대량 수집하는 것은 현재로서는 한계가 있습니다. 그래서 마츠오 연구실은 일본어뿐만 아니라 영어의 데이터 세트도 학습에 이용함으로써 데이터량을 확장하고, 언어 사이의 지식 전이를 실시하여 일본어의 정밀도를 높이는 방법을 취했습니다.

사전 학습에는 
대표적인 영어 데이터 세트인 The Pile 및 일본어 데이터 세트 Japan-mC4를,

파인 튜닝에는 
Alpaca(영어), Alpaca(일본어 번역), Flan 2021(영어), Flan CoT(영어), Flan Dialog(영어)의 5개 데이터 세트를 각각 사용하고 있습니다.

사전 학습과 파인 튜닝시 일본어 벤치마크인 JGLUE 평가치가 66%에서 78%로 대폭 개선되고 있어, 언어간의 지식 전이를 확인할 수 있었다고 합니다.

또한, 이 정밀도는 일본 내 오픈소스 모델로서는 최고 수준이며, 해외와 비교해도 뒤지지 않는다고 주장하고 있습니다.

 

덧붙여 이번 LLM에 붙여진 「Weblab」이라는 이름의 유래는, Web 공학 연구로 시작된 마츠오 연구실이, 연구 시작부터 사용해, 멤버로부터 사랑받고 있는 도메인명입니다. Web이라는 말에는 「거미 둥지」라는 의미도 있어, 다양한 사람이 섞이면서 가치를 만들어 가는 연구실과도 겹치는 것으로, 새로운 연구의 접점이 되고자 하는 기대도 담고 있습니다.

향후에는 Weblab-10B의 대규모화를 진행해, 세계와 어깨를 나란히 할 수 있는 일본발 LLM의 개발에 도전한다는 것.


■ 개발 모델의 공개 URL
이번에 개발된 Weblab-10B의 사전 학습이 끝난 모델 · 사후 학습이 끝난 모델은, 상용 이용 불가 모델로서 공개합니다(아래 Hugging Face의 페이지를 참조).
향후, 상용 이용이 가능한 모델의 개발도 검토해 나갈 것입니다.

사전 학습된 모델
https://huggingface.co/matsuo-lab/weblab-10b


사후 학습(파인 튜닝)이 끝난 모델
https://huggingface.co/matsuo-lab/weblab-10b-instruction-sft

반응형