딥러닝 연구로 알려진 도쿄대학의 마츠오 유타카 교수의 연구실이 오픈소스 대규모 언어 모델「Weblab-10B」를 2023년 8월 18일 자로 공개했습니다.
100억 파라미터 사이즈로 일본어/영어 2개 국어에 대응합니다. 사전 학습이 끝난 모델, 파인 튜닝(미세조정)이 끝난 모델을 각각 AI 플랫폼 「Hugging Face」에서 이용 가능합니다.
최근의 LLM의 주류는 인터넷으로부터 수집한 대량의 텍스트 데이터를 학습에 이용하지만, 대부분은 영어를 비롯한 주요 언어로 구성되어 있어, 일본어 텍스트 데이터를 대량 수집하는 것은 현재로서는 한계가 있습니다. 그래서 마츠오 연구실은 일본어뿐만 아니라 영어의 데이터 세트도 학습에 이용함으로써 데이터량을 확장하고, 언어 사이의 지식 전이를 실시하여 일본어의 정밀도를 높이는 방법을 취했습니다.
사전 학습에는
대표적인 영어 데이터 세트인 The Pile 및 일본어 데이터 세트 Japan-mC4를,
파인 튜닝에는
Alpaca(영어), Alpaca(일본어 번역), Flan 2021(영어), Flan CoT(영어), Flan Dialog(영어)의 5개 데이터 세트를 각각 사용하고 있습니다.
사전 학습과 파인 튜닝시 일본어 벤치마크인 JGLUE 평가치가 66%에서 78%로 대폭 개선되고 있어, 언어간의 지식 전이를 확인할 수 있었다고 합니다.
또한, 이 정밀도는 일본 내 오픈소스 모델로서는 최고 수준이며, 해외와 비교해도 뒤지지 않는다고 주장하고 있습니다.
덧붙여 이번 LLM에 붙여진 「Weblab」이라는 이름의 유래는, Web 공학 연구로 시작된 마츠오 연구실이, 연구 시작부터 사용해, 멤버로부터 사랑받고 있는 도메인명입니다. Web이라는 말에는 「거미 둥지」라는 의미도 있어, 다양한 사람이 섞이면서 가치를 만들어 가는 연구실과도 겹치는 것으로, 새로운 연구의 접점이 되고자 하는 기대도 담고 있습니다.
향후에는 Weblab-10B의 대규모화를 진행해, 세계와 어깨를 나란히 할 수 있는 일본발 LLM의 개발에 도전한다는 것.
■ 개발 모델의 공개 URL
이번에 개발된 Weblab-10B의 사전 학습이 끝난 모델 · 사후 학습이 끝난 모델은, 상용 이용 불가 모델로서 공개합니다(아래 Hugging Face의 페이지를 참조).
향후, 상용 이용이 가능한 모델의 개발도 검토해 나갈 것입니다.
・사전 학습된 모델
https://huggingface.co/matsuo-lab/weblab-10b
・사후 학습(파인 튜닝)이 끝난 모델
https://huggingface.co/matsuo-lab/weblab-10b-instruction-sft
'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글
ChatGPT의 답변 과반수가 부정확, 프로그래밍 관련 답변의 정밀도에 의문(미국 퍼듀 대학이 조사) (1) | 2023.08.23 |
---|---|
Google이 「대규모 시각 모델(LVM)」 에 대해 해설, 데모도 공개 (2) | 2023.08.23 |
알리바바 클라우드가 대규모 언어 모델 「퉁이치엔원(Tongyi Qianwen)」을 오픈소스로 공개 (1) | 2023.08.23 |
미 정부가 「AI 사이버 챌린지」를 개시, 상금 총액은 2천만 달러 (1) | 2023.08.23 |
애플은 수 년 전부터 생성 AI를 연구하고 있었다 (1) | 2023.08.22 |
OpenAI가 전 인스타그램 개발자들의 기업「Global Illumination」을 인수, AI 크리에이티브 툴을 취급 (1) | 2023.08.22 |
AI 탤런트를 투표로 직접 변화시키는 NFT를 「fandao 마켓」에서 서비스 개시 (2) | 2023.08.22 |
전 구글의 AI 연구원 톱 2명이 도쿄에 스타트업 「Sakana AI」를 설립하고 차세대 기술에 도전 (0) | 2023.08.22 |