본문 바로가기
AI · 인공지능/AI 뉴스

PFN이 세계 Top 성능의 대규모 언어 모델 「PLaMo-13B」를 오픈 소스로 공개

by 두우우부 2023. 10. 6.
반응형
X축 : 영어 성능, Y축 : 일본어 성능

 
Preferred Networks(PFN)는 2023년 9월 28일, 130억 파라미터의 사전 학습이 끝난 대규모 언어 모델 「PLaMo-13B(Preferred Language Model)」 를 연구 및 상용이용 가능한 오픈 소스로 공개했습니다.

https://huggingface.co/pfnet/plamo-13b

pfnet/plamo-13b · Hugging Face

PLaMo-13B Model Description PLaMo-13B is a LLaMA-based 13B model pre-trained on English and Japanese open datasets, developed by Preferred Networks, Inc. PLaMo-13B is released under Apache v2.0 license. PLaMo-13B Release blog (Japanese) Usage Requirements

huggingface.co


현재 공개되어 있는 동일 규모 파라미터수의 사전 학습이 끝난 언어 모델과 비교했을 때, 대규모 언어 모델의 벤치마크 평가에 있어서, 일어・영어 2 언어를 합친 능력에서 세계 Top 레벨의 성능을 나타내고 있습니다.

PLaMo-13B의 학습 데이터는 1.4조 토큰의 일어・영어 2 언어의 데이터 세트를 사용, 국립연구개발법인 산업기술종합연구소의 NVIDIA A100의 480GPU를 사용하여 약 1개월의 학습을 실시했습니다. 이에 따라 영어와 일본어 데이터를 늘려 콤팩트하면서 높은 성능을 가진 모델을 개발했습니다.

또한 PFN은 동시에 새로운 회사 설립에 관한 발표도 했습니다. 멀티모달 기반 모델의 개발을 강화할 목적으로 Preferred Elements를 설립, 대규모의 고기능 기반 모델을 개발하여 2024년 중 상용 서비스 제공 개시를 목표로 하고 있습니다.

반응형