본문 바로가기
AI · 인공지능/AI 뉴스

Databricks가 오픈한 대규모 언어 모델 「 DBRX 」 를 릴리스, GPT-3.5나 CodeLLaMA-70B를 웃도는 성능

by 두우우부 2024. 3. 29.
반응형

 
 
데이터 분석 툴 등을 제공하는 기업인 Databricks가, 2024년 3월 27일에 오픈한 범용 대규모 언어 모델(LLM)인  「 DBRX 」 를 발표했습니다. 오픈 라이센스로 배포되며 월간 활성 사용자가 7억 명 이하인 기업은 무료로 상용 이용도 가능하다고 합니다.

Introducing DBRX: A New State-of-the-Art Open LLM | Databricks

Introducing DBRX: A New State-of-the-Art Open LLM | Databricks

www.databricks.com



DBRX는 트랜스포머 디코더를 사용하는 LLM으로 "mixture-of-experts(MoE)" 아키텍처가 채용되고 있습니다. 파라미터의 총수는 1320억으로 되어 있지만, 모든 입력에 반응하는 것은 360억 파라미터만으로, 나머지 파라미터는  「전문가」 로서의 수요에 따라 활성화됩니다. MoE(mixture-of-experts) 아키텍처를 채용하는 것으로, 사이즈를 억제해 고효율의 학습이나 추론을 가능하게 하여 성능을 높였다고 합니다.

마찬가지로 MoE 아키텍처를 채용한 Mixtral과 Grok-1이 8명의 전문가를 탑재하고 입력마다 2명을 활성화하는 반면 DBRX는 16명의  「전문가」 를 탑재하여 입력당 4명을 활성화합니다.  「전문가」 의 조합수가 65배가 됨으로써 모델의 품질이 향상되었다고 합니다.

또한 DBRX는 최대 콘텍스트 길이 32,000 토큰의 총 12조 토큰 데이터로 교육되었습니다.  「전문가」 가 혼재하는 MoE 모델을 트레이닝하는 것은 어려웠지만, 효율적인 방법으로 반복 트레이닝할 수 있는 견고한 파이프라인을 개발해, 누구라도 DBRX 레벨의 MoE 기초 모델을 처음부터 트레이닝할 수 있게 했다고 합니다.

아래 도표는 「 언어 이해 」,  「 프로그래밍 」,  「 수학 」 의 벤치마크 결과로, DBRX는 LLAMa2-70B나 Mixtral, Grok-1등의 모델보다 좋은 결과를 내고 있습니다. 또한  「전문가」 를 탑재함으로써 범용 성능을 확보하면서 프로그래밍 등 특화가 필요한 영역에서의 성능도 확보하고 있습니다.



또한 "GPT-3.5", "GPT-4", "Claude 3 시리즈", "Gemini 1.0 Pro", "Gemini 1.5 Pro", "Mistral"과 같은 클로즈드 소스의 LLM과 비교한 결과는 아래 표와 같습니다. DBRX Instruct는 Gemini 1.0 Pro나 Mistral Medium 등과 동등한 수준으로 보입니다.

모델 DBRX
Instruct
GPT-3.5 GPT-4 Claude 3 Haiku Claude 3 Sonnet Claude 3 Opus Gemini 1.0 Pro Gemini 1.5 Pro Mistral Medium Mistral Large
MT Bench ( Inflection correctod , n=5) 8.39±0.08 8.41±0.04  8.54±0.09 9.03±0.06 8.23±0.08 8.05±0.12 8.90±0.06
MMLU 5-shot 73.7% 70.0% 86.4% 75.2% 79.0% 86.8% 71.8% 81.9% 75.3% 81.2%
HellaSwag 10-shot 89.0% 85.5% 95.3% 85.9% 89.0% 95.4% 84.7% 92.5% 88.0% 89.2%
HumanEval 0-Shot
pass@1
(Programming)
70.1% 

temp=0, N=1
48.1% 67.0% 75.9% 73.0% 84.9% 67.7% 71.9% 38.4% 45.1%
GSM8k CoT maj@1 72.8% (5-shot) 57.1% (5-shot) 92.0% (5-shot) 88.9% 92.3% 95.0% 86.5%

(maj1@32)
91.7% (11-shot) 66.7% (5-shot) 81.0% (5-shot)
WinoGrande 5-shot 81.8% 81.6% 87.5% 88.0% 86.7%



추론의 효율을 나타내는  「 1초 ・1 유저당의 출력 토큰수 」 는 아래 그림과 같습니다. 어느 유저 수에 대해서도, 보다 작은 모델인 Mixtral-8x7B가 최대 출력을 자랑하고 있습니다. 한편, 붉게 표시되어 있는 DBRX의 추론 효율은 LLaMa2-70B나 Dense-132B를 크게 웃돌았습니다.


기본 모델인 DBRX Base와 파인 튜닝된 모델 DBRX Instruct는 모두 Hugging Face에서 오픈 라이센스로 배포되고 있으며 Databricks의 Foundation Model API 를 통해 쉽게 이용 가능하다고 합니다.

반응형