본문 바로가기
AI · 인공지능/AI 뉴스

Meta의 대규모 언어 모델 "LLaMA"가 ChatGPT를 재현할 수 있다고, 다양한 채팅 AI 용 언어 모델의 벤치마크 측정으로 판명

by 두우우부 2023. 6. 1.
반응형


최근에는 기계 학습 분야의 연구가 엄청난 기세로 진행되고 있으며, 수십억을 넘는 파라미터를 가지는 대규모 언어 모델이 잇달아 발표되고 있습니다. 영국 에든버러 대학의 대규모 언어 모델 연구자인 야오 후(Jao Hu) 씨의 연구팀은 자체 벤치 마크를 기반으로 여러 대규모 언어 모델의 성능을 비교한 결과를 GitHub에 공개하고 있습니다.

GitHub - FranxYao/chain-of-thought-hub: Benchmarking large language models' complex reasoning ability with chain-of-thought prompting
https://github.com/FranxYao/chain-of-thought-hub

GitHub - FranxYao/chain-of-thought-hub: Benchmarking large language models' complex reasoning ability with chain-of-thought prom

Benchmarking large language models' complex reasoning ability with chain-of-thought prompting - GitHub - FranxYao/chain-of-thought-hub: Benchmarking large language models' complex reasoning...

github.com



연구팀에 따르면 "파라미터가 10B 미만의 언어 모델에서도 OpenAI의 GPT-3.5와 동등한 성능을 달성할 수 있다"고 주장하는 사람은 많습니다. 그러나 OpenAI는 GPT-4를 출시할 때 "대규모 언어 모델의 성능 차이는 복잡성이 높은 작업에 직면했을 때 나타난다."고 지적했습니다. 따라서 일정한 벤치마크를 기반으로 다양한 대규모 언어 모델의 성능 차이를 확인하기 위해 다음과 같은 "복잡한 추론 작업 목록"을 만들었습니다.

MMLU ……  고등학교 및 대학 수준의 지식 문제.
GSM8K …… 초등학생 레벨의 산수. 이 데이터 세트의 성능 향상은 대규모 언어 모델과 상호 작용할 때 일상적인 수학 능력에 직접 연결.
MATH …… 매우 어려운 수학 및 자연 과학 문제.
BBH ……  27가지 질문의 어려운 추론 문제.
HumanEval …… 코딩 능력을 평가하는 고전적인 데이터 세트.
C-Eval …… 52 분야에 걸친 중국어 지식 검정의 문제집.
TheoremQA …… 수학, 물리학, 전기전자공학, 컴퓨터과학, 금융 등 다분야에 걸친 350개의 정리에 근거한 질의응답 데이터세트.

그리고 연구팀이 벤치마크를 측정한 결과표는 아래와 같습니다.

덧붙여 각 대규모 언어 모델의 「타입」항목은, 「BASE : 사전 트레이닝된 것」, 「SIFT : 지도학습으로 미세조정한 것」, 「RLHF : 인간의 피드백에 의한 교과학습 후」의 결과입니다.



표를 보면 동일한 대규모 언어 모델에서도 매개 변수 수에 따라 성능에 큰 차이가 있음을 알 수 있으며 각 벤치마크 점수도 모델의 매개 변수 수에 대략 비례합니다. 연구팀은 이번 결과로부터 다음과 같은 점을 지적하고 있습니다.

・「GPT-4」는 GSM8K와 MMLU에 있어서, 다른 모든 모델보다 분명히 우수하다.
・Meta가 개발한 「LLaMa」는 파라미터수가 65B인 모델에 있어서, GPT-3을 사용한 자연언어 처리 엔진인 「text/code-davinci-002」와 매우 가까운 성능을 가지고 있어, 올바르게 조정한다면 65B LLaMa를 기반으로 ChatGPT를 재현할 수 있습니다.
・AI 연구 스타트업 Anthropic이 개발한 「Claude」는, GPT 패밀리에 필적하는 유일한 대규모 언어 모델 패밀리이다.
・GSM8K에 대해서 「gpt-3.5-turbo」가 「text-davinci-003」보다 우수한 것은, OpenAI가 2023년 1월 30일의 릴리즈 노트에서 언급한 「수학적 능력의 향상」을 뒷받침하고 있다.
・MMLU에 대해서는 「gpt-3.5-turbo」가 「text-davinci-003」보다 약간 뛰어나지만, 그 차이가 큰 것은 아니다.



연구팀은 대규모 언어 모델이 해당 분야에서 훈련되었는지 여부와 프롬프트가 최적화되었는지 등의 요인으로 인해 대규모 언어 모델의 성능을 일반적으로 엄격하게 비교하는 것은 매우 어렵다고 지적합니다. 따라서 결과는 대략적인 참고 값으로 보는 것이 좋다고 합니다.

반응형