본문 바로가기
AI · 인공지능/AI 뉴스

대화형 채팅 AI의 벤치마크 순위 공개, 1위는 GPT-4

by 두우우부 2023. 6. 4.
반응형

캘리포니아 대학 버클리 학교의 학생과 교원이 캘리포니아 대학 샌디에이고 학교와 카네기 멜론 대학과 협력하여 설립한 오픈 연구 조직 "Large Model Systems Org(LMSYS Org)"가 ChatGPT, Palm, Vicuna 등의  채팅 AI와 대규모 언어 모델(LLM)의 벤치마크  「 Chatbot Arena」 를 공개하고 있습니다.

Chatbot Arena Leaderboard Updates (Week 4) | LMSYS Org

 

Chatbot Arena Leaderboard Updates (Week 4) | LMSYS Org

<p>In this update, we are excited to welcome the following chatbots joining the Arena:</p> <ol> <li>Google PaLM 2, chat-tuned with the code name <a href="htt...

lmsys.org

 


Chatbot Arena에서는 LLM 기반의 대화형 AI를 평가하기 위한 오픈 플랫폼 「FastChat」에 유저를 초대하여, 익명의 모델 2종류를 상대로 대화를 실시해, 어느 쪽이 보다 정밀도가 높았는지 투표를 실시합니다. 이 투표 결과에서 체스 등에서 널리 사용되고 있는 Elo 등급에 기반한 승패 등급이 매겨지고 순위표가 공개되었습니다.

2023년 4월 24일부터 5월 22일까지 행해진 2만 7,000표 분의 익명 투표 데이터에 근거한 순위표가 아래.

 

1위는 OpenAI의 GPT-4를 기반으로 하는 ChatGPT로, 2위와 3위는 OpenAI의 경쟁사인 Anthropic의 Claude-v1과 그 경량 모델이었습니다.

 

순위 모델 Elo로 등급 해설
1 GPT-4 1225년 GPT-4 기반 ChatGPT
2 Claude-v1 1195년 Anthropic의 채팅 AI
3 Claude-instant-v1 1153년 Claude의 경량화 모델로 보다 빠르고 저비용
4 GPT-3.5-turbo 1143년 GPT-3.5 기반 ChatGPT
5 Vicuna-13B 1054년 LLaMA에서 미세 조정된 채팅 AI, 파라미터 수 130억
6 PaLM 2 1042년 Google의 채팅 AI "Bard"와 마찬가지로 "PaLM 2"를 기반으로 한 채팅 AI.
7 Vicuna-7B 1007년 LLaMA에서 미세 조정된 채팅 AI, 파라미터 수 70억
8 Koala-13B 980 GPT-3.5 Turbo 기반의 채팅 AI
9 mpt-7B-chat 952 MosaicML의 오픈 소스 LLM 'MPT-7B' 기반 채팅 AI
10 FastChat-T5-3B 941 LMSYS org가 개발한 채팅 AI
11 Alpaca-13B 937 Meta의 LLAMA를 파인 튜닝한 LLM 'Alpaca 7B' 기반의 채팅 AI
12 RMKV-4-Raven-14B 928 Transformer 채용 LLM과 동등한 성능을 가진 RNN 채용 LLM 기반 채팅 AI
13 Oasst-Pythia-12B 921 LAION의 오픈 어시스턴트
14 ChatGLM-6B 921 칭화대학의 개방형 이중 언어 대화 언어 모델
15 StableLM-Tuned-Alpha-7B 882 Stablity AI의 언어 모델 기반 채팅 AI
16 Dolly-V2-12B 886 Databricks MIT가 튜닝한 오픈 소스 LLM 기반 채팅 AI
17 LLaMA-13B 854 Meta의 LAMA-13B를 기반으로 한 채팅 AI

 


승률을 색으로 나타낸 표가 아래. 승률이 높을수록 파랗고 낮을수록 빨간색으로 표시됩니다.

 


이번 결과에서 LMSYS Org는 'Google PaLM 2'에 주목하고 있습니다. PaLM 2는 순위표에서 보면 6위를 차지하며 승률도 결코 낮지 않습니다. 그러나 LMSYS Org는 "PaLM 2는 다른 모델에 비해 규제가 엄격한 것 같습니다. 유저가 불확실한 질문이나 대답하기 어려운 질문을 했을 경우, Palm 2는 다른 모델에 비해 회답을 피할 가능성이 높아진다."라는 것입니다.


예를 들어 Linux 터미널이나 프로그래밍 언어의 인터프리터를 에뮬레이트하도록 요청하면 Palm 2는 거부했다고 합니다. 또한 LMSYS Org는 "PaLM 2의 추론 능력이 충분하지 않다."라고 평가했습니다.

 

또한, Palm 2는 중국어나 스페인어, 히브리어 등 영어 이외의 질문에는 회답하지 않는 경향도 보였다고 합니다. 영어로 질문한 경우에만 고려한 순위라면 Palm 2는 5위를 차지했지만 영어 이외의 질문을 했을 때의 순위에서는 16위로 떨어졌습니다.

 

 


그리고 LMSYS Org는 Vicuna-7B와 mpt-7b-chat과 같은 비교적 작은 LLM을 기반으로 한 채팅봇의 순위가 높다는 점에 주목하고 있습니다. 매개변수가 2배 이상인 대형 모델과 비교했을 때, 소형 모델이 성능은 유리하다는 것이 밝혀졌다. "파인 튜닝의 데이터 세트가 중요한 경우도 있는 것 같습니다."라고 말하고 있습니다.

반응형