캘리포니아 대학 버클리 학교의 학생과 교원이 캘리포니아 대학 샌디에이고 학교와 카네기 멜론 대학과 협력하여 설립한 오픈 연구 조직 "Large Model Systems Org(LMSYS Org)"가 ChatGPT, Palm, Vicuna 등의 채팅 AI와 대규모 언어 모델(LLM)의 벤치마크 「 Chatbot Arena」 를 공개하고 있습니다.
Chatbot Arena Leaderboard Updates (Week 4) | LMSYS Org
Chatbot Arena에서는 LLM 기반의 대화형 AI를 평가하기 위한 오픈 플랫폼 「FastChat」에 유저를 초대하여, 익명의 모델 2종류를 상대로 대화를 실시해, 어느 쪽이 보다 정밀도가 높았는지 투표를 실시합니다. 이 투표 결과에서 체스 등에서 널리 사용되고 있는 Elo 등급에 기반한 승패 등급이 매겨지고 순위표가 공개되었습니다.
2023년 4월 24일부터 5월 22일까지 행해진 2만 7,000표 분의 익명 투표 데이터에 근거한 순위표가 아래.
1위는 OpenAI의 GPT-4를 기반으로 하는 ChatGPT로, 2위와 3위는 OpenAI의 경쟁사인 Anthropic의 Claude-v1과 그 경량 모델이었습니다.
순위 | 모델 | Elo로 등급 | 해설 |
1 | GPT-4 | 1225년 | GPT-4 기반 ChatGPT |
2 | Claude-v1 | 1195년 | Anthropic의 채팅 AI |
3 | Claude-instant-v1 | 1153년 | Claude의 경량화 모델로 보다 빠르고 저비용 |
4 | GPT-3.5-turbo | 1143년 | GPT-3.5 기반 ChatGPT |
5 | Vicuna-13B | 1054년 | LLaMA에서 미세 조정된 채팅 AI, 파라미터 수 130억 |
6 | PaLM 2 | 1042년 | Google의 채팅 AI "Bard"와 마찬가지로 "PaLM 2"를 기반으로 한 채팅 AI. |
7 | Vicuna-7B | 1007년 | LLaMA에서 미세 조정된 채팅 AI, 파라미터 수 70억 |
8 | Koala-13B | 980 | GPT-3.5 Turbo 기반의 채팅 AI |
9 | mpt-7B-chat | 952 | MosaicML의 오픈 소스 LLM 'MPT-7B' 기반 채팅 AI |
10 | FastChat-T5-3B | 941 | LMSYS org가 개발한 채팅 AI |
11 | Alpaca-13B | 937 | Meta의 LLAMA를 파인 튜닝한 LLM 'Alpaca 7B' 기반의 채팅 AI |
12 | RMKV-4-Raven-14B | 928 | Transformer 채용 LLM과 동등한 성능을 가진 RNN 채용 LLM 기반 채팅 AI |
13 | Oasst-Pythia-12B | 921 | LAION의 오픈 어시스턴트 |
14 | ChatGLM-6B | 921 | 칭화대학의 개방형 이중 언어 대화 언어 모델 |
15 | StableLM-Tuned-Alpha-7B | 882 | Stablity AI의 언어 모델 기반 채팅 AI |
16 | Dolly-V2-12B | 886 | Databricks MIT가 튜닝한 오픈 소스 LLM 기반 채팅 AI |
17 | LLaMA-13B | 854 | Meta의 LAMA-13B를 기반으로 한 채팅 AI |
승률을 색으로 나타낸 표가 아래. 승률이 높을수록 파랗고 낮을수록 빨간색으로 표시됩니다.
이번 결과에서 LMSYS Org는 'Google PaLM 2'에 주목하고 있습니다. PaLM 2는 순위표에서 보면 6위를 차지하며 승률도 결코 낮지 않습니다. 그러나 LMSYS Org는 "PaLM 2는 다른 모델에 비해 규제가 엄격한 것 같습니다. 유저가 불확실한 질문이나 대답하기 어려운 질문을 했을 경우, Palm 2는 다른 모델에 비해 회답을 피할 가능성이 높아진다."라는 것입니다.
예를 들어 Linux 터미널이나 프로그래밍 언어의 인터프리터를 에뮬레이트하도록 요청하면 Palm 2는 거부했다고 합니다. 또한 LMSYS Org는 "PaLM 2의 추론 능력이 충분하지 않다."라고 평가했습니다.
또한, Palm 2는 중국어나 스페인어, 히브리어 등 영어 이외의 질문에는 회답하지 않는 경향도 보였다고 합니다. 영어로 질문한 경우에만 고려한 순위라면 Palm 2는 5위를 차지했지만 영어 이외의 질문을 했을 때의 순위에서는 16위로 떨어졌습니다.
그리고 LMSYS Org는 Vicuna-7B와 mpt-7b-chat과 같은 비교적 작은 LLM을 기반으로 한 채팅봇의 순위가 높다는 점에 주목하고 있습니다. 매개변수가 2배 이상인 대형 모델과 비교했을 때, 소형 모델이 성능은 유리하다는 것이 밝혀졌다. "파인 튜닝의 데이터 세트가 중요한 경우도 있는 것 같습니다."라고 말하고 있습니다.
'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글
오픈 소스로 상용 이용도 가능한 대규모 언어 모델 「Falcon」이 등장, 오픈 소스 모델 중 최고의 성능 (4) | 2023.06.07 |
---|---|
ChatGPT 등의 대규모 언어 모델은 어떤 이론으로 성립되었는가? 중요논문 24선 정리 (3) | 2023.06.05 |
TikTok에서 살인사건 피해자가 자신의 최후를 말하는 영상이 증가 중 (3) | 2023.06.05 |
AI 탑재 드론이 표적 파괴 작전 시뮬레이션에서 자신의 오퍼레이터를 살해 (4) | 2023.06.05 |
명반 자켓을 Photoshop의 「제네레이티브 채우기」로 보완하면 어떻게 될까 (4) | 2023.06.02 |
'아이가 듣는 단어의 양' 만으로 대규모 언어 모델을 새롭게 트레이닝하는 「BabyLM Challenge」 (4) | 2023.06.02 |
상대가 AI인지 인간인지를 판단하는 테스트 "Human or Not?"에서 68%의 사람이 올바르게 판별 (3) | 2023.06.02 |
AI를 크툴루 신화의 쇼거스로 표현하는 밈은 도대체 무엇인가? (3) | 2023.06.02 |