본문 바로가기
AI · 인공지능/AI 뉴스

「ChatGPT, Copilot, Gemini, Claude, Perplexity」 의 성능을 일상 대화로 평가한 결과 공개

by 두우우부 2024. 5. 29.
반응형

 

AI의 정밀도 향상에 따라, ChatGPT나 Copilot, Gemini 등 일상 대화를 위화감 없이 해낼 수 있는 채팅 AI가 잇달아 등장하고 있습니다. 그러나 일반 사용자로부터 어느 채팅 AI가 고성능인지 판단하기는 어렵습니다. 그런 가운데 월 스트리트 저널이 5종의 채팅 AI를 대상으로 '일상 대화에 대한 응답 성능을 인간이 평가하는 테스트'로 실시하여 결과를 공개했습니다.

The Great AI Chatbot Challenge: ChatGPT vs. Gemini vs. Copilot vs. Perplexity vs. Claude - WSJ
https://www.wsj.com/tech/personal-tech/ai-chatbots-chatgpt-gemini-copilot-perplexity-claude-f9e40d26

AI 기업이나 AI 연구원이 자신이 개발한 AI 성능을 어필할 때에는 벤치마크 툴을 사용하여 측정한 스코어가 자주 사용됩니다. 그러나 벤치마크 테스트 점수가 좋다고 해서 일상적인 대화에 나오는 질문을 정확하게 대답할 수 있는 것은 아닙니다. 그래서 월 스트리트 저널은 'ChatGPT', 'Copilot', 'Gemini', 'Claude', 'Perplexity'의 5종 채팅 AI에 대해 일상 대화에서 발생할 것 같은 질문을 입력하고 응답 내용을 평가하는 테스트를 실시했습니다.

 

테스트에 이용한 질문은 월 스트리트 저널의 편집자나 칼럼니스트가 협력하여 작성해, 「건강, 금융, 요리」 등 다양한 카테고리의 질문이 준비되었습니다. 예를 들어, 요리 카테고리에는 "밀가루, 글루텐, 유제품, 견과류, 계란을 사용하지 않고 초콜릿 케이크를 구울 수 있습니까? 가능한 경우 레시피를 가르쳐주세요"라는 질문이 포함되어 있습니다. 편집자와 칼럼니스트는 이 질문을 5가지 채팅 AI에 입력했으며, 그 응답 내용을 어떤 AI의 응답인지 숨긴 상태에서 "정확성, 유용성, 전체적인 품질"을 평가했습니다. 또한 테스트에는 채팅 AI의 유료 버전이 사용되었으며 ChatGPT에서는 "GPT-4o", Gemini에서는 "Gemini 1.5 Pro"가 사용되었습니다.

테스트 결과는 다음과 같습니다.

질문의 카테고리에 따라 성능에는 편차가 있었지만, 종합적인 평가에서는 Perplexity가 선두가 되었습니다. 다만, Perplexity는 5종의 채팅 AI 중에서 가장 응답 시간이 늦었다고 합니다. 또한, 코딩에 관한 질문에서는 5종의 채팅 AI에 큰 차이가 생기지 않았다고 합니다.

  1위 2위 3위 4위 5위
건강 ChatGPT Gemini Perplexity Claude Copilot
금융 Gemini Claude Perplexity ChatGPT Copilot
요리 ChatGPT Gemini Perplexity Claude Copilot
직업 관련 문장 작성 Claude Perplexity Gemini ChatGPT Copilot
창의적인 문장 작성 Copilot Claude Perplexity Gemini ChatGPT
요약 Perplexity Copilot ChatGPT Claude Gemini
시사 문제 Perplexity ChatGPT Copilot Claude Gemini
코딩 Perplexity ChatGPT Gemini Claude Copilot
응답 시간 ChatGPT Gemini Copilot Claude Perplexity
포괄적인 평가 Perplexity ChatGPT Gemini Claude Copilot


또한 AI의 성능을 포괄적으로 분석한 예는 그 밖에도 존재하고 있습니다. 예를 들어 스탠퍼드 대학은 AI의 성능과 영향력을 분석한 보고서를 2017년부터 매년 공개하고 있습니다. 스탠퍼드 대학의 AI 리포트 2024년판의 내용은 아래에서 확인할 수 있습니다.

스탠퍼드 대학의 2024 AI 리포트 「AI Index Report 2024」

최신 AI 연구개발의 현 상황을 정리한 「AI Index Report 2024」 를 스탠퍼드 대학이 공개했습니다. AI Index Report 2024 – Artificial Intelligence Index https://aiindex.stanford.edu/report/ 스탠퍼드 대학은 AI의 능력과

doooob.tistory.com

반응형