AI 기업인 Vectara가 오픈 소스 환각 평가 모델(HEM)을 발표했습니다.
Measuring Hallucinations in RAG Systems - Vectara
대규모 언어 모델은 질문에 정확하게 대답하는 경우도 있다. 대규모 언어 모델은 어디까지나 통계적으로 말을 출력하고 있는 것으로, 출력하고 있는 내용의 의미를 이해하고 있는 것은 아니기 때문에, 무엇을 말하고 있는지 잘 모르는 듯한 대답을 돌려줄 가능성이 있어, 대규모 언어 모델과 같은 생성 AI의 도입을 고려하고 있는 기업에 있어서 「환각」은 가장 우려하는 리스크의 하나라고 할 수 있습니다.
많은 기업들이 환각에 의한 리스크가 정량화되어 있지 않기 때문에, 구체적인 리스크 검토를 할 수 없는 것이 현재 상황입니다.
Vectara는 기업의 대규모 언어 모델의 진정한 힘이 '검색 강화 생성(RAG)'에 의해 초래된다고 주장합니다. RAG는 대규모 언어 모델이 가진 지식의 내부 표현을 보완하기 위해 외부 지식 소스에 AI를 접하게 하는 것으로 환각을 경감시키는 효과가 있다는 것입니다.
이번에 Vectara가 개발한 HEM은 은행의 신용등급이 금융위험 고려 기능하도록 대규모 언어 모델의 정확성과 환각률을 평가할 수 있습니다. Vectara는 OpenAI의 GPT와 Meta의 Lama 등과 같은 대규모 언어 모델의 환각률 평가 결과를 GitHub에 공개하고 있습니다.
GitHub - vectara/hallucination-leaderboard: Leaderboard Comparing LLM Performance at Producing Hallucinations when Summarizing Short Documents
https://github.com/vectara/hallucination-leaderboard
Vectara의 평가는 1000개의 짧은 문서를 대규모 언어 모델에 공개 경유로 입력해, 그 문서 내에 쓰여 있는 내용만을 사용해 각각의 문서를 요약하도록 지시했다는 것. 그리고 모든 대규모 언어 모델이 요약에 성공한 1000건 중 831건을 대상으로 요약의 '정확성(Accuracy)'과 환각으로 요약이 부정확해진 '환각률(Hallucination Rate)'을 계산했습니다. 또한, 1000건의 문서 중에서 요약한 비율을 「답률(Answer Rate)」, 요약한 문장의 단어수 평균을 「요약의 평균 길이(Average Summary Length)」로 정리하고 있습니다.
현시점에서 가장 환각을 일으키기 어려웠던 것은 OpenAI의 GPT-4였고 환각률은 3.0%였습니다. 반면 환각률이 가장 높았던 것은 구글의 Palm-Chat으로 27.2%였습니다.
Vectara가 출시한 HEM은 AI 관련 라이브러리 플랫폼인 Hugging Face에 오픈소스로 공개되어 있습니다.
vectara/hallucination_evaluation_model · Hugging Face
https://huggingface.co/vectara/hallucination_evaluation_model
'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글
미국 최초의 AI 규제 대통령령 「개발자는 공개 전에 테스트하고 사전에 미국 정부와 공유할 것」 (0) | 2023.11.09 |
---|---|
소프트뱅크 산하 BOLDLY와 에스토니아 기업 Auve Tech가 개발한 「MiCa」가 자율주행 레벨 4 대응으로 일본의 공도를 주행 (65) | 2023.11.08 |
OpenAI가 코딩 없이 ChatGPT를 '사용자 정의' 할 수 있는「GPTs」를 발표 (57) | 2023.11.08 |
OpenAI가 GPT-4의 업그레이드판 대규모 언어 모델 「GPT-4 Turbo」를 발표 (3) | 2023.11.08 |
일론 머스크의 인공지능기업 xAI가 프롬프트 엔지니어링용 통합 개발 환경 'PromptIDE'를 발표 (0) | 2023.11.08 |
일론 머스크가 ChatGPT의 라이벌 AI「Grok」발표 (46) | 2023.11.06 |
AI 만으로 Angry Birds의 복제 게임을 만든 엔지니어가 등장 (51) | 2023.11.06 |
GPT-4로 논문 검토? 스탠퍼드, Nature 등의 논문 약 4,800개로 검증 (2) | 2023.11.06 |