중국 상하이교통대학 및 Meta AI 등에 소속된 연구자들이 AI가 생성한 문장의 사실성을 검증하기 위한 툴「FacTool」을 개발하고, 논문 「FacTool: Factuality Detection in Generative AI ? A Tool Augmented Framework for Multi-Task and Multi-Domain Scenarios」를 2023년 7월 25일에 발표했습니다.
이 논문에 따르면 대화형 AI 'ChatGPT' 등의 핵심이 되고 있는 대규모 언어 모델(LLM)이 생성한 문장이 사실을 오인하고 있는지 확인하는 것이 가능하다고 합니다.
LLM이 생성한 문장은 인간에게 유용한 정보원이 될 수 있지만, 그 능력에는 한계가 있고, 종종 부정확하고, 진실로부터 벗어난 대답을 합니다. 따라서 금융, 보건, 법률 등의 분야에서는 사용 제한이 걸려 있습니다. 신뢰성과 유용성을 향상하기 위해서는 오류를 체계적으로 식별하는 것이 중요합니다.
FacTool은 이하의 5개 부분으로 구성되어 있습니다.
1. 문장에서 사실 검증이 필요한 「주장(claim)」을 추출하는 기능
2. 주장을 바탕으로 검증을 위한「질문(query)」 을 생성하는 기능
3. 다양한 외부 툴에 질문을 보내는 기능
4. 외부 툴로부터 검증을 위한 「근거(evidence)」를 받는 기능
5. 모인 근거를 바탕으로 실제 검증을 실시하는 기능
덧붙여, 검증을 위해 사용하는 툴은 Google의 검색 엔진을 비롯해, 학술 논문 찾기에 특화된 「Google Scholar」나, 프로그램을 실행하는 각종 코드 인터프리터 등입니다.
연구팀은 여러 대규모 언어 모델(LLM)에
지식 기반의 질의응답,
프로그래밍 코드 생성,
수학 문제 해결,
과학 논문 검토 쓰기 등의 4가지 작업을 진행했으며, 각각에 대해 FacTool로 검증을 실시했습니다.
그 결과, ChatGPT에 탑재된 미국 OpenAI의 최신 LLM 「GPT-4」가 다른 모델과 비교하여 사실 정밀도가 가장 높은 것을 확인할 수 있었습니다. 한편, 오픈 소스 챗봇 「Vicuna-13B」의 LLM은, 지식 베이스의 질의응답에서는 양호한 성적을 나타냈지만, 코드 생성 등의 다른 작업에서의 태스크는 낮은 성능을 보였습니다.
'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글
6명 중 1명이 쇼핑하는데 AI를 사용(세일즈포스 설문 조사) (1) | 2023.08.25 |
---|---|
PC에서도 생성 AI를 만들 수 있는 툴킷 「NVIDIA AI Workbench」 (1) | 2023.08.25 |
망막 스캔을 통한 AI 분석으로 파킨슨병을 발병 7년 전에 검출 가능하다고 보고 (2) | 2023.08.25 |
식도암과 위암을 3년 전에 미리 예측할 수 있는 AI 기술이 등장 (1) | 2023.08.25 |
IBM이 AI를 활용하여 COBOL 언어를 Java로 변환하는 「Watsonx Code Assistant for Z」를 출시한다고 발표 (3) | 2023.08.24 |
Meta가 음성 입력으로 「음성 인식」,「번역」,「더빙」을 동시 실행하는 AI「SeamlessM4T」공개 (2) | 2023.08.24 |
OpenAI가 「GPT-3.5 Turbo」의 파인 튜닝 기능을 릴리즈, 독자적인 커스터마이즈가 가능 (1) | 2023.08.24 |
AI에 의한 레시피 앱이 염소 가스를 발생시키는 등 식사에 부적절한 메뉴를 생성한 것으로 보고된다 (3) | 2023.08.23 |