ChatGPT의 실수를 찾는 GPT-4 기반 모델 「CriticGPT」 개발
OpenAI가 ChatGPT의 오류를 감지하는 AI 모델 「CriticGPT」 를 개발했다고 발표했습니다. CriticGPT는 ChatGPT와 마찬가지로 GPT-4를 기반으로 개발되었다고 합니다.
Finding GPT-4's mistakes with GPT-4 | OpenAI
https://openai.com/index/finding-gpt4s-mistakes-with-gpt-4/
ChatGPT와 같은 채팅 AI를 사용하면 적은 조작으로 코드를 생성하거나 긴 텍스트를 만들 수 있습니다. 그러나 채팅 AI가 생성하는 코드와 문장에는 오류가 포함되는 경우도 많고, "ChatGPT에서 생성한 코드를 그대로 사용한 결과, 버그로 인한 손해를 입었다."는 보고도 존재하고 있습니다.
OpenAI는 ChatGPT의 오류를 감지하고 정정하는 AI 모델 "CriticGPT"를 개발했습니다.
CriticGPT는 GPT-4를 기반으로 개발된 모델로, "수동으로 실수를 포함한 코드"와 "코드의 실수를 정정하는 문장"을 학습함으로써 코드의 에러 검출 능력과 정정 능력이 강화되었다고 합니다.
CriticGPT의 사용예가 이하. ChatGPT가 생성한 코드에 대해서, CriticGPT가 「이 용도로의 startswith 메소드의 이용은 적절하지 않다」 라고 지적하면서 대안을 제시하고 있습니다.
이하의 그래프는 「인간(녹색)」, 「CriticGPT(오렌지)」, 「인간과 CriticGPT(핑크)」 로 「코드에 대한 비평의 완전성」 을 비교한 것입니다. 인간의 비평보다 CriticGPT의 비평 완전성이 높다는 것을 알 수 있습니다.
「코드에 대한 비평에 사실과 다른 정보가 포함되는 비율」 을 비교한 그래프가 이하로, 환각이 포함되는 비율은 인간이 CriticGPT를 사용할 때 가장 낮아지는 것을 알 수 있습니다.
OpenAI는 "복잡해지는 AI 시스템을 조정하기 위해서는 더 나은 도구가 필요하다."라고 말하며 앞으로도 CriticGPT와 같은 AI 출력을 조정하는 도구를 개발할 의향을 보여주고 있습니다.