본문 바로가기
AI · 인공지능/AI 뉴스

수학에 강한 AI 「WizardMath」가 등장, Meta의 'Llama-2'를 강화

by 두우우부 2023. 9. 4.
반응형

수학에 강한 새로운 대규모 언어 모델(LLM) 「WizardMath」가 등장했습니다. 미국 마이크로소프트와
중국과학원 심천 선진기술연구원의 연구자들이 2023년 8월 18일 발표한 논문입니다.  

WizardMath: Empowering Mathematical Reasoning for Large Language Models via Reinforced Evol-Instruct
https://arxiv.org/abs/2304.12244

WizardLM: Empowering Large Language Models to Follow Complex Instructions

Training large language models (LLMs) with open-domain instruction following data brings colossal success. However, manually creating such instruction data is very time-consuming and labor-intensive. Moreover, humans may struggle to produce high-complexity

arxiv.org

수학에 강한 AI와 약한 AI

OpenAI가 개발한 대화형 AI(챗봇) 「ChatGPT」를 비롯해 다양한 AI의 중심이 되고 있는 LLM은, 각사가 개발을 진행하고 있지만 수학 문제를 푸는 성능에는 큰 차이가 있습니다.

예를 들어, ChatGPT의 핵심 인 "GPT-4"는 논문에 따르면 어려운 수학적 추론을 포함한 자연 언어 처리(NLP)에 높은 실력을 보여줍니다. 그러나 내부의 세부구조 등은 폐쇄(비공개)되어 있으며, 'Llama-2' 같이 내부 구조까지 공개한 오픈 소스 LLM의 대다수는 수학 관련 최적화가 되어있지 않다고 합니다.

잘 알려진 바와 같이 Microsoft는 GPT-4를 개발한 OpenAI와 제휴, Llama-2를 개발한 Meta와도 협력 관계에 있으며, 이번 WizardMath는 Llama-2의 수학 능력을 GPT-4에 가깝게 하고자 하는 대처입니다.

수학의 지시 데이터를 AI가 만들도록 훈련

이 연구에서 주목한 것은 「Reinforcement Learning from Evol-Instruct Feedback(RLEIF)」라는 새로운 기법입니다.

인간 대신에 LLM에 대량의 지시 데이터를 생성시키는 「Evol-Instruct」를 응용해, 초등 산수부터 고난도 수학까지를 대상으로 한 데이터를 생성시켜, Llama-2의 파인 튜닝에 이용합니다.




그 결과 완성된 WizardMath에 대해 「GSM8k」및 「MATH」의 수학적 추론 벤치마크로 평가했는데, 다른 오픈 소스 LLM을 대폭 웃도는 능력이 나왔다고 합니다. 또 GSM8k에서는 ChatGPT-3.5, Claude Instant-1, Palm-2, Minerva 등의 클로즈드 LLM도 웃돌았고, MATH에서는 Text-davinci-002, Palm-1, GPT-3을 웃돌았습니다. 

Microsoft 등은 상세 내용과 모델의 가중치를 GitHub 및 Hugging Face에서 공개하고 있습니다.

https://github.com/nlpxucan/WizardLM/tree/main/WizardMath

https://huggingface.co/WizardLM/WizardMath-13B-V1.0

WizardLM/WizardMath-13B-V1.0 · Hugging Face

This model can be loaded on the Inference API on-demand.

huggingface.co


 

반응형