본문 바로가기
AI · 인공지능/AI 뉴스

마인크래프트를 GPT-4로 반복 학습하면서 자동 플레이하는 AI 에이전트 「Voyager」가 등장

by 두우우부 2023. 5. 30.
반응형

 

세계에서 가장 많이 팔린 게임인 마인크래프트는, 탐색을 계속함으로써 얻을 수 있는 소재가 늘어나고, 자신의 도구나 무기를 업그레이드하여, 한층 더 탐색할 수 있는 세계가 넓어집니다. 

NVIDIA와 캘리포니아 공과 대학, 스탠퍼드 대학 등의 공동 연구팀이 개발한 Voyager인간의 개입 없이 마인크래프트를 학습하면서 공략해 나가는 생애 학습 에이전트로, OpenAI의 대규모 언어 모델(LLM) GPT-4를 탑재하고 있습니다.

Voyager | An Open-Ended Embodied Agent with Large Language Models
https://voyager.minedojo.org/

GitHub - MineDojo/Voyager: An Open-Ended Embodied Agent with Large Language Models

https://github.com/MineDojo/Voyager

GitHub - MineDojo/Voyager: An Open-Ended Embodied Agent with Large Language Models

An Open-Ended Embodied Agent with Large Language Models - GitHub - MineDojo/Voyager: An Open-Ended Embodied Agent with Large Language Models

github.com


마인크래프트에서는 세계가 시드 값을 기반으로 만들어지므로 시드 값을 무작위로 만드는 한, 매번 생성되는 세계가 크게 바뀝니다. 그 때문에, 마인크래프트를 플레이하는 데 있어서 중요한 것은 「 주어진 상황에 대응해 나가는 임기응변 능력」입니다. 또한 나무, 돌, 철, 다이아몬드처럼 도구와 무기의 성능을 좌우하는 소재의 가공 기술을 진화시키는 것도 중요합니다.
 
Voyager는 「탐색을 극대화하는 자동 커리큘럼」, 「복잡한 동작을 보존 · 취득하기 위한 스킬 라이브러리」, 「환경 피드백, 실행 에러, 프로그램 개선을 위한 자기 검증」이라는 세 가지 컴포넌트로 구성되어 있어, 이를 반복하면서 학습합니다.

Voyager는 목표를 달성하기 위해 GPT-4로 프로그램을 작성하고, 게임 환경의 피드백과 오류를 기반으로 하여 GPT-4로 다시 프로그램을 개선합니다.

이를 통해 Vyager는 점차 기술 라이브러리를 구축하고 성공한 프로그램을 우선시하여, 보다 복잡한 스킬을 구축해 갑니다.

 

Voyager가 실제로 금광석을 채굴하는 모습입니다.



Voyager가 엔더맨과 싸우는 모습입니다.



아래의 그래프는 Voyager의 스킬 트리의 진화를 나타내는 그래프입니다.
오렌지색이 Voyager,
파란색이 스킬 라이브러리가 없는 Voyager,
녹색・적색・보라색은 각각 Voyager 이외의 언어 모델 기반 마인크래프트 에이전트인 ReAct・Reflecition・AutoGPT입니다.

세로축이 발견한 아이템수, 가로축이 코드 생성을 반복한 횟수입니다. 

이를 보면, Voyager는 압도적인 속도 차이로 다이아몬드 무기를 만드는 단계에 도달했다는 것을 알 수 있습니다.



덧붙여, 현재 Voyager는 텍스트 베이스로 동작하고 있기 때문에, 실제로 Minecraft상에서 무슨 일이 일어나고 있는지는 인식하지 않는 상태입니다. 그러나, 실험의 초기 단계에서 연구팀이 Voygaer에게 시각적인 피드백을 주었더니 집이나 Nether 포털의 건설도 학습 가능하게 되었다는 것. 

Nether 포털을 건축하는 모습입니다.

반응형