본문 바로가기
AI · 인공지능/AI 뉴스

마인크래프트 다이아 캐기 - AI 자동 플레이로 10분 만에 클리어

by 두우우부 2022. 6. 25.
반응형


인간과 구별이 안 되는 자연스러운 문장을 구사하는 AI나 소스 코드를 자동으로 생성하는 AI 등 경이적인 능력을 가진 AI를 많이 개발해 온 OpenAI 가 마인크래프트에서 다이아몬드제 아이템을 10분 이내에 제작할 수 있는 AI를 발표했습니다. 발표된 AI에는 "Video PreTraining(VPT)"라는, 영상을 이용한 기계학습 효율화 방안이 채택되었습니다.

마인크래프트는 돌이나 철 등을 수집하여 아이템을 제작할 수 있습니다. 다이아몬드제 아이템을 만들 때에는 「다이아몬드 광석을 채굴하기 위한 아이템을 크래프트」, 「다이아몬드 광석을 찾아 지하 깊숙이 팔 것」 등의 조작이 필요해, 숙련된 플레이어도 초기 상태에서 다이아몬드제 아이템을 만들기까지 몇 시간이 걸립니다. OpenAI는 인터넷에 존재하는 방대한 수의 마인크래프트 플레이 무비를 AI에게 학습시켜, 단 10분 만에 다이아몬드제 아이템을 크래프트 할 수 있도록 개발했습니다.

 


AI 학습에는 VPT라고 불리는 기술이 사용되었습니다. 일반적으로 AI 학습에는 인간이 수동으로 라벨을 붙인 대량의 데이터가 사용됩니다. 그러나 이번에는 [어떤 키가 눌렀는가], [마우스를 어떻게 움직였는가] 등의 라벨이 붙은 비교적 단시간의 마인크래프트 플레이 무비를 준비해 AI에 학습시켜 [키, 마우스와 플레이 무비의 대응]을 학습시킨 뒤 라벨을 부여하지 않은 방대한 수의 플레이 무비를 학습시켰습니다.


학습 완료 후의 AI는 미조정 시점에서 [나무를 공격하여 원목을 입수 → 원목을 목재로 가공 → 목재에서 작업대를 공예]라는 플레이가 가능했습니다. 게다가 「수중을 헤엄친다」,「동물을 사냥한다」,「음식을 먹는다」,「점프하면서 소재를 쌓아 올려 위쪽으로 이동한다」 등의 동작도 가능했다고 합니다.

 


그 후, 최초에 학습시켰던 라벨 붙인 데이터의 재조정을 실시하여 AI의 동작을 최적화해, 다이아몬드제 아이템 제작에 필요한 「철제 곡괭이 만들기」, 「다이아몬드 광석의 발견」 등의 태스크에 보상을 설정해 AI 학습을 진행시켰습니다.

 


그 결과, 게임 개시로부터 약 10분만에 다이아몬드제 헬멧이나 곡괭이를 만들 수 있는 AI가 완성되었습니다. 마인크래프트로 다이아몬드제 아이템을 만드는 과정은 키보드와 마우스의 조작에 의해 이루어집니다. 이 때문에 OpenAI는 이번 AI 학습에 사용된 노하우가 일반적인 컴퓨터 조작을 담당하는 AI 학습에도 응용될 수 있다고 말하고 있습니다.

 


또한, AI가 다이아몬드제 아이템을 작성하는 모습은, 아래의 링크에서 영상으로 확인할 수 있습니다.

Learning to Play Minecraft with Video PreTraining (VPT)

 

Learning to Play Minecraft with Video PreTraining (VPT)

We trained a neural network to play Minecraft by Video PreTraining (VPT) on a massive unlabeled video dataset of human Minecraft play, while using only a small amount of labeled contractor data. With fine-tuning, our model can learn to craft diamond tools,

openai.com

 

github 에서 소스코드도 구경 가능하군요

 

GitHub - openai/Video-Pre-Training: Video PreTraining (VPT): Learning to Act by Watching Unlabeled Online Videos

Video PreTraining (VPT): Learning to Act by Watching Unlabeled Online Videos - GitHub - openai/Video-Pre-Training: Video PreTraining (VPT): Learning to Act by Watching Unlabeled Online Videos

github.com

반응형