본문 바로가기
AI · 인공지능/AI 칼럼

AI는 판타지 세계에서 롤 플레잉이 가능할까?

by 두우우부 2020. 3. 7.
반응형

 

3개의 요점

✔️ 최첨단의 AI가 판타지 세계에서 롤 플레이할 수 있는지를 검증
✔️ 판타지 세계를 소재로 한 텍스트 어드벤처 게임의 데이터셋을 생성
✔️ BERT는 어느 정도 인간답게 행동할 수 있지만, 앞으로의 발전이 더 기대

Learning to Speak and Act in a Fantasy Text Adventure GameA Hierarchical Location Prediction Neural Network for Twitter User Geolocation
Jack Urbanek, Angela Fan, Siddharth Karamcheti, Saachi Jain, Samuel Humeau, Emily Dinan, Tim Rocktäschel, Douwe Kiela, Arthur Szlam, Jason Weston

Learning to Speak and Act in a Fantasy Text Adventure Game.pdf
0.19MB

 

텍스트 어드벤처 게임은 영상이나 음성 등을 사용하지 않고 텍스트로만 진행하는 게임입니다. 플레이어는 문장에서 주어진 환경과 조건에 따라 캐릭터를 연기하여 발언이나 행동을 선택해 나가는 것으로 스토리를 진행합니다. 최근에는 여러 플레이어가 텍스트를 기반으로 대화를 나누며 이야기를 진행하는 테이블 토크 RPG(TRPG)가 인기를 끌고 있으며, 이러한 형태의 게임에 익숙하신 분들도 계실 것입니다.

 

특히 TRPG는 플레이어끼리의 자유로운 소통이 매력적이며, 플레이어의 행동에 따라 다양한 이야기를 전개해 나가는 재미를 맛볼 수 있습니다. 이번 기사에서는 이러한 대화식 텍스트 어드벤처 게임에서 AI가 플레이어로 인간처럼 행동할 수 있는지를 검증한 논문을 소개합니다. 본 연구는 Facebook AI Reseach의 멤버가 중심이 되고 있으며, 자연 언어 처리의 유명한 국제 학회인 EMNLP2019에서 발표되었습니다.

 

AI는 텍스트 어드벤처 게임을 플레이할 수 있는가?

텍스트 어드벤처 게임은 캐릭터의 성격이나 소지품, 지리 등의 모든 정보가 자연어 문장으로 주어집니다. 본 논문에서 대상으로 하는 대화형 게임에서 플레이어는 이러한 정보를 참조하여 서로 대화를 진행합니다.

 

예를 들어 지리 정보로서 '화려한 관의 로비'가 주어지고, 등장인물과 그 특징으로 '용감한 왕'과 '왕에 절대복종하는 하인', 각각의 소지품으로는 왕에게 '왕관과 왕위', 하인에게 '바구니'라는 조건이 주어집니다. 여기서 플레이어는 각 캐릭터에 동화되어 대화나 행동을 선택해 갑니다.

 

아래 그림은 이 예의 상세한 조건과 실제로 인간 플레이어가 나눈 대화를 보여줍니다. 플레이어는 턴제 교대로 발언과 행동을 합니다. 또한 이 행동에는 구체적인 동작(Action)과 감정(Emote)의 두 종류가 있습니다. 실제 대화 예(아래 그림)를 보시면, 플레이어는 각 캐릭터로서 주어진 조건하에서 역할극을 하고 있는 것을 알 수 있습니다.

 

그럼 이 플레이어 중 하나를 AI로 대체할 수 있을까요? 게임에 의해 주어진 조건과 정보는 모두 자연어 문장으로 설명되어 있기 때문에 자연 언어 처리 기술을 통해 플레이어의 행동을 학습할 수 있다고 생각합니다. 구체적으로는, 등장하는 캐릭터의 소지품 · 지리 등의 묘사, 그리고 마지막 상대 플레이어의 발언이나 행동을 텍스트 데이터로 입력하고 다음 대화 및 행동을 출력하는 모델을 학습하는 방법을 생각할 수 있습니다.

 

 

대화형 게임을 바탕으로 한 데이터셋

대화형 게임에서 플레이어의 행동을 학습하기 위해서는 많은 양의 데이터가 필요합니다. 따라서 본 논문에서는 크라우드 소싱을 통해 위와 같은 판타지 세계에서의 상호작용 데이터를 10,777건 만들었습니다.

 

데이터셋을 생성한 후, 먼저 '시골', '숲'등 대략적인 지리 카테고리 37종을 설정하고 이를 바탕으로 상세한 지리 정보를 663개 만들었습니다. 이 상세한 지리 정보를 기초로 하여 그 자리에 존재하는 오브젝트 3,462건과 캐릭터 1,755건을 만듭니다. 캐릭터는 동물이나 괴물, 마녀 등이 포함되어 있으며, 인간에 국한된 것은 아닙니다.

 

 

이렇게 하여 만든 기본 정보에서 지리 정보를 임의로 선택한 다음, 두 캐릭터를 각각 크라우드 작업자에게 할당하여 주어진 상황에서의 대화 수집을 실시했습니다.

 

본 데이터 세트의 목적은 기계학습을 통해 플레이어의 발화 및 행동을 상황에 따라 적절하게 재현할 수 있는지를 평가하는 것입니다. 데이터셋은 훈련 · 검증 · 평가 용으로 분할하고, 그 내역은 아래 표와 같습니다. 평가용 데이터는 Test Seen 및 Test Unseen의 두 종류가 있으며, 전자는 훈련 데이터에 포함된 지리에서의 대화가 대상이 되고, 후자는 훈련 데이터에 포함되지 않는 대화를 대상으로 하고 있습니다. 즉, Test Unseen는 '처음 경험하는 환경'에서 모델의 거동을 평가할 수 있습니다.

 

 

또한 본 논문에서 생성된 데이터셋 'LIGHT(Learning in Interactive Games with Humans and Text)'는 아래에 공개되어 있습니다.

 

Light

LIGHT Learning in Interactive Games with Humans and Text The LIGHT project is a large-scale fantasy text adventure game research platform for training agents that can both talk and act, interacting either with other models or with humans. Abstract We intro

parl.ai

또한 데이터셋에 포함된 지리와 캐릭터에 대한 자세한 내용은 이 페이지에서 Attachment를 다운로드하여 확인할 수 있습니다.

 

Learning to Speak and Act in a Fantasy Text Adventure Game

Jack Urbanek, Angela Fan, Siddharth Karamcheti, Saachi Jain, Samuel Humeau, Emily Dinan, Tim Rocktäschel, Douwe Kiela, Arthur Szlam, Jason Weston. Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th Internatio

www.aclweb.org

 

AI의 플레이어로서의 실력

발화 및 행동의 정확도는 인간에 비해 아직 떨어진다.

작성한 데이터셋을 이용하여 학습한 모델의 성능을 평가합니다. 본 논문의 실험에서는 각 대화의 캐릭터의 대화(Dialogue), 행동(Action), 감정(Emote)의 세 가지를 예측할 수 있는 능력을 평가합니다.

 

정답이 되는 자연어 문장을 모두 예측하는 것은 어렵기 때문에 어떤 평가도 다수 분류 문제로 평가합니다. 구체적으로는 행동과 감정에 대해 있을 수 있는 후보 하나를 선택하는 분류 문제로 평가하고 그 정답률(Acc)을 지표로 합니다. 또한 발화에 대해서는 정답이 되는 발화와 무작위로 선택한 19개의 부정적인 예 중에서 올바른 것을 선택할 수 있는가 하는 분류 문제로 평가하고 정답률을 지표로 합니다(R@1/20).

 

아래 표는 다양한 방법을 이용하여 학습한 모델의 성능과 동일한 문제를 인간이 풀었을 경우의 점수를 보여줍니다. 표를 보시면 BERT를 이용한 방법이 기계학습에서 성능이 좋은 것을 알 수 있습니다.

 

표에서 BERT-based Bi-Ranker는 지리정보와 문맥, 정답 후보 등을 독립적으로 BERT로 인코딩 해 정답을 예측하는 모델입니다. 또한 BERT-based Cross-Ranker는 지리정보, 문맥, 정답 후보 등을 정리하여 하나의 BERT에 입력하는 모델로, 문맥이나 정보를 가미하면서 정답 후보를 음미할 수 있는 모델입니다. 후자는 계산에 많은 시간이 소요되지만 전자에 비해 행동을 적절하게 선택할 수 있습니다.

 

또한 결과에서 BERT를 이용한 방법도 인간에 의한 정답률과 비교하면 큰 차이가 있는 것을 알 수 있습니다. 특히 훈련 데이터와는 다른 상황에서 예측이 요구되는 Test Unseen에서는 그 격차가 벌어지고 있으며, 이 태스크는 큰 개선의 여지가 있음을 알 수 있습니다.

 

 

BERT에 의한 예측의 예

아래 표는 BERT를 이용하여 학습한 모델에 의한 행동 예측을 보여줍니다. 아래 표에서는 대화 상대가 '마녀'역일 때, 상대의 발화에 대해 '하인'역의 AI가 어떤 행동을 예측했는지 확인할 수 있습니다. 슬프다고 말한 마법사에게 포옹을 선택하는 등 나름대로 인간 다운 행동을 선택할 수 있는 것을 알 수 있습니다.

 

또한 아래 표에 따르면 다른 캐릭터가 같은 말을 했을 때의 동작을 보여줍니다. '마실 것을 얻을 수 있을까요?'라는 말에 대하여 화자가 마법사라면 포션을 전달하고, 하인이라면 와인을 전달, 곰이면 물을 전달하는 것을 알 수 있습니다. 이처럼 BERT를 이용한 학습은 상대의 특성을 고려한 행동 선택이 가능하다는 것을 보여 주었습니다.

 

 

정리

본 문서에서는 텍스트 어드벤처 게임에서 플레이어를 AI로 교체하는 시도에 대해 소개했습니다. 본 논문은 판타지 세계를 테마로 한 데이터셋을 만들고 기존의 자연 언어 처리 기술을 이용하여 플레이어의 행동을 학습하고 평가를 실시했습니다.

 

실험에 이용한 BERT는 Wikipedia 등의 현실적인 데이터를 이용하여 사전 학습을 하고 있음에도 불구하고, 픽션인 판타지 세계에 속한 응답을 예측할 수 있다는 것은 놀랍습니다. 한편, 인간답게 제대로 대화와 행동을 선택한다는 면에서는 아직 개선할 부분이 많은 것으로 나타났습니다.

 

본 연구는 어디 까지나 조건과 환경 하에서 상호작용에 초점을 맞추고 있기 때문에 실제 텍스트 어드벤처 게임이나 TRPG처럼 '게임 달성 등의 목표를 향해 행동할 수 있는가' 하는 점에 대해서는 평가할 수 없습니다. 한편, 환경만 고정되어 있으면 어느 정도 인간답게 행동하는 것으로 나타났기 때문에 특정 맵에 출현하는 대화 가능한 논 플레이어 캐릭터(NPC)로의 AI 도입이 멀지 않은 것 같습니다.

 

이 기술이 발전해 나간다면 RPG 등의 게임의 NPC가 모두 인격을 가지고 자유롭게 행동하고 대화하는 AI로 대체되는 미래도 멀지 않은 것일지도 모릅니다.

반응형