본문 바로가기
AI · 인공지능/AI 뉴스

Google이 시각과 텍스트로부터 인간처럼 이해하는 로봇용 언어 모델「PaLM-E」를 발표

by 두우우부 2023. 3. 10.
반응형

 

대화형 AI「ChatGPT」등에 사용되는 언어 모델은 복잡한 태스크 실행이 실증되고 있습니다만, 이것을 로봇에 응용할 경우, 상황에 맞는 동작을 실시하기 위해 언어 모델은 보다 자세한 정보를 수집해야 합니다. Google과 베를린 공과대학의 AI 연구자 그룹은 카메라로 캡처한 영상과 텍스트의 지시를 이해할 수 있는 새로운 언어 모델「PaLM-E」를 개발한 것을 밝혔습니다. 이 모델을 사용하면 "서랍에서 과자를 가져와라" 같이 복잡한 명령도 로봇이 처리할 수 있습니다.

PaLM-E: An Embodied Multimodal Language Model
https://palm-e.github.io/

PaLM-E: An Embodied Multimodal Language Model

Project page for PaLM-E: An Embodied Multimodal Language Model.

palm-e.github.io

Google's PaLM-E is a generalist robot brain that takes commands | Ars Technica

Google’s PaLM-E is a generalist robot brain that takes commands

ChatGPT-style AI model adds vision to guide a robot without special training.

arstechnica.com


PaLM-E는 사전 훈련된 언어 모델에 이미지, 상황, 명령문 등의 정보를 통합하여 처리하는 언어 모델입니다. 5,400억의 파라미터로 인간의 언어를 이해하고 복잡한 태스크를 실현하는 사전 학습된 언어 모델「Pathways Language Model(PaLM)」에 로봇이라는 몸을 주었다(Embodied)고 하여, PaLM-E라고 명명되었습니다. Google의 이미지 인식 모델 ViT 가 가진 220억의 파라미터와 합치함으로써, Palm-E는 합계 5,620억의 파라미터를 갖게 됩니다. 이것은 ChatGPT에 사용되는 언어 모델 "GPT-3"의 1750억에 비해 엄청난 것입니다.

Google Robotics 의 로봇과 연계한 Palm-E에 "서랍에서 라이스 칩을 가져와"라는 명령을 주면 Palm-E는 로봇의 행동 계획을 생성하고 로봇을 움직일 수 있습니다. 아래의 영상에서는 실제로 로봇이 라이스 칩을 가져오는 모습이 나오고 있으며, 로봇은「서랍이란 무엇인가」,「라이스 칩이란 무엇인가」,「가져간다는 것은 무슨 일인가」를 제대로 이해한 것 같은 동작을 실시하고 있습니다. 또, 정중하게 서랍을 닫는 동작도 실행하였습니다.



아래 영상에서는 "녹색 별을 가져와"라는 명령을 로봇이 처리하는 모습을 볼 수 있습니다. 덧붙여 Palm-E는「녹색의 별이란 무엇인가」를 사전에 학습하지 않았고, 언어 모델이나 시각으로부터 추론한 정보를 바탕으로 행동 계획을 생성하고 있습니다.



다음 동영상에서는 Palm-E가 테이블의 로봇 암을 제어하여 블록을 정렬하는 모습을 소개합니다. PaLM-E는「블록을 색별로 네 모서리에 늘어놓아라」라는 명령을 해내고 있습니다만, 이때「녹색 별을 모서리까지 밀어라」,「녹색 원을 녹색 별까지 밀어라」등의 계획을 차례로 수행하고 있습니다.



아래의 동영상에서 Palm-E는「녹색 블록을 거북이에게 밀어라」라는 명령을 해내고 있습니다만, Palm-e는 거북을 본 적이 없음에도 불구하고 명령을 정확하게 실행합니다. 로봇 카메라에서 얻은 데이터를 분석함으로써 Palm-E는 미세한 사전 학습 없이도 명령을 실행할 수 있습니다.



PaLM-E는 로봇의 행동 계획을 생성할 수 있을 뿐만 아니라 이미지를 분석하고 처리하는 능력도 우수합니다.

예를 들어 Palm-E에게 다음 이미지 데이터를 보여주고 "이 사진에서 뛰고 있는 두 팀은 어디에서 마지막으로 우승했는지 어느 쪽이었고 몇 년 동안 우승했는지 그 해의 스타 선수는 누구?"라고 질문하면 Palm-E는 "순차적으로 생각해 봅시다. 흰색 팀은 뉴욕 닉스. 녹색 팀은 보스턴 셀틱스입니다. 마지막으로 우승한 것은 보스턴 셀틱스입니다. 년도는 2008년. 스타 선수는 폴 피어스 였습니다. 저는 농구 팬이 아니기 때문에 이것이 맞는지 잘 모르겠습니다. 그냥 구글링 했습니다."라고 대답했다는 것



다음 이미지를 보여주고 「오른쪽의 핑크색 도넛은 무슨 맛?」이라고 물으니, '오른쪽', '핑크색', '도넛'이 무엇을 가리키는지, '도넛 바로 위에 있는 라벨이 그 도넛의 맛을 가리킨다는 것', 'STRAWBERRY라는 문자', 'STRAWBERRY가 맛이라는 것'등을 파악해, 올바르게「스트로베리」라고 답해줍니다. 마찬가지로「왼쪽 도넛은 무엇 맛?」이라고 물어도 제대로 「블루베리」라고 답변했다는 것.



다음은 아래 이미지를 보여주고「이 로봇은 다음에 어떻게 될까?」라고 물어봤습니다.
인간이 보면 이 로봇이 중력에 의해 쓰러질 것이라고 바로 알아채겠지만, Palm-E도 마찬가지로 정확히 파악했다는 것입니다.



「만약 이 장소에서 로봇이 도움이 되고 싶다고 생각했을 때, 무엇을 하면 좋을까?」라고 물으니,「테이블을 정리하고, 쓰레기를 픽업, 의자를 픽업, 의자를 닦아, 의자를 넣는다」라고 대답하였습니다.



「진입 금지 표지판, 단 자전거는 가능」인 도로 표지판을 보고,「이 거리를 자전거로 통과할 수 있습니까?」라는 질문에「예」라고 올바르게 대답하였습니다.



Google의 연구자들은 Palm-E에게서 볼 수 있는 '태스크를 통해 학습한 지식과 스킬을 다른 태스크에 응용할 수 있다'는 점에 주목하고 있으며, 하나의 태스크밖에 할 수 없는 로봇 모델과 비교 시「현저하게 높은 퍼포먼스」를 발휘한다는 평가를 내리고 있습니다. 연구자들은 홈 오토메이션이나 산업용 로봇 등 실세계 시나리오에 Palm-E의 적용을 검토하고 있습니다.

반응형