본문 바로가기
AI · 인공지능/AI 뉴스

구글 딥마인드에서 자가 개선형 AI「 RoboCat」이 등장

by 두우우부 2023. 6. 22.
반응형

 

Google의 AI 개발팀 Google DeepMind가 단 100회의 데모로 다양한 로봇 암의 조작을 습득하고, 스스로 생성한 데이터를 사용하여 더욱 능력을 개선시켜 나가는 자가 개선형 AI 에이전트 'RoboCat'을 발표했습니다.

RoboCat: A self-improving robotic agent

RoboCat: A self-improving robotic agent

Robots are quickly becoming part of our everyday lives, but they’re often only programmed to perform specific tasks well. While harnessing recent advances in AI could lead to robots that could help in many more ways, progress in building general-purpose

www.deepmind.com


RoboCat이 어떻게 로봇 팔을 움직이는지는 아래 영상에 잘 나타나 있습니다.

RoboCat: A self-improving robotic agent - YouTube



먼저 인간이 목표로 하는 완성 이미지로 제시하고 이를 재현하도록 RoboCat에 지시합니다. 여기서는, 3개의 페그가 박힌 판에 기어가 하나 끼워져 있습니다.


기어를 제거하고 모델을 흩어 작업을 시작합니다.



AI가 로봇 팔을 움직여 기어를 세팅합니다.



동일한 작업의 다른 목표를 설정해도 대응할 수 있습니다. 이번에는 기어가 두 개로 늘었습니다.


들어 올린 톱니바퀴를 떨어뜨리는 등의 실수도 조금 있었습니다만, 훌륭하게 클리어했습니다.



RoboCat은 학습 외의 목표에도 유연하게 대응합니다. 다음 실험에서는 인간이 손으로 과일 모형을 움직이는 모습을 보여줍니다.


RoboCat은 인간의 손이 반영된 데이터로 훈련한 적이 없지만, 손으로 오렌지를 들어 올리면 된다는 것을 이해했습니다.



다른 기종의 로봇 암에도 대응합니다. 지금까지는 「팬더」라고 하는 명칭의 하얀 로봇 암이었습니다만, 다음에 테스트를 실시하는 빨간 로봇 암은 「소어」라고 하는 다른 기종. RoboCat은 이 로봇 암으로 훈련을 받지 않았습니다.


잠시 팔을 좌우로 움직이고 있었지만, 그 후 제대로 오렌지를 집어들었습니다.



상황의 변화에도 신속하게 대응합니다. 마지막 시험에서는 푸른 블록 위에 붉은 블록을 올리도록 지시했습니다.



완료라고 생각된 순간, 인간이 나무를 무너뜨렸습니다.



그 후 RoboCat은 빨리 적색 나무를 집어 다시 쌓았습니다.



끈질기게 쌓인 나무를 무너뜨려도 몇 번이고 다시 쌓아 올리고 있습니다.


RoboCat은 Google DeepMind가 개발한 멀티 모달 모델 "Gato(스페인어로 고양이를 의미함)"를 기반으로 합니다.



RoboCat의 개발에 있어서 Google DeepMind는 단어와 이미지, 동작을 처리할 수 있는 Gato의 아키텍처와 다양한 기종의 로봇 암으로 수백 번의 다른 작업을 해결하는 이미지, 그리고 이에 이르는 액션 시퀀스로 구성된 방대한 트레이닝 데이터 세트를 사용했습니다.

그 후 Google DeepMind는 RoboCat으로 '자가 개선 트레이닝 사이클'을 시작하여 경험이 없는 작업도 습득했습니다.

새로운 작업 습득은 다음의 5단계로 나뉩니다.

・인간이 조작하는 로봇 암에 의해, 새로운 태스크의 데모를 100 ~ 1,000회 실시.
・RoboCat을 새로운 태스크나 로봇 암으로 파인 튜닝해, 새로운 태스크에 특화된 스핀오프 에이전트를 작성.
・스핀오프 에이전트는 새로운 작업과 암을 평균 10,000회 훈련하고 더 많은 교육 데이터를 자체 생성.
・데모 및 자체 생성 데이터를 RoboCat의 기존 교육 데이터 세트에 통합.
・새로운 교육 데이터 세트로 새 버전의 RoboCat을 교육.



RoboCat은 과제를 배울수록 새로운 과제의 습득 능력을 향상하는 사이클을 실현하고 있습니다. RoboCat의 초기 버전은 500회의 데모에서 1개의 작업을 학습한 후의 테스트에서 36%의 성공률을 보였습니다. 그러나 다양한 작업으로 학습한 후에는 동일한 작업의 성공률을 두 배 이상으로 향상할 수 있었습니다.


Google DeepMind는 "인간이 어느 분야의 학습을 깊게 해 나가면서 보다 다양한 스킬을 습득해 나가는 것과 같이, RoboCat은 경험을 거듭해 능력을 향상해 나갈 수 있습니다. 독자적으로 스킬을 학습하고 신속하게 자기 개선하는 이 능력은, 다른 로봇에 적용할 수 있는 유용한 신세대의 범용 로봇 에이전트에의 발판이 될 것입니다."라고 말했습니다.

반응형