본문 바로가기
AI · 인공지능/AI 뉴스

대규모 언어 모델로 로봇 교육을 가속화하는 기술, DrEureka를 NVIDIA 연구팀이 개발

by 두우우부 2024. 5. 8.
반응형



로봇이 새로운 기술을 습득하게 할 경우, 우선 시뮬레이션 환경에서 트레이닝을 실시해, 그 후 현실 환경에 전개하는 것이 일반적입니다만, 그때에 시뮬레이션 환경과 현실 환경의 갭이 과제가 됩니다. 이 갭을 메우는 작업을 대규모 언어 모델로 자동화하는 기술인 DrEureka를 NVIDIA 및 펜실베이니아 대학, 텍사스 대학 오스틴 등의 연구팀이 개발했습니다.

DrEureka | Language Model Guided Sim-To-Real Transfer

 

DrEureka | Language Model Guided Sim-To-Real Transfer

Transferring policies learned in simulation to the real world is a promising strategy for acquiring robot skills at scale. However, sim-to-real approaches typically rely on manual design and tuning of the task reward function as well as the simulation phys

eureka-research.github.io


Nvidia's DrEureka outperforms humans in training robotics systems | VentureBeat

 

Nvidia’s DrEureka outperforms humans in training robotics systems

DrEureka takes a robotic task description and uses an LLM to generate software implementations for a reward function that measures success in that task.

venturebeat.com



현실 환경에 배포하는 접근 방식에서는 작업에 대한 올바른 동작을 찾는 "보상 함수"와 시뮬레이션 환경의 물리적 매개 변수를 수동으로 설계하고 조정하는 것이 일반적입니다. 이 과정은 시간과 인적 비용이 들기 때문에 연구팀은 대규모 언어 모델을 사용하여 이 작업을 자동화하는 기술을 개발하기로 결정했습니다.

연구팀이 시스템의 기반으로 한 것은 NVIDIA Research가 개발한 AI 에이전트 "Eureka"입니다. Eureka는 로봇을 트레이닝하기 위한 보상 알고리즘을 자율적으로 작성하는 AI 에이전트로, 대규모 언어 모델을 사용하여 최적의 보상 함수를 작성할 수 있다는 것.

반응형

이번 연구팀은 Eureka의 시뮬레이션 환경의 물리 파라미터를 랜덤화함으로써, 로봇이 현실 세계에서 만나는 예측 불가능한 상황에 시뮬레이션 환경에서의 학습을 일반화할 수 있도록 한 "DrEureka(도메인 랜덤화) Eureka"를 발표했습니다.

DrEureka를 사용하여 로봇 개에게 4족 보행의 스킬을 트레이닝한 실험에서는 인간이 설계한 종래의 시스템보다 전진 속도에서 34%, 다양한 지형에서의 이동 거리에서 20% 우수한 것으로 확인되었습니다. 또한 로봇 핸드로 루빅큐브를 회전시키는 태스크에서는 DrEureka에 의한 트레이닝을 실시하는 것이 인간이 설계한 트레이닝보다 300% 더 큐브를 회전시킬 수 있었다고 합니다.



게다가 연구팀은, 4족 보행의 로봇 개에게  「짐볼 위에서 밸런스를 취해 걷는다」 라는 태스크를 DrEureka에서 학습시키는 실험도 실시했습니다. 실제로 DrEureka의 훈련을 받은 로봇 개가 짐볼 위에서 균형을 잡고 걷는 모습은 아래 영상에서 확인할 수 있습니다.

DrEureka 5-minute Uncut Deployment Video - YouTube


짐볼을 타고 흔들거리는 로봇 개가 나타났습니다.



로봇 개의 고삐는 인간이 쥐고 있으며, 그 움직임에 따라 로봇 개는 짐볼을 타고 움직입니다.



지형이 바뀌어도 떨어지지 않고 짐볼 위에서 균형을 유지할 수 있습니다.


또, 이하의 영상에서는 DrEureka에서 트레이닝한 로봇개가, 공기가 점점 빠지는 짐볼 위에서 균형을 잡는 모습을 볼 수 있습니다.

DrEureka Balancing on a Deflating Ball - YouTube


또한 DrEureka의 코드는 GitHub에 오픈 소스로 공개되어 있습니다.

GitHub - eureka-research/DrEureka
https://github.com/eureka-research/DrEureka

 

GitHub - eureka-research/DrEureka: Official Repository for "DrEureka: Language Model Guided Sim-To-Real Transfer"

Official Repository for "DrEureka: Language Model Guided Sim-To-Real Transfer" - eureka-research/DrEureka

github.com

반응형