본문 바로가기
AI · 인공지능/AI 뉴스

Meta가 6가지 데이터를 통합하는 오픈 소스 AI 모델 「ImageBind」를 공개

by 두우우부 2023. 5. 10.
반응형

 
사람은 평상시 외부 세계를 인식을 할 때 시각 · 청각 · 촉각 · 후각 · 미각 등 복수의 감각을 동시에 사용합니다. 

Meta의 AI 개발 부문인 Meta AI가

1. 텍스트
2. 이미지와 영상
3. 음성
4. 움직임을 계산하는 깊이(3D)
5. 적외선에 의한 열
6. 관성 측정 유닛(IMU)에 의한 움직임

이라는 6가지 데이터를 통합하는 오픈 소스 AI 모델 「ImageBind 」를 발표했습니다.


ImageBind: Holistic AI learning across six modalities
https://ai.facebook.com/blog/imagebind-six-modalities-binding-ai/

GitHub - facebookresearch/ImageBind: ImageBind One Embedding Space to Bind Them All
https://github.com/facebookresearch/ImageBind

GitHub - facebookresearch/ImageBind: ImageBind One Embedding Space to Bind Them All

ImageBind One Embedding Space to Bind Them All. Contribute to facebookresearch/ImageBind development by creating an account on GitHub.

github.com



이미지와 동영상과 텍스트를 연결하는 데이터 세트는 이미 많이 존재합니다.



ImageBind는, 이미지나 동영상을 다리로 삼아 텍스트 외에 「음성」, 「3D 심도」, 「열」, 「움직임」이라는 4 종류의 자기 지도 학습용 데이터를 통합합니다. Meta에 의하면, 열이나 3D심도는 이미지와 강한 연관성이 있기 때문에, 데이터 세트의 정렬이 용이하다고 합니다. 다만, IMU로 측정한 움직임이나 음성에 대해서는 상관성이 약하기 때문에, 아기의 울음소리 같이 시각적인 콘텍스트에 수반되는 데이터가 된다고 합니다.



ImageBind에서 이미지와 동영상을 중심으로 6개의 데이터를 통합한 '멀티모달 학습'을 통해 AI는 리소스를 대량 소비하는 교육 없이도 콘텐츠를 보다 전체적으로 해석할 수 있습니다.



기존의 이미지 생성 AI는 텍스트로부터 화상이나 동영상을 생성할 수 있습니다만, ImageBind를 사용하면, 웃음 소리나 비의 소리로부터 화상을 생성하는 것도 가능하게 된다고 합니다. 예를 들어, "Small creature(작은 생물)"라는 텍스트, 숲 이미지, 숲에서 비가 내리는 소리, 새 움직임을 IMU로 측정한 데이터를 프롬프트로 입력합니다.



그러면 "비가 내리는 숲 속에서 예쁘게 움직이는 작은 생물"의 애니메이션을 AI로 생성할 수 있다는 것.



Meta는 "이번 연구에서는 6가지 데이터의 통합을 검토했지만, 촉각과 후각, 뇌의 fMRI 신호 등 가능한 한 많은 감각을 연결함으로써 보다 풍부한 인간 중심의 AI 모델이 가능합니다."라고 말합니다. 다만, 멀티모달 학습은 아직 해명되지 않은 것이 많다고 하며, Meta는 ImageBind가 멀티모달 학습 연구의 첫걸음이 될 것이라고 말하고 있습니다.

반응형