본문 바로가기
AI · 인공지능/AI 뉴스

동영상을 보고 학습하는 아키텍처 「V-JEPA」를 Meta가 개발

by 두우우부 2024. 2. 20.
반응형

 
 
동영상 내 마스킹을 한 부분이나 누락된 부분을 예측하여 학습하는 아키텍처 「V-JEPA」를 Meta가 개발했습니다. 이 아키텍처를 통해 어떤 동영상을 생성하는 것은 불가능하지만 새로운 모델을 개발하는 방법에 사용할 수 있다고 합니다.

Revisiting Feature Prediction for Learning Visual Representations from Video | Research - AI at Meta
https://ai.meta.com/research/publications/revisiting-feature-prediction-for-learning-visual-representations-from-video/

V-JEPA는 영상에서 무슨 일이 일어나고 있는지를 학습하고 예측하는 기법이며, 특히 객체의 미세한 상호작용과 시간의 경과와 함께 일어나는 상세한 상호작용의 구별을 자랑하고 있습니다. 예를 들어 누군가가 펜을 놓고 있는지, 펜을 줍고 있는지, 펜을 놓는 척을 하는지 등의 동작이 마스킹되어 있는 영상 등에서 "실제는 어떤 동작인가"를 추측하는 경우, V-JEPA는 기존의 기법에 비해 매우 우수하다는 것.

V-JEPA의 학습 방법은 대부분 마스킹한 영상을 보여주고, 보이지 않는 부분을 채우도록 요구하는 방식. 이것에 의해 기계 학습 모델은 시간적 · 공간적으로 변화하는 영상을 추측하는 방법을 학습합니다.



마스킹된 부분이나 누락된 부분을 모두 채우려는 생성적 접근과는 달리 V-JEPA는 예측 불가능한 정보를 버리는 유연성을 갖추고 있어 학습 및 샘플 효율이 1.5배에서 6배 개선된다는 것.

예를 들어 영상에 나무가 비치고 있어도, V-JEPA에 근거하면 개개의 잎의 섬세한 움직임은 예측하지 않고 잘라 버릴 가능성이 있습니다. 이러한 특징이 동영상을 생성하는 학습 모델을 개발하는 데 도움이 될 수 있다고 Meta는 설명합니다.

또한 V-JEPA는 특정 작업에 특화된 모델이 아니라 범용성을 갖춘 「동결평가」라고 불리는 학습방법을 자랑하는 최초의 동영상용 모델이기도 합니다. Meta는 지금보다 긴 영상에서의 예측을 가능하게 하는 것과 현재의 동영상만을 대상으로 한 성능을 넓혀 멀티 모달적인 접근법을 도입하는 것을 목표로 하고 있습니다.

V-JEPA는 CC BY-NC 라이선스하에 공개됩니다.

GitHub - facebookresearch/jepa: PyTorch code and models for V-JEPA self-supervised learning from video.
https://github.com/facebookresearch/jepa

반응형