동영상 내 마스킹을 한 부분이나 누락된 부분을 예측하여 학습하는 아키텍처 「V-JEPA」를 Meta가 개발했습니다. 이 아키텍처를 통해 어떤 동영상을 생성하는 것은 불가능하지만 새로운 모델을 개발하는 방법에 사용할 수 있다고 합니다.
Revisiting Feature Prediction for Learning Visual Representations from Video | Research - AI at Meta
https://ai.meta.com/research/publications/revisiting-feature-prediction-for-learning-visual-representations-from-video/
V-JEPA는 영상에서 무슨 일이 일어나고 있는지를 학습하고 예측하는 기법이며, 특히 객체의 미세한 상호작용과 시간의 경과와 함께 일어나는 상세한 상호작용의 구별을 자랑하고 있습니다. 예를 들어 누군가가 펜을 놓고 있는지, 펜을 줍고 있는지, 펜을 놓는 척을 하는지 등의 동작이 마스킹되어 있는 영상 등에서 "실제는 어떤 동작인가"를 추측하는 경우, V-JEPA는 기존의 기법에 비해 매우 우수하다는 것.
V-JEPA의 학습 방법은 대부분 마스킹한 영상을 보여주고, 보이지 않는 부분을 채우도록 요구하는 방식. 이것에 의해 기계 학습 모델은 시간적 · 공간적으로 변화하는 영상을 추측하는 방법을 학습합니다.
마스킹된 부분이나 누락된 부분을 모두 채우려는 생성적 접근과는 달리 V-JEPA는 예측 불가능한 정보를 버리는 유연성을 갖추고 있어 학습 및 샘플 효율이 1.5배에서 6배 개선된다는 것.
예를 들어 영상에 나무가 비치고 있어도, V-JEPA에 근거하면 개개의 잎의 섬세한 움직임은 예측하지 않고 잘라 버릴 가능성이 있습니다. 이러한 특징이 동영상을 생성하는 학습 모델을 개발하는 데 도움이 될 수 있다고 Meta는 설명합니다.
또한 V-JEPA는 특정 작업에 특화된 모델이 아니라 범용성을 갖춘 「동결평가」라고 불리는 학습방법을 자랑하는 최초의 동영상용 모델이기도 합니다. Meta는 지금보다 긴 영상에서의 예측을 가능하게 하는 것과 현재의 동영상만을 대상으로 한 성능을 넓혀 멀티 모달적인 접근법을 도입하는 것을 목표로 하고 있습니다.
V-JEPA는 CC BY-NC 라이선스하에 공개됩니다.
GitHub - facebookresearch/jepa: PyTorch code and models for V-JEPA self-supervised learning from video.
https://github.com/facebookresearch/jepa
'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글
음성·텍스트·이미지·음악의 입출력에 대응한 멀티 모달 LLM「AnyGPT」가 등장 (86) | 2024.02.23 |
---|---|
OpenAI 지원 로봇 기업「1X」의 안드로이드가 세련된 동작으로 작업하는 영상 (82) | 2024.02.21 |
기계 학습 모델의 재학습으로 LoRA보다 적은 비용과 시간으로 더 높은 성능을 기대할 수 있는「DoRA」 (80) | 2024.02.21 |
Google이 AI로 파일 형식을 식별하는 도구 「Magika」를 오픈 소스로 공개 (81) | 2024.02.20 |
중국에서 잇따라 AI 모델이 승인되고, 93조 규모의 AI 산업 시장으로 (111) | 2024.01.31 |
Meta가 코드 생성 AI 모델의 새로운 버전 「Code Llama 70B」를 릴리스, 코드 정확성이 향상 (110) | 2024.01.31 |
구글 챗봇 AI 「Bard」가 드디어 벤치마크 스코어에서 GPT-4를 넘어 2위로 부상 (91) | 2024.01.30 |
NVIDIA의 SDR의 영상을 HDR로 변환하는 AI 기술 「RTX Video HDR」 (99) | 2024.01.26 |