반응형
스탠퍼드 대학과 Google 연구팀이 텍스트로 사실적인 동영상을 생성하는 확산 모델인 「W.A.L.T」를 발표했습니다. 실제로 「W.A.L.T」를 사용하여 생성한 동영상도 다수 공개되어 있습니다.
WALT(pdf 다운로드)
https://walt-video-diffusion.github.io/assets/WALT.pdf
Photorealistic Video Generation with Diffusion Models
https://walt-video-diffusion.github.io/
「WALT」는, Google 등이 발표한 심층 학습 모델인 Transformer를 베이스로 한 동영상 생성 AI입니다. 연구팀의 아그림 굽타 씨는, WALT의 구조를 X(구 Twitter)에 포스팅하고 있습니다.
WALT는 먼저 Joint Casual 3D 인코더를 사용하여 공유 잠재 공간의 이미지 및 동영상을 압축합니다.
다음으로 기억 및 트레이닝의 효율을 높이기 위해, 잠재 공간에서의 공간적 · 시간적 공동 생성 모델링용으로 조정된 윈도 · 어텐션 · 아키텍처를 사용한다는 것.
이를 통해 자연어 프롬프트로부터 사실적이고, 시간적으로 일관된 모션을 생성할 수 있습니다.
실제로 연구팀은 WALT를 사용하여 생성한 동영상을 다수 공개하고 있습니다.
https://walt-video-diffusion.github.io/samples.html
반응형
'AI · 인공지능 > 이미지 생성 AI' 카테고리의 다른 글
고해상도 이미지를 0.5초 만에 생성하는 오픈 소스 AI 이미지 생성 모델 「PixArt-δ」가 등장 (91) | 2024.01.30 |
---|---|
Google이 초 고품질의 동영상 생성 AI 「Lumiere」를 발표 (108) | 2024.01.26 |
TikTok의 모회사 ByteDance가 텍스트로 고품질 동영상을 생성하는 AI「MagicVideo-V2」발표 (91) | 2024.01.22 |
초당 100장 이상의 화상을 생성할 수 있는 고속 화상 생성 파이프라인 「StreamDiffusion」이 등장 (2) | 2023.12.26 |
Meta가 이미지 생성 AI「Imagine」을 무료로 사용할 수 있는 웹 앱을 출시 (74) | 2023.12.08 |
Amazon이 프롬프트형 이미지 생성 AI "Titan Image Generator"의 미리보기 버전을 출시 (2) | 2023.12.01 |
드디어 Windows의 「그림판」에도 AI가 탑재되어 이미지 생성이 가능 (5) | 2023.12.01 |
AI가 1장의 사진으로부터 고해상도 3DCG 모델을 생성해주는「Human-SGD」 (1) | 2023.11.27 |