간단한 텍스트로부터 사실적인 동영상을 생성하는 확산 모델 「W.A.L.T」가 등장

스탠퍼드 대학과 Google 연구팀이 텍스트로 사실적인 동영상을 생성하는 확산 모델인 「W.A.L.T」를 발표했습니다. 실제로 「W.A.L.T」를 사용하여 생성한 동영상도 다수 공개되어 있습니다.

WALT(pdf 다운로드)
https://walt-video-diffusion.github.io/assets/WALT.pdf

Photorealistic Video Generation with Diffusion Models
https://walt-video-diffusion.github.io/

Photorealistic Video Generation with Diffusion Models

We present W.A.L.T, a transformer-based approach for photorealistic video generation via diffusion modeling. Our approach has two key design decisions. First, we use a causal encoder to jointly compress images and videos within a unified latent space, enab

walt-video-diffusion.github.io

「WALT」는, Google 등이 발표한 심층 학습 모델인 Transformer를 베이스로 한 동영상 생성 AI입니다. 연구팀의 아그림 굽타 씨는, WALT의 구조를 X(구 Twitter)에 포스팅하고 있습니다.

WALT는 먼저 Joint Casual 3D 인코더를 사용하여 공유 잠재 공간의 이미지 및 동영상을 압축합니다.

다음으로 기억 및 트레이닝의 효율을 높이기 위해, 잠재 공간에서의 공간적 · 시간적 공동 생성 모델링용으로 조정된 윈도 · 어텐션 · 아키텍처를 사용한다는 것.

이를 통해 자연어 프롬프트로부터 사실적이고, 시간적으로 일관된 모션을 생성할 수 있습니다.

실제로 연구팀은 WALT를 사용하여 생성한 동영상을 다수 공개하고 있습니다.
https://walt-video-diffusion.github.io/samples.html

저작자표시 비영리 변경금지 (새창열림)

'AI · 인공지능 > 이미지 생성 AI' 카테고리의 다른 글

배경이 투명한 이미지를 쉽게 생성할 수 있는 이미지 생성 AI「Layer Diffusion」리뷰 (78)	2024.03.07
Stability AI가 이미지에서 3D 모델을 생성할 수 있는「TripoSR」을 발표 (77)	2024.03.06
Google이 스마트폰을 사용해 0.5초만에 이미지를 생성하는「MobileDiffusion」을 발표 (114)	2024.02.02
고해상도 이미지를 0.5초 만에 생성하는 오픈 소스 AI 이미지 생성 모델 「PixArt-δ」가 등장 (91)	2024.01.30
Meta가 이미지 생성 AI「Imagine」을 무료로 사용할 수 있는 웹 앱을 출시 (74)	2023.12.08
AI가 1장의 사진으로부터 고해상도 3DCG 모델을 생성해주는「Human-SGD」 (1)	2023.11.27
텍스트나 이미지로부터 동영상을 생성하는 AI 「Stable Video Diffusion」을 Stability AI가 공개 (4)	2023.11.23
일러스트나 사진 작품에 독을 심어 AI 학습을 방해하는 학습방지 툴 「Nightshade」 (0)	2023.10.25

두우우부

간단한 텍스트로부터 사실적인 동영상을 생성하는 확산 모델 「W.A.L.T」가 등장

'AI · 인공지능 > 이미지 생성 AI' 카테고리의 다른 글

티스토리툴바

간단한 텍스트로부터 사실적인 동영상을 생성하는 확산 모델 「W.A.L.T」가 등장

'AI · 인공지능 > 이미지 생성 AI' 카테고리의 다른 글

관련글

티스토리툴바