TikTok의 모회사 ByteDance가 텍스트로 고품질 동영상을 생성하는 AI「MagicVideo-V2」발표

TikTok의 모회사인 ByteDance의 연구팀이 텍스트에 충실하게 고품질 동영상을 생성하는 AI, MagicVideo-V2를 발표했습니다. 인간의 성능 평가에서 MagicVideo-V2가 텍스트로 동영상을 생성하는 다른 최첨단 AI보다 우수하다는 결과를 얻었습니다.

[2401.04468] MagicVideo-V2: Multi-Stage High-Aesthetic Video Generation
https://arxiv.org/abs/2401.04468

MagicVideo-V2: Multi-Stage High-Aesthetic Video Generation
https://magicvideov2.github.io/

MagicVideo-V2: Multi-Stage High-Aesthetic Video Generation

The growing demand for high-fidelity video generation from textual descriptions has catalyzed significant research in this field. In this work, we introduce MagicVideo-V2 that integrates the text-to-image model, video motion generator, reference image embe

magicvideov2.github.io

MagicVideo-V2는 ByteDance 연구팀이 개발한 텍스트로 동영상을 생성하는 AI입니다. 기본적인 구조는 다음과 같이 되어 있으며,

우선은 입력된 텍스트에 근거해 「T2I(Text to Image)」모듈로 1024×1024픽셀의 화상을 생성합니다.
계속해서 「I2V(Image to Video)」모듈로, 정지 화상으로부터 연속해 동영상이 되는 600×600픽셀의 화상을 32매 생성하고,
추가로 「V2V(Video to Video)」모듈로 1048×1048픽셀의 해상도로 확장한다는 것.

마지막으로 「Interpolation(보간)」모듈에서 시퀀스를 94 프레임으로 확장한다고 합니다.

「MagicVideo-V2」가 생성한 동영상과 Moonvalley・Pika 1.0・Morph Studio・Gen-2・Stable Video Diffusion XT(SVD-XT)등 다른 최첨단 동영상 생성 AI로 만든 동영상을 인간이 비교한 결과를 나타낸 그래프가 이하입니다.

초록의「MagicVideo-V2가 뛰어나다」라고 응답한 비율은 어느 AI에 대해서도 과반수를 넘고 있어, 「MagicVideo-V2」가 생성하는 동영상의 평가가 높은 것을 알 수 있습니다.

공식 페이지에는 「MagicVideo-V2가 생성한 동영상」, 「SVD-XT가 생성한 동영상」, 「Pika 1.0이 생성한 동영상」을 같은 프롬프트로 비교한 것도 공개되고 있습니다.

"A little boy is riding a bike on a park path, the wheels crunching on the gravel(어린 소년이 공원의 길을 자전거로 달리고 있다)"라는 프롬프트로 비교해 본 것입니다.

왼쪽부터 순서대로 「MagicVideo-V2가 생성」, 「SVD-XT가 생성」, 「Pika 1.0이 생성」이고, 확실히 MagicVideo-V2가 생성하는 동영상이 정확도가 높은 것 같습니다.

「A fox dressed in suit dancing in park(공원에서 춤추는 슈트 차림의 여우)」라는 프롬프트로 비교하면 이런 느낌.

저작자표시 비영리 변경금지

'AI · 인공지능 > 이미지 생성 AI' 카테고리의 다른 글

스테이블 디퓨전의 제작사 Stability AI가「Stable Cascade」를 발표 (85)	2024.02.22
Google이 스마트폰을 사용해 0.5초만에 이미지를 생성하는「MobileDiffusion」을 발표 (114)	2024.02.02
고해상도 이미지를 0.5초 만에 생성하는 오픈 소스 AI 이미지 생성 모델 「PixArt-δ」가 등장 (91)	2024.01.30
Google이 초 고품질의 동영상 생성 AI 「Lumiere」를 발표 (108)	2024.01.26
초당 100장 이상의 화상을 생성할 수 있는 고속 화상 생성 파이프라인 「StreamDiffusion」이 등장 (2)	2023.12.26
간단한 텍스트로부터 사실적인 동영상을 생성하는 확산 모델 「W.A.L.T」가 등장 (55)	2023.12.13
Meta가 이미지 생성 AI「Imagine」을 무료로 사용할 수 있는 웹 앱을 출시 (74)	2023.12.08
Amazon이 프롬프트형 이미지 생성 AI "Titan Image Generator"의 미리보기 버전을 출시 (2)	2023.12.01

두우우부

TikTok의 모회사 ByteDance가 텍스트로 고품질 동영상을 생성하는 AI「MagicVideo-V2」발표

'AI · 인공지능 > 이미지 생성 AI' 카테고리의 다른 글

티스토리툴바

TikTok의 모회사 ByteDance가 텍스트로 고품질 동영상을 생성하는 AI「MagicVideo-V2」발표

'AI · 인공지능 > 이미지 생성 AI' 카테고리의 다른 글

관련글

티스토리툴바