TikTok의 모회사 ByteDance가 텍스트로 고품질 동영상을 생성하는 AI「MagicVideo-V2」발표

AI · 인공지능/이미지 생성 AI

TikTok의 모회사 ByteDance가 텍스트로 고품질 동영상을 생성하는 AI「MagicVideo-V2」발표

두우우부 2024. 1. 22. 13:46

TikTok의 모회사인 ByteDance의 연구팀이 텍스트에 충실하게 고품질 동영상을 생성하는 AI, MagicVideo-V2를 발표했습니다. 인간의 성능 평가에서 MagicVideo-V2가 텍스트로 동영상을 생성하는 다른 최첨단 AI보다 우수하다는 결과를 얻었습니다.

[2401.04468] MagicVideo-V2: Multi-Stage High-Aesthetic Video Generation
https://arxiv.org/abs/2401.04468

MagicVideo-V2: Multi-Stage High-Aesthetic Video Generation
https://magicvideov2.github.io/

MagicVideo-V2: Multi-Stage High-Aesthetic Video Generation

The growing demand for high-fidelity video generation from textual descriptions has catalyzed significant research in this field. In this work, we introduce MagicVideo-V2 that integrates the text-to-image model, video motion generator, reference image embe

magicvideov2.github.io

MagicVideo-V2는 ByteDance 연구팀이 개발한 텍스트로 동영상을 생성하는 AI입니다. 기본적인 구조는 다음과 같이 되어 있으며,

우선은 입력된 텍스트에 근거해 「T2I(Text to Image)」모듈로 1024×1024픽셀의 화상을 생성합니다.
계속해서 「I2V(Image to Video)」모듈로, 정지 화상으로부터 연속해 동영상이 되는 600×600픽셀의 화상을 32매 생성하고,
추가로 「V2V(Video to Video)」모듈로 1048×1048픽셀의 해상도로 확장한다는 것.

마지막으로 「Interpolation(보간)」모듈에서 시퀀스를 94 프레임으로 확장한다고 합니다.

「MagicVideo-V2」가 생성한 동영상과 Moonvalley・Pika 1.0・Morph Studio・Gen-2・Stable Video Diffusion XT(SVD-XT)등 다른 최첨단 동영상 생성 AI로 만든 동영상을 인간이 비교한 결과를 나타낸 그래프가 이하입니다.

초록의「MagicVideo-V2가 뛰어나다」라고 응답한 비율은 어느 AI에 대해서도 과반수를 넘고 있어, 「MagicVideo-V2」가 생성하는 동영상의 평가가 높은 것을 알 수 있습니다.

공식 페이지에는 「MagicVideo-V2가 생성한 동영상」, 「SVD-XT가 생성한 동영상」, 「Pika 1.0이 생성한 동영상」을 같은 프롬프트로 비교한 것도 공개되고 있습니다.

"A little boy is riding a bike on a park path, the wheels crunching on the gravel(어린 소년이 공원의 길을 자전거로 달리고 있다)"라는 프롬프트로 비교해 본 것입니다.

왼쪽부터 순서대로 「MagicVideo-V2가 생성」, 「SVD-XT가 생성」, 「Pika 1.0이 생성」이고, 확실히 MagicVideo-V2가 생성하는 동영상이 정확도가 높은 것 같습니다.

「A fox dressed in suit dancing in park(공원에서 춤추는 슈트 차림의 여우)」라는 프롬프트로 비교하면 이런 느낌.

저작자표시 비영리 변경금지