TikTok의 모회사 ByteDance가 텍스트로 고품질 동영상을 생성하는 AI「MagicVideo-V2」발표
TikTok의 모회사인 ByteDance의 연구팀이 텍스트에 충실하게 고품질 동영상을 생성하는 AI, MagicVideo-V2를 발표했습니다. 인간의 성능 평가에서 MagicVideo-V2가 텍스트로 동영상을 생성하는 다른 최첨단 AI보다 우수하다는 결과를 얻었습니다.
[2401.04468] MagicVideo-V2: Multi-Stage High-Aesthetic Video Generation
https://arxiv.org/abs/2401.04468
MagicVideo-V2: Multi-Stage High-Aesthetic Video Generation
https://magicvideov2.github.io/
MagicVideo-V2는 ByteDance 연구팀이 개발한 텍스트로 동영상을 생성하는 AI입니다. 기본적인 구조는 다음과 같이 되어 있으며,
우선은 입력된 텍스트에 근거해 「T2I(Text to Image)」모듈로 1024×1024픽셀의 화상을 생성합니다.
계속해서 「I2V(Image to Video)」모듈로, 정지 화상으로부터 연속해 동영상이 되는 600×600픽셀의 화상을 32매 생성하고,
추가로 「V2V(Video to Video)」모듈로 1048×1048픽셀의 해상도로 확장한다는 것.
마지막으로 「Interpolation(보간)」모듈에서 시퀀스를 94 프레임으로 확장한다고 합니다.
「MagicVideo-V2」가 생성한 동영상과 Moonvalley・Pika 1.0・Morph Studio・Gen-2・Stable Video Diffusion XT(SVD-XT)등 다른 최첨단 동영상 생성 AI로 만든 동영상을 인간이 비교한 결과를 나타낸 그래프가 이하입니다.
초록의「MagicVideo-V2가 뛰어나다」라고 응답한 비율은 어느 AI에 대해서도 과반수를 넘고 있어, 「MagicVideo-V2」가 생성하는 동영상의 평가가 높은 것을 알 수 있습니다.
공식 페이지에는 「MagicVideo-V2가 생성한 동영상」, 「SVD-XT가 생성한 동영상」, 「Pika 1.0이 생성한 동영상」을 같은 프롬프트로 비교한 것도 공개되고 있습니다.
"A little boy is riding a bike on a park path, the wheels crunching on the gravel(어린 소년이 공원의 길을 자전거로 달리고 있다)"라는 프롬프트로 비교해 본 것입니다.
왼쪽부터 순서대로 「MagicVideo-V2가 생성」, 「SVD-XT가 생성」, 「Pika 1.0이 생성」이고, 확실히 MagicVideo-V2가 생성하는 동영상이 정확도가 높은 것 같습니다.
「A fox dressed in suit dancing in park(공원에서 춤추는 슈트 차림의 여우)」라는 프롬프트로 비교하면 이런 느낌.