TikTok의 모회사인 ByteDance의 연구팀이 텍스트에 충실하게 고품질 동영상을 생성하는 AI, MagicVideo-V2를 발표했습니다. 인간의 성능 평가에서 MagicVideo-V2가 텍스트로 동영상을 생성하는 다른 최첨단 AI보다 우수하다는 결과를 얻었습니다.
[2401.04468] MagicVideo-V2: Multi-Stage High-Aesthetic Video Generation
https://arxiv.org/abs/2401.04468
MagicVideo-V2: Multi-Stage High-Aesthetic Video Generation
https://magicvideov2.github.io/
MagicVideo-V2는 ByteDance 연구팀이 개발한 텍스트로 동영상을 생성하는 AI입니다. 기본적인 구조는 다음과 같이 되어 있으며,
우선은 입력된 텍스트에 근거해 「T2I(Text to Image)」모듈로 1024×1024픽셀의 화상을 생성합니다.
계속해서 「I2V(Image to Video)」모듈로, 정지 화상으로부터 연속해 동영상이 되는 600×600픽셀의 화상을 32매 생성하고,
추가로 「V2V(Video to Video)」모듈로 1048×1048픽셀의 해상도로 확장한다는 것.
마지막으로 「Interpolation(보간)」모듈에서 시퀀스를 94 프레임으로 확장한다고 합니다.
「MagicVideo-V2」가 생성한 동영상과 Moonvalley・Pika 1.0・Morph Studio・Gen-2・Stable Video Diffusion XT(SVD-XT)등 다른 최첨단 동영상 생성 AI로 만든 동영상을 인간이 비교한 결과를 나타낸 그래프가 이하입니다.
초록의「MagicVideo-V2가 뛰어나다」라고 응답한 비율은 어느 AI에 대해서도 과반수를 넘고 있어, 「MagicVideo-V2」가 생성하는 동영상의 평가가 높은 것을 알 수 있습니다.
공식 페이지에는 「MagicVideo-V2가 생성한 동영상」, 「SVD-XT가 생성한 동영상」, 「Pika 1.0이 생성한 동영상」을 같은 프롬프트로 비교한 것도 공개되고 있습니다.
"A little boy is riding a bike on a park path, the wheels crunching on the gravel(어린 소년이 공원의 길을 자전거로 달리고 있다)"라는 프롬프트로 비교해 본 것입니다.
왼쪽부터 순서대로 「MagicVideo-V2가 생성」, 「SVD-XT가 생성」, 「Pika 1.0이 생성」이고, 확실히 MagicVideo-V2가 생성하는 동영상이 정확도가 높은 것 같습니다.
「A fox dressed in suit dancing in park(공원에서 춤추는 슈트 차림의 여우)」라는 프롬프트로 비교하면 이런 느낌.
'AI · 인공지능 > 이미지 생성 AI' 카테고리의 다른 글
스테이블 디퓨전의 제작사 Stability AI가「Stable Cascade」를 발표 (85) | 2024.02.22 |
---|---|
Google이 스마트폰을 사용해 0.5초만에 이미지를 생성하는「MobileDiffusion」을 발표 (114) | 2024.02.02 |
고해상도 이미지를 0.5초 만에 생성하는 오픈 소스 AI 이미지 생성 모델 「PixArt-δ」가 등장 (91) | 2024.01.30 |
Google이 초 고품질의 동영상 생성 AI 「Lumiere」를 발표 (108) | 2024.01.26 |
초당 100장 이상의 화상을 생성할 수 있는 고속 화상 생성 파이프라인 「StreamDiffusion」이 등장 (2) | 2023.12.26 |
간단한 텍스트로부터 사실적인 동영상을 생성하는 확산 모델 「W.A.L.T」가 등장 (55) | 2023.12.13 |
Meta가 이미지 생성 AI「Imagine」을 무료로 사용할 수 있는 웹 앱을 출시 (74) | 2023.12.08 |
Amazon이 프롬프트형 이미지 생성 AI "Titan Image Generator"의 미리보기 버전을 출시 (2) | 2023.12.01 |