본문 바로가기
AI · 인공지능/이미지 생성 AI

영상과 텍스트로 프레임 일관성을 유지하며 실용성 높은 동영상을 생성하는 AI「StableVideo」

by 두우우부 2023. 8. 23.
반응형

 
 
생성 AI에 의해 만들어진 동영상에 그려지는 객체나 배경은, 그 모양을 격렬하게 바꾸거나 색이 바뀌거나 하기 때문에 실용성 면에서 부족하다고 할 수 있습니다. 중국 저장대학과 마이크로소프트의 연구팀이 발표한 「StableVideo」는 텍스트 구동 확산 모델에 시간 개념을 도입하는 것으로, 안정적이고도 실용성 높은 영상을 생성하는 것이 가능해졌습니다.

rese1f.github.io/StableVideo/

https://rese1f.github.io/StableVideo/

Wenhao Chai2, Xun Guo2✉, Gaoang Wang1 Yan Lu2, Abstract Diffusion-based methods can generate realistic images and videos, but they struggle to edit existing objects in a video while preserving their appearance over time. This prevents diffusion models fr

rese1f.github.io


GitHub - rese1f/StableVideo: [ICCV 2023] StableVideo: Text-driven Consistency-aware Diffusion Video Editing

GitHub - rese1f/StableVideo: [ICCV 2023] StableVideo: Text-driven Consistency-aware Diffusion Video Editing

[ICCV 2023] StableVideo: Text-driven Consistency-aware Diffusion Video Editing - GitHub - rese1f/StableVideo: [ICCV 2023] StableVideo: Text-driven Consistency-aware Diffusion Video Editing

github.com



동영상은 정지영상(프레임)의 연속으로 구성되어 있습니다. StableVideo는 프레임 간의 일관성을 유지하므로 생성된 프레임에서 다음 프레임으로 정보를 전달하여 일관성을 유지하여 안정적인 동영상을 생성할 수 있습니다.



실제로 배의 영상(왼쪽)을 StableVideo로 읽어 들여, 「A Red Ship(붉은 배)」, 「Sunset(석양)」이라는 텍스트를 프롬프트로 하여 생성한 영상입니다. 프레임이 도중에 깜박이거나, 색이나 물건이 변형되는 모습은 없습니다.


차가 달리는 영상(왼쪽)과 그것을 바탕으로 「A Rusty Car in Dessert(사막을 달리는 녹슨 차)」, 「A Graffiti Car in Miami(마이애미를 달리는 그림이 그려진 차)」라는 프롬프트로 생성한 영상.


블랙스완의 영상으로부터 「A White Swan(백조)」, 「A Duck(오리)」의 영상을 생성한 것.



StableVideo의 리파지토리는 GitHub에 게시되어 있으며 StableVideo의 사전 교육 모델은 HuggingFace에 배포되어 있습니다.

lllyasviel/ControlNet · Hugging Face
https://huggingface.co/lllyasviel/ControlNet

lllyasviel/ControlNet · Hugging Face

This is the pretrained weights and some other detector weights of ControlNet. See also: https://github.com/lllyasviel/ControlNet Description of Files ControlNet/models/control_sd15_canny.pth The ControlNet+SD1.5 model to control SD using canny edge detecti

huggingface.co

반응형