Google이 초 고품질의 동영상 생성 AI 「Lumiere」를 발표
![](https://blog.kakaocdn.net/dn/boyqyy/btsDW8FZobG/h8tmoAQ0Zc67tGIObdbJO1/img.jpg)
Google의 연구팀이 동영상 생성 AI 「Lumiere」를 2024년 1월 24일(수)에 발표했습니다.
Lumiere
https://lumiere-video.github.io/
Lumiere - Google Research
Space-Time Text-to-Video diffusion model by Google Research.
lumiere-video.github.io
Lumiere에서는 프레임끼리 자연스럽게 연결된 위화감이 적은 동영상을 생성 가능하며, 텍스트나 이미지를 입력하여 동영상을 생성할 수 있으며, 동영상의 일부를 지정하여 다른 동영상으로 바꾸거나 사진의 일부만 움직이는 조작도 가능합니다.
텍스트나 이미지를 입력하여 동영상을 생성할 수 있는 AI가 많이 존재하고 있습니다만, 이러한 AI의 대부분은 "프레임을 여러 장 생성해, 프레임끼리를 보간"하는 수법으로 동영상을 생성하고 있기 때문에 프레임끼리의 연결이 부자연스러워지는 경향이 있습니다. 한편, Lumiere는 「동영상 전체의 프레임을 한 번에 생성」하는 수법을 채용하고 있어, 프레임끼리의 연결이 자연스럽고 위화감 적은 동영상을 생성 가능합니다.
생성 가능한 동영상의 프레임 속도는 16 fps이고 동영상의 길이는 5초입니다. 다음 동영상을 재생하면 Lumiere에서 생성한 동영상의 예를 볼 수 있습니다.
Lumiere - YouTube
Lumiere에서는 문장이나 화상을 입력하는 것으로 입력 내용에 따른 동영상을 생성할 수 있을 뿐만 아니라, 화상의 스타일을 유지하며 동영상을 생성하거나, 동영상의 일부만 생성형 동영상으로 바꾸는 등의 기능도 갖추고 있습니다.
Lumiere의 각종 기능의 개요는 아래와 같습니다.
◆ 이미지 스타일을 유지하여 다른 피사체의 동영상을 생성
![](https://blog.kakaocdn.net/dn/diJB5P/btsDVphftHP/sCRtkmrsVU5z83NJpmkDKk/img.png)
다음은 "녹아내리는 황금"이라는 스타일을 유지하면서 동영상을 생성한 예입니다.
![](https://blog.kakaocdn.net/dn/bik50N/btsD0JyczOB/TLXu4K7vcahOL9EXNTCTT1/img.png)
◆ 동영상을 AI로 가공
문장이나 이미지뿐만이 아니라, 동영상을 입력해 AI로 가공하는 것도 가능합니다. 아래의 예는 오리지널 동영상을「나무 블록으로 만들어졌다」, 「종이접기 아트」, 「장난감 블록으로 만들어졌다」, 「꽃으로 만들어졌다」라는 프롬프트로 가공한 것입니다.
![](https://blog.kakaocdn.net/dn/ugyfA/btsDZGvdu1I/ehlWzV17XCZWJse6mkCWk0/img.png)
◆ 동영상의 일부를 가공 동영상의 일부만 선택하여 가공을 실시
여성의 목으로부터 아래만을 선택해, 「금색의 스트랩리스 가운을 입고 있다」, 「줄무늬 스트랩리스 드레스를 입고 있다」라는 프롬프트로 가공하고 있습니다.
![](https://blog.kakaocdn.net/dn/ctezej/btsD0I67V2k/cukpy2rrRJLWhysxd1dib0/img.png)
병아리의 몸을 선택해 「목욕 가운을 입고 있다」, 정수리를 선택해 「파티 모자를 착용하고 있다」라고 프롬프트 가공하는 예시입니다.
![](https://blog.kakaocdn.net/dn/7fZub/btsDY7GCcQL/UNrCAXoXmpRkkj7ym55ixK/img.png)
◆ 이미지의 일부분을 움직이는
「나비의 날개를 펄럭인다」, 「수면을 물결치게 한다」라는 조작도 가능.
![](https://blog.kakaocdn.net/dn/xFJKz/btsDWJs0FGH/xeh2i4MjsPXTLBkoLrsRqk/img.png)
◆ 동영상이 빠진 부분을 보충
동영상의 일부를 검은색으로 칠하고 검은색으로 칠한 부분을 생성 동영상으로 보충할 수 있습니다.
![](https://blog.kakaocdn.net/dn/tFBOX/btsD1bONBHr/rwSY6rZhPpCQrjpTNPiJy0/img.png)
Lumiere의 기술 세부 사항은 다음 논문에서 확인할 수 있습니다.
[2401.12945] Lumiere: A Space-Time Diffusion Model for Video Generation
https://arxiv.org/abs/2401.12945
Lumiere: A Space-Time Diffusion Model for Video Generation
We introduce Lumiere -- a text-to-video diffusion model designed for synthesizing videos that portray realistic, diverse and coherent motion -- a pivotal challenge in video synthesis. To this end, we introduce a Space-Time U-Net architecture that generates
arxiv.org