본문 바로가기
AI · 인공지능/AI 뉴스

AI가 움직이는 회화 「시네마 그래프」를 만들어 내는 「Text2Cinemagraph」

by 두우우부 2023. 8. 11.
반응형

 

「Cinemagraph(시네마 그래프)」란, 일부만 움직이고 있는 것처럼 보이는 사진이나 일러스트를 말합니다.

정지화상이라고 인식한 사람이 「오잉?」하고 시선을 멈추는 효과가 있습니다. 움직이는 것은 일부분이라는 점도 있어, 디자인성을 유지하면서 보는 사람의 흥미를 끄는 특징을 가집니다.
 
GitHub에 공개된 「Text2Cinemagraph」는, 시네마 그래프를 「프롬프트」로 생성할 수 있습니다. 하나의 프롬프트에서 예술적인 이미지의 스타일과 외관을 생성하는 파트와 자연스러운 움직임을 생성하는 데 특화된 파트로 나누어 최종적인 시네마 그래프를 생성한다는 것입니다.

https://github.com/text2cinemagraph

text2cinemagraph - Overview

text2cinemagraph has 2 repositories available. Follow their code on GitHub.

github.com

 

 

문장에서 완전히 자동으로 시네마 그래프를 생성할 때, 특히 프롬프트에 상상적인 요소나 예술적 스타일이 포함되어 있는 경우, 문장이 가지는 의미를 적절히 해석해, 그것을 이미지나 움직임으로 변환하는 'Semantics(시맨틱스, 의미, 의도)'의 이해가 필수 불가결합니다. 따라서 이미지의 의미와 움직임을 해석하는 복잡성이 장애물이 됩니다.
 
Text2Cinemagraph의 해설에 의하면, 기존의 1장의 이미지로부터 애니메이션을 생성하는 수법은, 예술적인 입력에 대응하지 못하고, 문장으로부터 동영상을 생성하는 수법은 시간적인 부정합을 일으키는 문제가 있어 특정 영역을 정지시키는 것이 곤란하다고 합니다. 이러한 문제를 해결하기 위해 단일 프롬프트에서 예술적 이미지와 픽셀 단위로 일치하는 실제 이미지를 "쌍둥이"로 생성하는 기술을 고안했습니다.
 
쌍둥이의 한쪽은 예술적인 이미지는 텍스트 프롬프트로 상술한 화풍과 외관이지만, 다른 한쪽의 일부 현실적인 이미지는 크게 단순화합니다. 다음으로 기존의 오리지널 화상과 동영상의 데이터 세트를 살려, 리얼한 화상으로부터 시멘틱스를 가미한 타당한 「움직임」을 예측합니다. 이 움직임을 예술적 이미지에 반영하여 시네마 그래프를 만듭니다.

티스토리는 이미지 첨부가 20메가 밖에 안 되는 관계로,
구글 드라이브 다운로드 링크를 걸어둡니다. (용량 : 44메가)
https://drive.google.com/file/d/1ve374JJisLv56L78EARXZaAv44e-fu2X/view?usp=drivesdk

위 링크에서 다운로드해 보시면, 정지화상이 아닌 움직이는 시네마그래프를 보실 수 있습니다.
 


 
"왼쪽에서 오른쪽 아래로" 강의 흐름을 지시한 프롬프트와 그 반대로 다시 작성하여 생성된 이미지입니다.

반응형