사진이나 일러스트가 노래하도록 하거나 말하게 하는 AI 시스템 「EMO」가 등장
중국의 기술 기업 Alibaba의 인텔리전트 컴퓨팅 연구소의 팀이 사진과 이미지를 애니메이션 화하여 리얼하게 말하거나 노래를 부르는 것처럼 움직이는 영상을 생성할 수 있는 AI 시스템 「Emote Portrait Alive(EMO)」를 발표했습니다.
EMO
https://humanaigc.github.io/emote-portrait-alive/
Alibaba's new AI system 'EMO' creates realistic talking and singing videos from photos | VentureBeat
이번에, Alibaba의 연구자들이 프리프린트 서버 arXiv에서 발표한 「EMO」는, 입력한 오디오 트랙에 일치하도록, 부드럽고 표현력 풍부한 표정과 머리 움직임을 생성할 수 있습니다.
다음 영상을 재생하면 EMO에서 생성한 영상을 실제로 볼 수 있습니다.
EMO-Emote Portrait Alive - YouTube
영상의 시작 부분에서 오드리 헵번의 흑백 사진이 노래를 부르고 있습니다.
인터뷰 영상처럼 말을 하는 것도 가능합니다.
EMO에는 확산 모델이라고 불리는 AI 기술이 사용되고 있습니다. 또한 연구원들은 모델을 훈련할 때 총 250시간 이상의 연설, 영화, TV 프로그램, 노래 영상을 사용하고 있습니다.
이렇게 개발된 EMO는 3D의 얼굴 모델이나 윤곽의 합성에 의존하여 얼굴의 움직임을 모방한 기존의 방법과 달리 입력된 음성으로부터 직접 영상을 생성합니다. 이를 통해 가창과 발화에 따른 미묘한 움직임과 고유한 버릇을 포착하여 자연스러운 영상을 출력할 수 있게 되었습니다.
노래하는 영상의 출력에 필요한 것은, 1장의 화상과 음성뿐입니다.
랩처럼 입이 격렬하게 움직이는 노래도 문제없습니다.
말하는 영상도 생성 가능합니다.
논문에 따르면 EMO는 비디오 품질, 정체성 유지, 표현력을 측정하는 지표에서 지금까지의 최첨단 기법을 크게 웃도는 점수를 나타냈다는 것.
연구팀은 논문에서 다음과 같이 밝히고 있습니다.
기존 기술로는 인간 표정의 전체 영역을 포착할 수 없는 경우가 많았고, 또한 개별 얼굴 스타일의 독자성을 포착할 수 없다는 한계가 있었습니다. 이 문제를 해결하기 위해 중간 3D 모델과 얼굴 랜드마크 지정의 필요성을 회피하고, 음성에서 영상으로 직접합성 방식을 활용하는 새로운 프레임워크인 EMO를 제안하게 되었습니다.
이 기술을 사용하면 이미지와 오디오를 준비하는 것만으로 현실적인 영상을 쉽게 만들 수 있습니다. 때문에, 실재 인물의 얼굴이나 목소리를 동의 없이 사용한 딥 페이크 영상 등이 작성된 경우, 중대한 사회 문제로 발전될 우려가 있습니다.
이 기술이 오정보의 확산이나 스푸핑에 악용되는 문제에 대응하기 위해 연구자들은 합성 영상을 검출하는 방법을 검토할 예정이라고 합니다.