구글이 한 장의 사진과 음성으로 리얼한 동영상을 생성하는 AI 「VLOGGER」발표
Google 연구팀이, 사진 1장과 음성을 입력하여 「음성에 맞추어 몸짓을 섞어 말하는 리얼한 동영상」 을 생성할 수 있는 AI 프레임워크 「VLOGGER」 를 발표했습니다.
VLOGGER
https://enriccorona.github.io/vlogger/
Google researchers unveil 'VLOGGER', an AI that can bring still photos to life | VentureBeat
연구팀은 확산 모델(Diffusion model : 입력 이미지에 Noise를 여러 단계에 걸쳐 추가하고, 여러 단계에 걸쳐 Noise를 제거함으로써, 입력 이미지와 유사한 확률 분포를 가진 결과 이미지를 생성하는 모델)이라고 불리는 기계 학습 모델의 일종을 활용하여 VLOGGER를 개발했습니다.
VLOGGER가 동영상을 생성하는 데 필요한 것은 기본 이미지 데이터와 그에 맞는 오디오 데이터입니다. 최초의 네트워크에서는, 음성 데이터로부터 취득된 파형 데이터를 기초로, 인물의 시선 · 표정 · 포즈로 이루어지는 「body motion controls」 이 작성됩니다. 다음 네트워크는 대규모 이미지 확산 모델을 확장하고 입력 이미지에서 바디 모션 컨트롤에 해당하는 프레임을 생성하는 메커니즘입니다.
VLOGGER 개발의 핵심은 80만 명을 넘는 다양한 아이덴티티와 총 2200시간을 넘는 동영상을 포함한 'MENTOR'라는 데이터 세트입니다. 이 고정밀 하고 방대한 데이터 세트로 훈련함으로써 VLOGGER는 다양한 민족 · 연령 · 복장 · 포즈 · 주변 환경을 바이어스(편향) 없이 동영상으로 생성할 수 있게 되었다고 합니다.
흐르는 음성 데이터에 맞추어 인물의 입이나 표정, 손 등이 움직입니다.
연구팀이 제시한 VLOGGER의 동영상 생성 예가 아래.
생성 가능한 동영상은 짧고, 잘 보면 어색한 부분도 있습니다. 그러나 연구팀은 "VLOGGER를 3가지 다른 벤치마크로 평가한 결과, 해당 모델이 화질, 동일성 유지, 시간적 일관성에 있어서 다른 최첨단 기법을 웃도는 것으로 나타났습니다."라고 주장했습니다.
또한 연구팀은 "선행연구와 달리 우리의 기법은 각 개인의 훈련을 필요로 하지 않고 얼굴 검출이나 트리밍에 의존하지 않으며, 얼굴이나 입술만이 아닌 완전한 이미지를 생성하고, 커뮤니케이션하는 인간을 올바르게 합성하기 위해 중요한 폭넓은 시나리오(눈에 보이는 몸통과 다양한 피험자의 정체성)를 고려하고 있습니다."라고 코멘트.
기술계 미디어인 VentureBeat는 VLOGGER에 대해, 「배우가 새로운 퍼포먼스를 하기 위해서 스스로의 상세한 3D 모델을 취득할 수 있다」, 「VR이나 게임용의 사실적인 아바타 작성에 이용할 수 있다」, 「매력적이고 표현력 풍부한 가상 어시스턴트를 만드는 데 사용할 수 있다」 는 점을 장점으로 드는 한편, 딥 페이크 등에 악용될 위험성도 있다고 지적하며, "이러한 AI 생성 동영상이 보다 리얼하고 제작도 간단해질수록, 페이크 뉴스나 디지털 콘텐츠의 날조를 둘러싼 해결이 어려워 질 수 있습니다."라고 경고했습니다.