본문 바로가기
AI · 인공지능/AI 뉴스

Microsoft가 사진과 음성 파일로 리얼하게 말하는 영상을 만들 수 있는 AI 모델 「VASA-1」공개

by 두우우부 2024. 4. 23.
반응형

 
 
Microsoft의 연구 기관인 Microsoft Research가 1장의 얼굴 사진과 음성 파일로부터  「진짜 인간 같은 얼굴」 을 생성할 수 있는 AI 모델  「VASA-1」 을 발표했습니다.

VASA-1은 음성파일 내용을 립싱크하면서 얼굴사진의 표정을 자연스럽게 변화시켜 생생한 '말하는 얼굴'을 생성할 수 있습니다.


VASA-1 - Microsoft Research
https://www.microsoft.com/en-us/research/project/vasa-1/


Cool or creepy? Microsoft's VASA-1 is a new AI model that turns photos into 'talking faces' | Tom's Guide
https://www.tomsguide.com/ai/ai-image-video/microsoft-wants-your-photo


VASA-1은 1장의 얼굴 사진과 음성 파일을 캡처하기만 하면 음성 파일의 내용을 얼굴 사진이 읽고 있는 것 같은 리얼한 동영상을 생성할 수 있다는 AI 모델입니다. VASA-1은 기사 작성 시점에서 리서치 프리뷰 버전이므로 Microsoft Research의 연구팀 이외에는 모델을 시험할 수 없습니다. 그러나 Microsoft Research는 VASA-1의 데모 동영상을 공개하고 있으며, 이를 보는 것만으로 어떠한 AI 모델이 되는지 한 번에 알 수 있습니다.

얼굴 사진과 음성 파일에서 현실적인 이야기 얼굴의 영상을 만들 수있는 마이크로 소프트의 AI 모델 "VASA-1"의 데모 동영상 - YouTube


우선은 사용할 얼굴 사진을 선택.


Cool or creepy? Microsoft's VASA-1 is a new AI model that turns photos into 'talking faces' | Tom's Guide
https://www.tomsguide.com/ai/ai-image-video/microsoft-wants-your-photo


VASA-1은 1장의 얼굴 사진과 음성 파일을 캡처하기만 하면 음성 파일의 내용을 얼굴 사진이 직접 읽고 있는 것 같은 리얼한 동영상을 생성할 수 있는 AI 모델입니다. VASA-1은 리서치 프리뷰 버전이므로 Microsoft Research의 연구팀 이외에는 모델을 시험할 수 없습니다. 그러나 Microsoft Research는 VASA-1의 데모 동영상을 공개하고 있으며, 이를 보는 것만으로 어떠한 AI 모델이 나올지 한 번에 알 수 있습니다.


우선은 사용할 얼굴 사진을 선택.


계속해서, 얼굴 사진으로 읽히고 싶은 음성 파일을 선택.


그러자 얼굴 사진이 자연스럽게 말하기 시작했습니다. 입가의 움직임은 매우 자연스럽습니다.

반응형

풍성한 표정으로 말하고 있어, 입가가 움직일 뿐만 아니라 깜박거리거나 얼굴을 좌우로 세세하게 움직이거나 합니다.


성별이나 인종도 관계없이 리얼한 발화 페이스 생성이 가능.


이 외에, 단 1장의 얼굴 사진으로부터 동영상을 생성하고 있을 뿐인데, 얼굴의 방향을 변경해도 전혀 위화감이 없습니다.


덧붙여 NVIDIA의 RTX 4090을 탑재한 데스크톱 PC를 사용하면, 프레임 레이트 45fps, 해상도가 512×512 픽셀의  「말하는 얼굴 영상」 을 약 2분 만에 생성할 수 있습니다.



실제 같은 발화 페이스를 생성하는 AI 모델은 Runway와 NVIDIA가 이미 공개하고 있습니다. 그러나 VASA-1은 품질과 리얼리즘 측면에서 훨씬 더 정확하고 "입 주변의 아티팩트가 줄어들고 있다."라고 기술 미디어 Tom's Guide는 지적했습니다.

Microsoft에 따르면 VASA-1은 가상 캐릭터를 애니메이션화하는 것을 목적으로 작성된 것으로, 샘플로 준비된 인물의 얼굴 사진은 모두 OpenAI의 이미지 생성 AI인 DALL-E를 사용하여 생성된 "가상 인물의 사진"이라고 합니다.

Tom's Guide는 "VASA-1은 고급 립싱크가 가능하기 때문에 캐릭터 입술의 움직임과 음성을 정확하게 동기화함으로써 AI 주도 NPC를 만들 수 있게 되면 게임의 몰입감에 큰 변화를 가져올 수 있습니다."라고 VASA-1의 고급 립싱크가 게임 개발에 도움이 될 가능성을 언급합니다.

그러나 Microsoft Research는 VASA-1에 대해서 어디까지나 연구용 데모이며, 공식적인 예정은 없고 개발자용으로 제품화할 예정도 없다고 합니다.

덧붙여 연구팀은 트레이닝 데이터 세트에 음악이 포함되어 있지 않았음에도 불구하고, VASA-1이 노래를 완벽하게 립싱크하는 데 성공했다는 것에 놀랐다고 합니다.

반응형