Microsoft가 사진과 음성 파일로 리얼하게 말하는 영상을 만들 수 있는 AI 모델 「VASA-1」공개

Microsoft의 연구 기관인 Microsoft Research가 1장의 얼굴 사진과 음성 파일로부터 「진짜 인간 같은 얼굴」 을 생성할 수 있는 AI 모델 「VASA-1」 을 발표했습니다.

VASA-1은 음성파일 내용을 립싱크하면서 얼굴사진의 표정을 자연스럽게 변화시켜 생생한 '말하는 얼굴'을 생성할 수 있습니다.

VASA-1 - Microsoft Research
https://www.microsoft.com/en-us/research/project/vasa-1/

Cool or creepy? Microsoft's VASA-1 is a new AI model that turns photos into 'talking faces' | Tom's Guide
https://www.tomsguide.com/ai/ai-image-video/microsoft-wants-your-photo

VASA-1은 1장의 얼굴 사진과 음성 파일을 캡처하기만 하면 음성 파일의 내용을 얼굴 사진이 읽고 있는 것 같은 리얼한 동영상을 생성할 수 있다는 AI 모델입니다. VASA-1은 기사 작성 시점에서 리서치 프리뷰 버전이므로 Microsoft Research의 연구팀 이외에는 모델을 시험할 수 없습니다. 그러나 Microsoft Research는 VASA-1의 데모 동영상을 공개하고 있으며, 이를 보는 것만으로 어떠한 AI 모델이 되는지 한 번에 알 수 있습니다.

얼굴 사진과 음성 파일에서 현실적인 이야기 얼굴의 영상을 만들 수있는 마이크로 소프트의 AI 모델 "VASA-1"의 데모 동영상 - YouTube

우선은 사용할 얼굴 사진을 선택.

Cool or creepy? Microsoft's VASA-1 is a new AI model that turns photos into 'talking faces' | Tom's Guide
https://www.tomsguide.com/ai/ai-image-video/microsoft-wants-your-photo

VASA-1은 1장의 얼굴 사진과 음성 파일을 캡처하기만 하면 음성 파일의 내용을 얼굴 사진이 직접 읽고 있는 것 같은 리얼한 동영상을 생성할 수 있는 AI 모델입니다. VASA-1은 리서치 프리뷰 버전이므로 Microsoft Research의 연구팀 이외에는 모델을 시험할 수 없습니다. 그러나 Microsoft Research는 VASA-1의 데모 동영상을 공개하고 있으며, 이를 보는 것만으로 어떠한 AI 모델이 나올지 한 번에 알 수 있습니다.

우선은 사용할 얼굴 사진을 선택.

계속해서, 얼굴 사진으로 읽히고 싶은 음성 파일을 선택.

그러자 얼굴 사진이 자연스럽게 말하기 시작했습니다. 입가의 움직임은 매우 자연스럽습니다.

풍성한 표정으로 말하고 있어, 입가가 움직일 뿐만 아니라 깜박거리거나 얼굴을 좌우로 세세하게 움직이거나 합니다.

성별이나 인종도 관계없이 리얼한 발화 페이스 생성이 가능.

이 외에, 단 1장의 얼굴 사진으로부터 동영상을 생성하고 있을 뿐인데, 얼굴의 방향을 변경해도 전혀 위화감이 없습니다.

덧붙여 NVIDIA의 RTX 4090을 탑재한 데스크톱 PC를 사용하면, 프레임 레이트 45fps, 해상도가 512×512 픽셀의 「말하는 얼굴 영상」 을 약 2분 만에 생성할 수 있습니다.

실제 같은 발화 페이스를 생성하는 AI 모델은 Runway와 NVIDIA가 이미 공개하고 있습니다. 그러나 VASA-1은 품질과 리얼리즘 측면에서 훨씬 더 정확하고 "입 주변의 아티팩트가 줄어들고 있다."라고 기술 미디어 Tom's Guide는 지적했습니다.

Microsoft에 따르면 VASA-1은 가상 캐릭터를 애니메이션화하는 것을 목적으로 작성된 것으로, 샘플로 준비된 인물의 얼굴 사진은 모두 OpenAI의 이미지 생성 AI인 DALL-E를 사용하여 생성된 "가상 인물의 사진"이라고 합니다.

Tom's Guide는 "VASA-1은 고급 립싱크가 가능하기 때문에 캐릭터 입술의 움직임과 음성을 정확하게 동기화함으로써 AI 주도 NPC를 만들 수 있게 되면 게임의 몰입감에 큰 변화를 가져올 수 있습니다."라고 VASA-1의 고급 립싱크가 게임 개발에 도움이 될 가능성을 언급합니다.

그러나 Microsoft Research는 VASA-1에 대해서 어디까지나 연구용 데모이며, 공식적인 예정은 없고 개발자용으로 제품화할 예정도 없다고 합니다.

덧붙여 연구팀은 트레이닝 데이터 세트에 음악이 포함되어 있지 않았음에도 불구하고, VASA-1이 노래를 완벽하게 립싱크하는 데 성공했다는 것에 놀랐다고 합니다.

저작자표시 비영리 변경금지

'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글

Microsoft가 비용 효율적인 작은 언어 모델 「Phi-3」 을 출시, 오픈 모델에서 상용 이용 가능 (82)	2024.04.25
Google이 개발한 이미지 분류 태스크가 가능한 기계 학습 모델 「Vision Transformers」 의 구조란? (81)	2024.04.24
상금 총액이 2억 7천만 원 이상인 AI 미인 콘테스트 「Miss AI」 를 개최 (79)	2024.04.24
세계 2위 고용자인 아마존이 75만대 로봇으로 10만명의 인간을 대체, 'AI에 의한 노동 변화의 축약도'라는 지적 (88)	2024.04.24
Amazon 기프트 카드 등을 주고 PC 리소스를 빌려 AI 포르노를 생성하려는 시도 (87)	2024.04.23
AI가 만들어낸 커피 블렌드「AI-CONIC」 (87)	2024.04.23
Meta가 무료로 상용 이용도 가능한 차세대 오픈 LLM 「Llama 3」 을 공개 (79)	2024.04.21
문자도 정확히 출력할 수 있는 「Stable Diffusion 3」 을 API를 통해 사용이 가능 (68)	2024.04.19

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

두우우부

Microsoft가 사진과 음성 파일로 리얼하게 말하는 영상을 만들 수 있는 AI 모델 「VASA-1」공개

'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역

Microsoft가 사진과 음성 파일로 리얼하게 말하는 영상을 만들 수 있는 AI 모델 「VASA-1」공개

'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글

관련글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역