본문 바로가기
AI · 인공지능/AI 뉴스

Microsoft가 단 3초의 샘플에서 사람 목소리를 재현할 수 있는 음성 합성 AI 'VALL-E'를 발표

by 두우우부 2023. 1. 11.
반응형


2023년 1월 5일에 Microsoft가 새로운 음성 합성 AI 모델「VALL-E」를 발표했습니다. VALL-E는 단 3초간의 음성 샘플로 사람의 목소리를 충실히 시뮬레이션할 수 있는 것 외에, 한 번 학습한 데이터로부터, 그 사람의 목소리뿐만 아니라 감정의 톤이나 녹음 환경도 재현한 합성 음성을 작성할 수 있습니다.

VALL-E
https://valle-demo.github.io/

 

VALL-E

VALL-E Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers [Paper] Chengyi Wang*,   Sanyuan Chen*,   Yu Wu*,   Ziqiang Zhang,   Long Zhou,   Shujie Liu,   Zhuo Chen,   Yanqing Liu,   Huaming Wang,   Jinyu Li,   Lei He,   Sheng

valle-demo.github.io

Microsoft's new AI can simulate with 3 seconds of audio | Ars Technica

 

Microsoft’s new AI can simulate anyone’s voice with 3 seconds of audio

Text-to-speech model can preserve speaker's emotional tone and acoustic environment.

arstechnica.com


'VALL-E'는 3초간의 음성 샘플만으로 원래의 목소리를 충실히 재현한 텍스트 리더 모델을 작성할 수 있습니다. VALL-E의 개발자에 따르면, VALL-E는 고품질의 음성 합성 애플리케이션으로서 사용할 수 있을 뿐만 아니라, 녹음한 스피치를 텍스트 원고로부터 변경해「발언하지 않은 내용을 말하는 스피치」에 음성을 편집하거나 다른 AI 모델과 결합하여 오디오 콘텐츠를 작성하는 등의 용도로 사용할 수 있다는 것.

Microsoft는 VALL-E를 '신경 코덱 언어 모델'이라고 부릅니다. 일반적인 음성 합성 모델의「파형을 조작하여 음성을 합성한다」는 수법과 달리, VALL-E는「텍스트와 음향 프롬프트로부터, 개별의 음성 코덱 코드를 생성한다」는 구조를 채용하고 있다고 합니다. 이것은 Meta가 2022년 10월에 발표한 EnCodec 이라는 기술을 기반으로 하고 있으며, 사람의 목소리를 분석한 정보를 EnCodec에 의해 '토큰'이라 불리는 개별 요소로 분해하고, 그 목소리가 3초간의 음성 샘플 이외의 문구를 말했을 때 어떻게 들리는지 학습 데이터를 사용하여 일치시켜 나가는 프로세스로 되어 있습니다.


또한 마이크로소프트는 VALL-E의 논문에서 "VALL-E는 3초간의 녹음과 음소 프롬프트의 음향 토큰을 트리거로 하여 대응하는 음향 토큰을 생성합니다. 음향 토큰을 사용하여 최종 파형을 합성합니다."라고 설명합니다. 이 음성 합성 기능에는 Meta의 Libri-Light 라는 음성 라이브러리가 중요하며, Libri-Light에 수록되어 있는 7천 명 이상의 화자에 의한 6만 시간에 이르는 영어 음성 중에서 3초간의 샘플 음성에 가까운 것이 발견되는 것으로, VALL-E의 결과도 보다 뛰어난 것이 된다고 합니다.

VALL-E 데모 페이지 에서는 실제로 생성된 오디오를 들을 수 있습니다. 아래 이미지의 "Speaker Prompt"는 VALL-E가 학습하는 샘플용 음성으로, 왼쪽에 기재된 텍스트와는 완전히 다른 내용을 극히 짧은 시간만 말하고 있습니다. "Ground Truth"의 음성은 샘플 음성과 동일한 사람이 왼쪽의 텍스트를 읽은 것으로, 이것이 목표가 되는 "정답의 음성"입니다. 「Baseline」이 기존의 AI 모델로 작성한 합성 음성이고,「VALL-E」가 VALL-E로 작성한 합성한 음성입니다. 실제로 듣고 비교해 보면「Baseline」과 「VALL-E」의 차이는 확실하고,「Baseline」은 노이즈가 들어간 것 같은 음성인 반면,「VALL-E」는「Ground Truth」와 비교해도 위화감이 없는 음성인 것에 더해, 음성에 따라서는 숨결의 타이밍등도 「Ground Truth」와 일치하고 있습니다.


또, VALL-E는 화자의 음색이나 감정 표현을 재현할 뿐만 아니라, 샘플이 된 음성의「음향 환경」도 모방하는 것이 가능하다는 것. 예를 들어, 샘플 음성이 전화의 음성이면, 합성된 음성도 전화의 음향 및 주파수 특성을 시뮬레이션하여 전화로 말하는 음성처럼 들립니다.

음성 합성 AI를 이용한 스푸핑이나 위증, 사기 등에 악용할 위험성에 대하여, 마이크로소프트는 논문에서 "VALL-E는 화자와 동일성을 유지한 채 음성을 합성할 수 있기 때문에, 다른 사람으로 위장하거나 거짓 증거 녹음, 스푸핑 등, 잘못된 사용법에 의한 잠재적 위험을 초래할 수 있습니다. 이러한 위험을 줄이기 위해 음성 클립이 VALL-E로 합성되었는지 여부를 판별하는 탐지 모델을 구축하는 것도 가능합니다. 개발에 있어서는, Microsoft가 정한「책임 있는 AI의 기본 원칙」을 실천해 나갈 예정입니다.」라고 말하고 있습니다.

반응형