본문 바로가기
AI · 인공지능/AI 뉴스

Meta가 개발한 음성 생성 AI 「Voicebox」는 타인의 목소리로 문장을 읽는 것이 가능

by 두우우부 2023. 6. 21.
반응형

 

Meta가 음성 생성 AI 「Voicebox」를 2023년 6월 16일에 발표했습니다. Voicebox를 사용하면 입력한 문장을 읽게 할 뿐만 아니라 「음성의 일부를 편집」, 「다른 사람의 목소리로 문장을 읽게 한다」는 등의 악용하기 좋은 조작도 가능합니다. Meta는 Voicebox가 악용될 가능성을 인정하고 있으며, Voicebox의 모델 데이터 및 코드 공개를 하지 않고 있습니다.

Introducing Voicebox: The Most Versatile AI for Speech Generation | Meta

Introducing Voicebox: The Most Versatile AI for Speech Generation | Meta

Voicebox is a generative AI model that can help with audio editing, sampling and styling.

about.fb.com



Voicebox는
입력한 문장을 자연스러운 목소리로 읽을 수 있다,
타인의 목소리를 녹음하여 입력한 문장을 읽게 한다,
타인의 목소리를 녹음하고 입력한 문장을 지정한 억양으로 읽게 한다,
타인의 목소리를 녹음하여 일부를 편집한다.
등의 조작이 가능한 음성 생성 AI입니다.

Voicebox의 높은 성능은 다음 트윗에 포함된 영상을 보시면 쉽게 알 수 있습니다.



"다른 사람의 목소리를 녹음하여 일부 편집"하는 기능의 데모는 아래에 다수 공개되어 있습니다. 각 데모를 재생하면 어디가 편집된 부분인지 판별할 수 없을 정도로 고정밀 편집이 가능하다는 것을 알 수 있습니다.

Editing
https://voicebox.metademolab.com/edit.html



게다가 타인의 음성을 3초 정도 녹음하는 것만으로도 장문을 읽게 하는 것이 가능합니다. 아래의 데모 페이지에서는 트윗과 같은 짧은 시간의 음성을 녹음하는 것만으로 자유롭게 문장을 읽을 수 있음을 확인할 수 있습니다.

Zero-Shot TTS
https://voicebox.metademolab.com/zs_tts.html



Voicebox의 각종 데모를 확인하면, 「다른 사람의 목소리로 문장을 읽게 한다」라는 조작을 매우 높은 정밀도로 실행할 수 있기 때문에, 악용될 위험성도 높다는 것을 알 수 있습니다. Meta는 Voicebox가 악용될 위험을 인정하고 있으며 Voicebox 학습 모델 및 코드의 공개를 삼가고 있습니다. 그러나 Meta는 "진짜 음성과 Voicebox에서 생성한 음성을 구별하기 위한 효과적인 시스템"도 개발했다고 말하고 있으며, 장래에는 진짜 음성과 AI 생성 음성을 구별하는 기능도 구축될 가능성이  높습니다.

반응형