본문 바로가기
AI · 인공지능/AI 뉴스

완전히 새로운 합성 음성을 설계할 수 있는 모델「Design Voice」

by 두우우부 2023. 1. 16.
반응형


이미지 · 문장 생성 AI가 각광받고 있는 가운데, 인공지능과 기계 학습을 사용한 더빙 툴을 제작하는 소프트웨어 기업 Eleven Labs가, 제로(0)부터 새로운 음성을 설계할 수 있는 음성 합성 모델「Design Voice」를 작성하고 있다고 보도하였습니다.

This Voice Doesn't Exist - Generative Voice AI

This Voice Doesn't Exist - Generative Voice AI

We’re deploying our own generative model which lets users design entirely new synthetic voices

blog.elevenlabs.io


Eleven Labs는 영화 및 오디오북을 위한 더빙 도구를 개발하고 있습니다. 이 도구는 원래 화자의 목소리 특성을 그대로 유지하면서 자동으로 다른 언어로 다시 읽을 수 있다는 특징이 있습니다.

Eleven Labs에 의하면, 더빙 도구에 사용하는 [음성 합성 · 음성 복제] 기법을 연구하는 과정에서 새로운 음성 합성 AI의 아이디어가 떠올랐다고 합니다. 이를 실제로 개발한 Eleven Labs는 전용 모델을 학습시켜 무한히 새로운 음성을 만들어내는 기법을 추구하고 있다고 합니다.

현재 개발 중인 모델은 성별이나 연령, 악센트, 피치, 화법 등 새로운 음성의 정체성을 확립하기 위해 기본 파라미터를 설정할 수 있다는 것. 모든 음성을 생성할 수 있기 때문에 같은 기본 파라미터를 설정해도 지금까지 존재하지 않았던 완전히 새로운 음성을 얻을 수 있다고 합니다.

아래 링크를 클릭하면 Design Voice에서 생성한 샘플 음색을 재생할 수 있습니다.
・말하기
・뉴스
・회화

제로(0)로부터 생성할 수 있다고 하는 특성으로부터, 뉴스나 상업의 음성 수록 등「독자적인 음성」이 필요한 경우나, 스토리텔링이나 비디오 게임과 같은 긴 음성을 필요로 하는 경우도 도움이 될 것이라고 Eleven Labs가 코멘트.

게다가 성우가 라이센스 계약을 맺고 독자적으로 음성 모델을 훈련해 주고 그 대가로 요금을 받게 되는 미래도 Eleven Labs는 전망하고 있다는 것. 지적 재산권을 존중하고, 기술이 악용되지 않도록 안전책을 강구하는데 전력을 쏟고 있는 것 외에 모든 음성에 전자워터마크를 넣어, 바로 Design Voice라는 것도 알 수 있게 하는 장치를 마련하고 있다고 합니다.

장래에는 사용자가 자신의 목소리를 복제하여 자유롭게 말할 수 있도록 하는 것도 검토 중이며, 자신의 목소리가 단조롭다고 느끼는 사람, 녹음되는 것이 싫은 사람들에게, 자신의 목소리가 필요한 작품의 제작이 보다 편리해진다고 코멘트하고 있습니다.

Eleven Labs는 "AI를 이용함으로써 게임이라면 개발 초기 단계부터 음성 컨텐츠에 얽매이지 않고 유연한 발상과 자유로운 설계가 가능하게 되었으며, 뉴스 오디오북 등이라면 지금까지 수록 비용을 산출하기 어려워 외면받던 수많은 콘텐츠가 다양한 프로젝트에 자유롭게 적용될 것입니다."라고 코멘트.


반응형