본문 바로가기
AI · 인공지능/AI 뉴스

인간다운 음성 합성을 목표로 감정 표현도 가능한 오픈 소스 독서 AI 「StyleTTS 2」가 등장

by 두우우부 2023. 11. 23.
반응형

 
 
대규모 음성 언어 모델(SLM)과 확산 모델에 의한 적대적 학습을 이용하여 인간 수준의 음성을 합성할 수 있는 Text-to-Speech AI 「StyleTTS 2」를 콜롬비아 대학의 연구자들이 개발했습니다. StyleTTS 2는 참조 음성도 필요 없으며, 읽는 텍스트에 가장 적합한 스타일을 자동 생성하며, 네이티브만큼 부드럽게 영어를 읽을 수 있습니다.

[2306.07691] StyleTTS 2: Towards Human-Level Text-to-Speech through Style Diffusion and Adversarial Training with Large Speech Language Models
https://arxiv.org/abs/2306.07691

StyleTTS 2: Towards Human-Level Text-to-Speech through Style Diffusion and Adversarial Training with Large Speech Language Model

In this paper, we present StyleTTS 2, a text-to-speech (TTS) model that leverages style diffusion and adversarial training with large speech language models (SLMs) to achieve human-level TTS synthesis. StyleTTS 2 differs from its predecessor by modeling st

arxiv.org


GitHub - yl4579/StyleTTS2: StyleTTS 2: Towards Human-Level Text-to-Speech through Style Diffusion and Adversarial Training with Large Speech Language Models
https://github.com/yl4579/StyleTTS2

GitHub - yl4579/StyleTTS2: StyleTTS 2: Towards Human-Level Text-to-Speech through Style Diffusion and Adversarial Training with

StyleTTS 2: Towards Human-Level Text-to-Speech through Style Diffusion and Adversarial Training with Large Speech Language Models - GitHub - yl4579/StyleTTS2: StyleTTS 2: Towards Human-Level Text-t...

github.com


StyleTTS 2에서 생성된 오디오는 다음 데모 페이지에서 들을 수 있습니다.

Audio Samples from StyleTTS 2
https://styletts2.github.io/


데모 페이지에는 StyleTTS 2, JETS , VITS , StyleTTS로 합성한 영어 음성을 들을 수 있습니다. 모두 부드럽게 읽고 있으며, StyleTTS 2로 읽은 음성은 그중에서도 억양이 가장 좋습니다. 일부 단어의 악센트에서 다소 애매한 부분은 있지만, 발음도 매끄럽고 기계음이 아닌 진짜 인간이 읽는 것 같다는 인상을 받았습니다.



StyleTTS 2가 합성하는 기본 음성은 여성이며, 기본적으로 여성 음성이 생성됩니다. 게다가 이 생성에 스타일을 설정하여, 「분노」, 「행복」, 「슬픔」, 「놀라움」등의 감정을 얹을 수 있습니다.



덧붙여 소셜 뉴스 사이트의 Hacker News에서는, 이 StyleTTS 2에 Whisper나 OpenHermes2-Mistral-7B를 조합해, 100% 로컬로 동작하는 음성 채팅 봇의 데모도 투고되고 있습니다(단, 작동을 위해서는 NVIDIA GPU가 필요합니다).

Chirpy Personal AI - Microsoft Apps

Chirpy Personal AI - Official app in the Microsoft Store

The AI assistant you can speak with! Use your voice to chat with Chirpy. Chirpy responds faster than any other AI or phone assistant you have used. It feels like talking to a person!

apps.microsoft.com

 

반응형