
대규모 음성 언어 모델(SLM)과 확산 모델에 의한 적대적 학습을 이용하여 인간 수준의 음성을 합성할 수 있는 Text-to-Speech AI 「StyleTTS 2」를 콜롬비아 대학의 연구자들이 개발했습니다. StyleTTS 2는 참조 음성도 필요 없으며, 읽는 텍스트에 가장 적합한 스타일을 자동 생성하며, 네이티브만큼 부드럽게 영어를 읽을 수 있습니다.
[2306.07691] StyleTTS 2: Towards Human-Level Text-to-Speech through Style Diffusion and Adversarial Training with Large Speech Language Models
https://arxiv.org/abs/2306.07691
StyleTTS 2: Towards Human-Level Text-to-Speech through Style Diffusion and Adversarial Training with Large Speech Language Model
In this paper, we present StyleTTS 2, a text-to-speech (TTS) model that leverages style diffusion and adversarial training with large speech language models (SLMs) to achieve human-level TTS synthesis. StyleTTS 2 differs from its predecessor by modeling st
arxiv.org

GitHub - yl4579/StyleTTS2: StyleTTS 2: Towards Human-Level Text-to-Speech through Style Diffusion and Adversarial Training with Large Speech Language Models
https://github.com/yl4579/StyleTTS2
GitHub - yl4579/StyleTTS2: StyleTTS 2: Towards Human-Level Text-to-Speech through Style Diffusion and Adversarial Training with
StyleTTS 2: Towards Human-Level Text-to-Speech through Style Diffusion and Adversarial Training with Large Speech Language Models - GitHub - yl4579/StyleTTS2: StyleTTS 2: Towards Human-Level Text-t...
github.com
StyleTTS 2에서 생성된 오디오는 다음 데모 페이지에서 들을 수 있습니다.
Audio Samples from StyleTTS 2
https://styletts2.github.io/
데모 페이지에는 StyleTTS 2, JETS , VITS , StyleTTS로 합성한 영어 음성을 들을 수 있습니다. 모두 부드럽게 읽고 있으며, StyleTTS 2로 읽은 음성은 그중에서도 억양이 가장 좋습니다. 일부 단어의 악센트에서 다소 애매한 부분은 있지만, 발음도 매끄럽고 기계음이 아닌 진짜 인간이 읽는 것 같다는 인상을 받았습니다.

StyleTTS 2가 합성하는 기본 음성은 여성이며, 기본적으로 여성 음성이 생성됩니다. 게다가 이 생성에 스타일을 설정하여, 「분노」, 「행복」, 「슬픔」, 「놀라움」등의 감정을 얹을 수 있습니다.

덧붙여 소셜 뉴스 사이트의 Hacker News에서는, 이 StyleTTS 2에 Whisper나 OpenHermes2-Mistral-7B를 조합해, 100% 로컬로 동작하는 음성 채팅 봇의 데모도 투고되고 있습니다(단, 작동을 위해서는 NVIDIA GPU가 필요합니다).
Chirpy Personal AI - Microsoft Apps
Chirpy Personal AI - Official app in the Microsoft Store
The AI assistant you can speak with! Use your voice to chat with Chirpy. Chirpy responds faster than any other AI or phone assistant you have used. It feels like talking to a person!
apps.microsoft.com

'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글
음성 대응 ChatGPT가 무료로 이용 가능, 개시 직후 서버 다운(현재는 복구 완료) (53) | 2023.11.27 |
---|---|
AI 아나운서 「iina」, TV 홋카이도의 정보 프로그램에 등장 (1) | 2023.11.27 |
이미지와 텍스트로 몇 초 안에 3D 모델을 만드는「Atlas」등장 (0) | 2023.11.27 |
대규모 언어 모델(LLM)을 LoRA로 강화하는 데 도움이 되는 정보를 연구원이 공개 (75) | 2023.11.24 |
Anthropic이 대규모 언어 모델 「Claude 2.1」을 출시, 최대 20만 토큰, 15만 워드를 읽어 환각이 반감 (3) | 2023.11.23 |
OpenAI의 CEO에 샘 알트만이 복귀해 이사회 멤버도 쇄신 (3) | 2023.11.23 |
"AI 나레이터"가 개발자의 생태를 동물 다큐처럼 실시간 해설하는 영상이 화제 (70) | 2023.11.22 |
OpenAI의 직원 90%가 '샘 알트만 복귀와 이사 전원 사임'을 요구하고 MS로 집단 이직 협박 (53) | 2023.11.22 |