본문 바로가기
AI · 인공지능/AI 뉴스

단어와 소리를 오디오 형식으로 변환하는 AI 「Amphion」 테일러 스위프트가 부르는 중국 노래를 생성

by 두우우부 2024. 1. 9.
반응형

 
 
2023년 12월 15일 홍콩 중문대학(심천)의 데이터 과학 학부를 포함한 연구팀은 오디오 음악 · 음성 생성을 위한 포괄적인 툴킷 「Amphion」을 발표했습니다.

https://arxiv.org/abs/2312.09911

Amphion: An Open-Source Audio, Music and Speech Generation Toolkit

Amphion is a toolkit for Audio, Music, and Speech Generation. Its purpose is to support reproducible research and help junior researchers and engineers get started in the field of audio, music, and speech generation research and development. Amphion offers

arxiv.org



연구자가 Amphion으로 만든 영상을 공개해 SNS에서 화제를 모았습니다.



이 툴킷의 공개는 연구의 재현성을 지원하고, 초보 단계의 연구자 및 엔지니어에 대한 음악 · 음성 생성 분야의 벽을 낮추는 것이 목적이라고 합니다. Amphion은 텍스트에서 음성(TTS), 가성 변환(SVC), 텍스트에서 오디오(TTA) 등의 변환 기능을 제공합니다.



독자적인 특징으로서, 고전 모델이나 아키텍처의 시각화를 실시해, 그 내부 메커니즘의 이해를 돕습니다. 이것에 의해, 음성 합성 기술이나 가성 변환 기술의 진화에 공헌할 것으로 기대되고 있습니다.

아래 그림은 Amphion의 시스템 아키텍처 설계를 보여줍니다. 데이터 처리, 공통 모듈, 최적화 알고리즘을 통합한 기반 위에 특정 생성 작업마다 데이터 사용, 모델 프레임워크, 트레이닝 파이프라인을 구축하여 각 모델의 지시(레시피)를 사용자에게 제공합니다. 모든 모델의 레시피 형식을 통일해, 가능한 한 자기 완결형으로 초보자에게도 친숙하게 하고 있습니다.



툴킷은 MIT 라이선스하에 오픈 소스로 공개되어 있으며 GitHub에서 이용이 가능합니다.
https://github.com/open-mmlab/Amphion

GitHub - open-mmlab/Amphion: Amphion (/æmˈfaɪən/) is a toolkit for Audio, Music, and Speech Generation. Its purpose is to su

Amphion (/æmˈfaɪən/) is a toolkit for Audio, Music, and Speech Generation. Its purpose is to support reproducible research and help junior researchers and engineers get started in the field of audi...

github.com

반응형