
2023년 12월 15일 홍콩 중문대학(심천)의 데이터 과학 학부를 포함한 연구팀은 오디오 음악 · 음성 생성을 위한 포괄적인 툴킷 「Amphion」을 발표했습니다.
https://arxiv.org/abs/2312.09911
Amphion: An Open-Source Audio, Music and Speech Generation Toolkit
Amphion is a toolkit for Audio, Music, and Speech Generation. Its purpose is to support reproducible research and help junior researchers and engineers get started in the field of audio, music, and speech generation research and development. Amphion offers
arxiv.org
연구자가 Amphion으로 만든 영상을 공개해 SNS에서 화제를 모았습니다.
이 툴킷의 공개는 연구의 재현성을 지원하고, 초보 단계의 연구자 및 엔지니어에 대한 음악 · 음성 생성 분야의 벽을 낮추는 것이 목적이라고 합니다. Amphion은 텍스트에서 음성(TTS), 가성 변환(SVC), 텍스트에서 오디오(TTA) 등의 변환 기능을 제공합니다.

독자적인 특징으로서, 고전 모델이나 아키텍처의 시각화를 실시해, 그 내부 메커니즘의 이해를 돕습니다. 이것에 의해, 음성 합성 기술이나 가성 변환 기술의 진화에 공헌할 것으로 기대되고 있습니다.
아래 그림은 Amphion의 시스템 아키텍처 설계를 보여줍니다. 데이터 처리, 공통 모듈, 최적화 알고리즘을 통합한 기반 위에 특정 생성 작업마다 데이터 사용, 모델 프레임워크, 트레이닝 파이프라인을 구축하여 각 모델의 지시(레시피)를 사용자에게 제공합니다. 모든 모델의 레시피 형식을 통일해, 가능한 한 자기 완결형으로 초보자에게도 친숙하게 하고 있습니다.

툴킷은 MIT 라이선스하에 오픈 소스로 공개되어 있으며 GitHub에서 이용이 가능합니다.
https://github.com/open-mmlab/Amphion
GitHub - open-mmlab/Amphion: Amphion (/æmˈfaɪən/) is a toolkit for Audio, Music, and Speech Generation. Its purpose is to su
Amphion (/æmˈfaɪən/) is a toolkit for Audio, Music, and Speech Generation. Its purpose is to support reproducible research and help junior researchers and engineers get started in the field of audi...
github.com
'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글
AI로 전세계 고용의 40%가 영향받을 수 있다고 IMF가 경고 (82) | 2024.01.17 |
---|---|
NVIDIA의「Align Your Gaussians(AYG)」 : 텍스트로 동적 4D 장면을 생성 (84) | 2024.01.11 |
아이디어를 몇 단어로 지시하면 AI가 음악을 생성해주는 Google 「MusicFX」 (81) | 2024.01.11 |
Microsoft가 30년 만에 표준 키보드에 새로운 키를 추가, AI 툴에 액세스하는 「Copilot 키」가 등장 (84) | 2024.01.10 |
Meta의 스마트 글라스 「Ray-Ban Meta」의 AI 어시스턴트, 「Meta AI」 (101) | 2023.12.14 |
Microsoft가 소규모 언어 모델 'Phi-2'를 출시, 소규모인데 최대 25배 사이즈의 모델과 동등하거나 그 이상 (71) | 2023.12.14 |
무료로 상용 이용도 가능한 대규모 언어 모델 「Mixtral 8x7B」가 등장 (3) | 2023.12.13 |
Google이 Gemini Pro와 Palm 2를 탑재한 메모 작성 앱 'NotebookLM'을 실험적으로 출시 (65) | 2023.12.12 |