반응형
2023년 12월 15일 홍콩 중문대학(심천)의 데이터 과학 학부를 포함한 연구팀은 오디오 음악 · 음성 생성을 위한 포괄적인 툴킷 「Amphion」을 발표했습니다.
https://arxiv.org/abs/2312.09911
연구자가 Amphion으로 만든 영상을 공개해 SNS에서 화제를 모았습니다.
이 툴킷의 공개는 연구의 재현성을 지원하고, 초보 단계의 연구자 및 엔지니어에 대한 음악 · 음성 생성 분야의 벽을 낮추는 것이 목적이라고 합니다. Amphion은 텍스트에서 음성(TTS), 가성 변환(SVC), 텍스트에서 오디오(TTA) 등의 변환 기능을 제공합니다.
독자적인 특징으로서, 고전 모델이나 아키텍처의 시각화를 실시해, 그 내부 메커니즘의 이해를 돕습니다. 이것에 의해, 음성 합성 기술이나 가성 변환 기술의 진화에 공헌할 것으로 기대되고 있습니다.
아래 그림은 Amphion의 시스템 아키텍처 설계를 보여줍니다. 데이터 처리, 공통 모듈, 최적화 알고리즘을 통합한 기반 위에 특정 생성 작업마다 데이터 사용, 모델 프레임워크, 트레이닝 파이프라인을 구축하여 각 모델의 지시(레시피)를 사용자에게 제공합니다. 모든 모델의 레시피 형식을 통일해, 가능한 한 자기 완결형으로 초보자에게도 친숙하게 하고 있습니다.
툴킷은 MIT 라이선스하에 오픈 소스로 공개되어 있으며 GitHub에서 이용이 가능합니다.
https://github.com/open-mmlab/Amphion
반응형
'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글
AI로 전세계 고용의 40%가 영향받을 수 있다고 IMF가 경고 (82) | 2024.01.17 |
---|---|
NVIDIA의「Align Your Gaussians(AYG)」 : 텍스트로 동적 4D 장면을 생성 (84) | 2024.01.11 |
아이디어를 몇 단어로 지시하면 AI가 음악을 생성해주는 Google 「MusicFX」 (81) | 2024.01.11 |
Microsoft가 30년 만에 표준 키보드에 새로운 키를 추가, AI 툴에 액세스하는 「Copilot 키」가 등장 (84) | 2024.01.10 |
이미지를 분석해 캡션을 자동으로 생성해 주는, 오픈 소스로 상용 이용도 가능한 AI 모델 「BLIP-2」리뷰 (65) | 2024.01.04 |
라파엘로의 그림은 공동 제작이었을 가능성이 AI를 사용한 연구에서 분명히 (94) | 2023.12.26 |
Apple이 이미지를 보고 질문에 답할 수 있는 대규모 언어 모델 'Ferret'을 개발 (80) | 2023.12.26 |
Facebook은 이미 AI가 만든 가짜 게시물로 가득 차 있다 (103) | 2023.12.21 |