본문 바로가기
AI · 인공지능/AI 뉴스

프롬프트로 음악과 효과음을 생성하는 오픈 소스 AI 툴 「AudioCraft」를 Meta가 발표

by 두우우부 2023. 8. 3.
반응형



최근에는 AI 기술이 급속히 진보하고 있으며, 고정밀 텍스트와 이미지를 생성하는 AI가 등장하고 있습니다. 새롭게, Facebook이나 Instagtram 등을 운영하는 Meta가, 텍스트를 바탕으로 음악이나 효과음을 생성하는 오픈 소스의 AI 툴 「AudioCraft」를 발표했습니다.

AudioCraft: A simple one-stop shop for audio modeling

AudioCraft: A simple one-stop shop for audio modeling

AudioCraft consists of three models: MusicGen, AudioGen, and EnCodec. MusicGen, which was trained with Meta-owned and specifically licensed music, generates music from text-based user inputs, while AudioGen, which was trained on public sound effects, gener

ai.meta.com


Meta releases open source AI audio tools, AudioCraft | Ars Technica

Meta releases open source AI audio tools, AudioCraft

Meta's suite of three AI models can create sound effects and music from descriptions.

arstechnica.com


Meta는 공식 블로그에서 최근 대규모 언어 모델을 탑재한 AI는 텍스트 생성 및 기계 번역, 음성 대화 에이전트, 이미지 & 동영상 생성 등에서 큰 진보를 이루고 있는 한편, 오디오 분야에서는 지연이 보인다고 지적했습니다.

물론, 과거에도 텍스트로 음악을 생성하는 AI가 종종 발표되어 왔지만, 복잡하고 그다지 오픈되어 있지 않았기 때문에 사람들이 쉽게 시도하기 어려웠다는 것입니다.

충실도 높은 오디오를 생성하려면 복잡한 신호와 패턴을 다양한 스케일로 모델링해야 합니다. 특히 음악은 일련의 음표와 여러 악기로 구성된 음악 구조를 가지고 있기 때문에 생성하기 어려운 타입의 오디오라고 합니다.

Meta에 따르면, 텍스트 기반 생성 모델에서 사용되는 샘플은 1개당 수천 시간 단계로 구성되어 있지만, 표준 품질의 44.1kHz로 녹음된 일반적인 몇 분의 음악 샘플은 하나에 수백만의 타임 스텝으로 공정하고 있다는 것.

그래서 Meta는
음악을 생성하는 「MusicGen」,
효과음 등의 음성을 생성하는 「AudioGen」,
신경망 기반의 오디오 압축 코덱인 「EnCodec
이라는 3가지 모델로 구성된 오픈 소스 오디오 생성 AI 도구 「AudioCraft」를 발표했습니다.

MusicGen은 Meta가 소유한 총 약 20,000시간에 이르는 메타데이터가 포함된 음악으로 훈련되었으며 AudioGen은 공공 효과음으로 훈련되고 있다고 Meta는 설명합니다.

아래의 X(구 Twitter)에 투고된 영상을 재생하면, AudioCraft에
「Movie-scene in a desert with percussion」
「80s electric with drum beats」
「Jazz instrumental, medium tempo, spirited piano」
라는 프롬프트를 입력하여 생성된 음악을 들을 수 있습니다.

https://twitter.com/i/status/1686737312481411072


또한 공식 사이트에서는 AudioCraft를 사용하여
「Whistling with wind blowing」
「Sirens and a humming engine approach and pass」
등의 프롬프트로 생성된 다양한 효과음을 들을 수 있습니다.


AudioCraft의 모델은 오픈 소스로 공개되어 있으며, 사람들이 연구 목적과 기술에 대한 이해를 높이기 위해 사용할 수 있습니다. Meta는 블로그에서 "AudioCraft 코드를 공유하는 것으로, 다른 연구자들이 생성 모델의 잠재적 편향과 오용을 제한하거나 제거하는 새로운 접근법을 보다 쉽게 테스트할 수 있기를 바랍니다. 책임 있는 혁신은 혼자 실현할 수 없습니다. 우리의 연구와 결과 모델을 오픈 소스화 함으로써 모든 사람이 평등하게 접근할 수  있습니다."라고 말했습니다.


AudioCraft 코드는 다음 GitHub 리포지토리에서 볼 수 있습니다.

GitHub - facebookresearch/audiocraft: Audiocraft is a library for audio processing and generation with deep learning. It features the state-of-the-art EnCodec audio compressor / tokenizer, along with MusicGen, a simple and search control lable music generation LM  with textual and melodic conditioning.
https://github.com/facebookresearch/audiocraft

GitHub - facebookresearch/audiocraft: Audiocraft is a library for audio processing and generation with deep learning. It feature

Audiocraft is a library for audio processing and generation with deep learning. It features the state-of-the-art EnCodec audio compressor / tokenizer, along with MusicGen, a simple and controllable...

github.com

반응형