프롬프트로 음악과 효과음을 생성하는 오픈 소스 AI 툴 「AudioCraft」를 Meta가 발표

최근에는 AI 기술이 급속히 진보하고 있으며, 고정밀 텍스트와 이미지를 생성하는 AI가 등장하고 있습니다. 새롭게, Facebook이나 Instagtram 등을 운영하는 Meta가, 텍스트를 바탕으로 음악이나 효과음을 생성하는 오픈 소스의 AI 툴 「AudioCraft」를 발표했습니다.

AudioCraft: A simple one-stop shop for audio modeling

AudioCraft: A simple one-stop shop for audio modeling

AudioCraft consists of three models: MusicGen, AudioGen, and EnCodec. MusicGen, which was trained with Meta-owned and specifically licensed music, generates music from text-based user inputs, while AudioGen, which was trained on public sound effects, gener

ai.meta.com

Meta releases open source AI audio tools, AudioCraft | Ars Technica

Meta releases open source AI audio tools, AudioCraft

Meta's suite of three AI models can create sound effects and music from descriptions.

arstechnica.com

Meta는 공식 블로그에서 최근 대규모 언어 모델을 탑재한 AI는 텍스트 생성 및 기계 번역, 음성 대화 에이전트, 이미지 & 동영상 생성 등에서 큰 진보를 이루고 있는 한편, 오디오 분야에서는 지연이 보인다고 지적했습니다.

물론, 과거에도 텍스트로 음악을 생성하는 AI가 종종 발표되어 왔지만, 복잡하고 그다지 오픈되어 있지 않았기 때문에 사람들이 쉽게 시도하기 어려웠다는 것입니다.

충실도 높은 오디오를 생성하려면 복잡한 신호와 패턴을 다양한 스케일로 모델링해야 합니다. 특히 음악은 일련의 음표와 여러 악기로 구성된 음악 구조를 가지고 있기 때문에 생성하기 어려운 타입의 오디오라고 합니다.

Meta에 따르면, 텍스트 기반 생성 모델에서 사용되는 샘플은 1개당 수천 시간 단계로 구성되어 있지만, 표준 품질의 44.1kHz로 녹음된 일반적인 몇 분의 음악 샘플은 하나에 수백만의 타임 스텝으로 공정하고 있다는 것.

그래서 Meta는
음악을 생성하는 「MusicGen」,
효과음 등의 음성을 생성하는 「AudioGen」,
신경망 기반의 오디오 압축 코덱인 「EnCodec」
이라는 3가지 모델로 구성된 오픈 소스 오디오 생성 AI 도구 「AudioCraft」를 발표했습니다.

MusicGen은 Meta가 소유한 총 약 20,000시간에 이르는 메타데이터가 포함된 음악으로 훈련되었으며 AudioGen은 공공 효과음으로 훈련되고 있다고 Meta는 설명합니다.

아래의 X(구 Twitter)에 투고된 영상을 재생하면, AudioCraft에
「Movie-scene in a desert with percussion」
「80s electric with drum beats」
「Jazz instrumental, medium tempo, spirited piano」
라는 프롬프트를 입력하여 생성된 음악을 들을 수 있습니다.

https://twitter.com/i/status/1686737312481411072

또한 공식 사이트에서는 AudioCraft를 사용하여
「Whistling with wind blowing」
「Sirens and a humming engine approach and pass」
등의 프롬프트로 생성된 다양한 효과음을 들을 수 있습니다.

AudioCraft의 모델은 오픈 소스로 공개되어 있으며, 사람들이 연구 목적과 기술에 대한 이해를 높이기 위해 사용할 수 있습니다. Meta는 블로그에서 "AudioCraft 코드를 공유하는 것으로, 다른 연구자들이 생성 모델의 잠재적 편향과 오용을 제한하거나 제거하는 새로운 접근법을 보다 쉽게 테스트할 수 있기를 바랍니다. 책임 있는 혁신은 혼자 실현할 수 없습니다. 우리의 연구와 결과 모델을 오픈 소스화 함으로써 모든 사람이 평등하게 접근할 수 있습니다."라고 말했습니다.

AudioCraft 코드는 다음 GitHub 리포지토리에서 볼 수 있습니다.

GitHub - facebookresearch/audiocraft: Audiocraft is a library for audio processing and generation with deep learning. It features the state-of-the-art EnCodec audio compressor / tokenizer, along with MusicGen, a simple and search control lable music generation LM with textual and melodic conditioning.
https://github.com/facebookresearch/audiocraft

GitHub - facebookresearch/audiocraft: Audiocraft is a library for audio processing and generation with deep learning. It feature

Audiocraft is a library for audio processing and generation with deep learning. It features the state-of-the-art EnCodec audio compressor / tokenizer, along with MusicGen, a simple and controllable...

github.com

'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글

음악을 들은 뇌의 움직임으로부터 AI가 노래를 재구성하는 방법을 구글 및 오사카 대학이 발표 (1)	2023.08.07
AI에 의한 유방암 검진은 발견률이 20% 상승해 방사선과 의사의 업무를 44% 줄인다 (24)	2023.08.04
AMD CEO의 예측, 「AI용 반도체 시장은 3~4년간 연 50%씩 성장한다」 제조 위탁처 확대 가능성 (2)	2023.08.04
Google이 AI 검색에 '이미지 및 동영상' 기능 추가 발표, 동영상의 필요 부분만 찾아주는 편리함 (1)	2023.08.04
YouTube가 "AI로 동영상 내용을 자동으로 요약하는 기능"을 실험 중이라고 밝힌다 (1)	2023.08.03
Meta는 '링컨 AI' 및 '여행 계획을 제안하는 서퍼 AI' 등 캐릭터 AI를 SNS에 구현하는 계획을 추진중 (2)	2023.08.03
GPT가 클라우드에서 다른 AI를 훈련하는 「자율형 엣지 AI시스템」을 Microsoft가 제안 (1)	2023.08.02
AI 학습 데이터가 고갈되는 "2026년 문제"에 주목 - 스튜어트 러셀 교수의 유엔 발언이 계기 (1)	2023.08.02

두우우부

프롬프트로 음악과 효과음을 생성하는 오픈 소스 AI 툴 「AudioCraft」를 Meta가 발표

'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글

티스토리툴바

프롬프트로 음악과 효과음을 생성하는 오픈 소스 AI 툴 「AudioCraft」를 Meta가 발표

'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글

관련글

티스토리툴바