본문 바로가기
AI · 인공지능/AI 뉴스

Meta가 음악 생성 AI 모델을 오픈 소스로 공개

by 두우우부 2023. 6. 12.
반응형

 

Meta의 연구팀이 음악을 생성하는 AI 모델 'MusicGen'을 공개했습니다. 오픈 소스로 공개되어 누구나 무료로 모델을 이용할 수 있다는 것 외에, 데모도 공개되어 있어, 그 품질을 실제로 확인하는 것도 가능합니다.

[2306.05284] Simple and Controllable Music Generation
https://doi.org/10.48550/arXiv.2306.05284

 

MusicGen: Simple and Controllable Music Generation
https://ai.honu.io/papers/musicgen/


MusicGen은 ChatGPT와 같은 대규모 언어 모델과 마찬가지로 Transformer를 이용한 모델입니다. 언어 모델은 문장의 다음 단어를 예측하지만 MusicGen은 음악의 다음 섹션을 예측하는 메커니즘입니다. 트레이닝에는 2만 시간 분량의 라이선스가 부여된 음악이 이용되고 있으며, 구체적으로는 1만 개의 내부 데이터 세트 외에 ShutterstockPond5의 데이터를 이용했습니다. 또한 MusicGen을 실행하려면 16GB 이상의 VRAM이 있는 그래픽 카드가 필요합니다.

생성할 수 있는 음악의 품질을 확인할 수 있도록 프롬프트 예시 및 데모가 준비되어 있습니다. 예를 들어 아래 음악은 "Pop dance track with catchy melodies, tropical percussion, and upbeat rhythms, perfect for the beach"라는 입력으로 생성되었습니다. 그야말로 남국의 해변을 연상시키는 분위기로 완성되고 있어, 꽤 좋은 품질이라고 말할 수 있을 것 같습니다.

 

  

000_sample.mp3
0.92MB


또한 "A grand orchestral arrangement with thunderous percussion, epic brass fanfares, and soaring strings, creating a cinematic atmosphere fit for a heroic battle"으로 생성하면 이런 느낌. 게임의 라스트 보스전 같은 느낌으로 위화감 없는 음악이 완성되었습니다.

 

 

001_sample.mp3
0.92MB


그 외 다수의 보기가 MusicGen의 소개 페이지에 나와 있습니다(다른 모델과의 차이점 비교도 가능합니다).

 


실제로 모델을 사용한 데모가 Hugging Face에 공개되어 있습니다. 왼쪽의 입력란에 텍스트를 넣고 「Generate」를 클릭하면 12초의 음악이 생성되는 구조입니다. 생성된 음악은 재생하거나 다운로드하여 저장할 수 있습니다.


여러 가지 시험해 보았는데, 스스로 만든 오리지널 프롬프트로는 아무리 해봐도 별로인 음악 밖에 생성할 수 없었습니다.

 

그러나, 보기 페이지에서 카피해 온 'a light and cheerly EDM track, with syncopated drums, aery pads, and strong emotions'라는 프롬프트로 생성하자 한 방에 쓸만한 음악이 생성되었습니다.

 

 

tmprsdnmz7k.mp4
0.15MB


AI가 음악을 생성하는 시대가 되어도 프롬프트를 입력하는 방법에는 음악적 센스가 필요한 것 같습니다.

 

그래서 프롬프트 엔지니어가 미래에 유망한 직업이라고 말하는 모양입니다.

반응형