본문 바로가기
AI · 인공지능/AI 뉴스

Google DeepMind가 동영상에 딱 맞는 음악을 생성하는「video-to-audio(V2A)」발표

by 두우우부 2024. 6. 19.
반응형

 
 
Google DeepMind가 2024년 6월 17일에 영상의 분위기나 움직임에 맞추어 음악이나 소리를 생성하는 「video-to-audio(V2A)」 를 발표했습니다.

Generating audio for video - Google DeepMind
https://deepmind.google/discover/blog/generating-audio-for-video/

Generating audio for video

Video-to-audio research uses video pixels and text prompts to generate rich soundtracks

deepmind.google


Google DeepMind가 이번에 발표한 V2A 시스템은, 동영상 생성 AI 'Veo'와 함께 드라마틱한 BGM 및 리얼한 SE, 캐릭터의 대사 등을 생성할 수 있는 기술입니다.

예를 들어, 다음 영상은 "Cinematic, thriller, horror film, music, tension, ambience, footsteps on concrete(영화같은, 스릴러, 공포 영화, 음악, 긴장감, 음이 퍼지는, 콘크리트 위 발걸음)"이라는 프롬프트로 음악과 소리가 생성되었습니다.

V2A Horror - YouTube

 

인물이 앞에서 안쪽을 향해 걷는 장면에서는, 불안감을 고조시키는 BGM과, 자박 거라는 발소리가 들립니다.



장면이 바뀌고, 사람이 나타난 씬에서는 지잉~ 하고 묵직한 소리도 들립니다.



그 밖에도 다양한 샘플이 게재되고 있습니다. 다음 영상의 음성 프롬프트는 "Cute baby dinosaur chirps, jungle ambience, egg cracking(귀여운 아기 공룡의 울음소리, 정글의 환경음, 계란의 깨지는 소리)"입니다.

V2A Dinosaur - YouTube

 

"jellyfish pulsating under water, marine life, ocean(수영하는 해파리, 해양 생물, 바다)"

V2A Jellyfish - YouTube

 

"A drummer on a stage at a concert surrounded by flashing lights and a cheering crowd(플래시와 환호에 싸여 콘서트 무대에 선 드러머)"

V2A Drums - YouTube

 

"cars skidding, car engine throttling, angelic electronic music(차 슬립, 자동차 엔진 스로틀, 천사 같은 전자 음악)"

V2A Cars - YouTube

 

"a slow mellow harmonica plays as the sun goes down on the prairie(초원에 해가 지는 동안 느리고 감미로운 하모니카 연주)"

V2A Cowboy - YouTube



Wolf howling at the moon


V2A Wolf - YouTube



V2A 시스템은 먼저 입력된 영상을 인코딩하고 이를 바탕으로 확산 모델이 랜덤 한 노이즈로부터 반복음을 생성합니다. 그리고 영상과 프롬프트와 일치하는 사실적인 음성이 생성되면 디코딩하여 음성 데이터와 영상을 합성합니다.


V2A 시스템은 영상을 이해할 수 있으므로 텍스트 프롬프트의 입력은 옵션입니다. 예를 들어, 다음 동영상의 기타 소리는 프롬프트 입력 없이 합성되었다고 합니다.

V2A Guitar - YouTube

 

아직 부자연스러운 경우도 많지만, 어느 정도의 립싱크도 가능합니다. 예를 들면, 아래의 영상에서 캐릭터가 말하고 있는 대사는, "Transcript: “this turkey looks amazing, I'm so hungry(대본:이 칠면조 맛있을 것 같아. 배고프다)"라는 스크립트로부터 합성된 것입니다.

V2A Claymation family - YouTube

 

반응형