Google DeepMind가 2024년 6월 17일에 영상의 분위기나 움직임에 맞추어 음악이나 소리를 생성하는 「video-to-audio(V2A)」 를 발표했습니다.
Generating audio for video - Google DeepMind
https://deepmind.google/discover/blog/generating-audio-for-video/
Google DeepMind가 이번에 발표한 V2A 시스템은, 동영상 생성 AI 'Veo'와 함께 드라마틱한 BGM 및 리얼한 SE, 캐릭터의 대사 등을 생성할 수 있는 기술입니다.
예를 들어, 다음 영상은 "Cinematic, thriller, horror film, music, tension, ambience, footsteps on concrete(영화같은, 스릴러, 공포 영화, 음악, 긴장감, 음이 퍼지는, 콘크리트 위 발걸음)"이라는 프롬프트로 음악과 소리가 생성되었습니다.
V2A Horror - YouTube
인물이 앞에서 안쪽을 향해 걷는 장면에서는, 불안감을 고조시키는 BGM과, 자박 거라는 발소리가 들립니다.
장면이 바뀌고, 사람이 나타난 씬에서는 지잉~ 하고 묵직한 소리도 들립니다.
그 밖에도 다양한 샘플이 게재되고 있습니다. 다음 영상의 음성 프롬프트는 "Cute baby dinosaur chirps, jungle ambience, egg cracking(귀여운 아기 공룡의 울음소리, 정글의 환경음, 계란의 깨지는 소리)"입니다.
V2A Dinosaur - YouTube
"jellyfish pulsating under water, marine life, ocean(수영하는 해파리, 해양 생물, 바다)"
V2A Jellyfish - YouTube
"A drummer on a stage at a concert surrounded by flashing lights and a cheering crowd(플래시와 환호에 싸여 콘서트 무대에 선 드러머)"
V2A Drums - YouTube
"cars skidding, car engine throttling, angelic electronic music(차 슬립, 자동차 엔진 스로틀, 천사 같은 전자 음악)"
V2A Cars - YouTube
"a slow mellow harmonica plays as the sun goes down on the prairie(초원에 해가 지는 동안 느리고 감미로운 하모니카 연주)"
V2A Cowboy - YouTube
Wolf howling at the moon
V2A Wolf - YouTube
V2A 시스템은 먼저 입력된 영상을 인코딩하고 이를 바탕으로 확산 모델이 랜덤 한 노이즈로부터 반복음을 생성합니다. 그리고 영상과 프롬프트와 일치하는 사실적인 음성이 생성되면 디코딩하여 음성 데이터와 영상을 합성합니다.
V2A 시스템은 영상을 이해할 수 있으므로 텍스트 프롬프트의 입력은 옵션입니다. 예를 들어, 다음 동영상의 기타 소리는 프롬프트 입력 없이 합성되었다고 합니다.
V2A Guitar - YouTube
아직 부자연스러운 경우도 많지만, 어느 정도의 립싱크도 가능합니다. 예를 들면, 아래의 영상에서 캐릭터가 말하고 있는 대사는, "Transcript: “this turkey looks amazing, I'm so hungry(대본:이 칠면조 맛있을 것 같아. 배고프다)"라는 스크립트로부터 합성된 것입니다.
V2A Claymation family - YouTube
'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글
ChatGPT의 실수를 찾는 GPT-4 기반 모델 「CriticGPT」 개발 (1) | 2024.07.01 |
---|---|
저커버그가 클로즈드 AI 기업에 "신 같은 것을 창조하고 있다고 생각하나?"라고 강하게 비판 (1) | 2024.07.01 |
인간형 로봇이 운전을 하는 미래 (2) | 2024.06.26 |
AI를 탑재한 중국의 차세대 '섹스로봇'이 시장을 석권하는 미래가 바로 코 앞? (2) | 2024.06.21 |
GPT-4o가 AI 벤치마크 ARC-AGI에서 50%의 점수에 도달, 지금까지 최고 기록인 34%를 대폭 업데이트 (2) | 2024.06.19 |
자연스러운 일본인 이미지 생성 기능 「JAPAN AI」 (1) | 2024.06.17 |
「Cat as a service」 로 여러가지 고양이를 소환해 보았다 (0) | 2024.06.17 |
Stable Diffusion 3 Medium이 오픈 릴리스 (1) | 2024.06.17 |