본문 바로가기
AI · 인공지능/AI 뉴스

영상에 어울리는 음악을 AI가 자동 선곡해주는 Qosmo의「Video2Music」서비스

by 두우우부 2023. 1. 13.
반응형

 


AI를 활용한 창의성의 발전을 목표로 하는 주식회사 Qosmo(코즈모)는, 음악 · 사운드 분야에 있어서 Qosmo가 축적해 온 노하우나 알고리즘을 이용한 제품군「Qosmo Music and Sound AI」의 새로운 라인업으로서「Video2 Music」 서비스의 제공을 시작하였습니다.

"Video2Music"은 Qosmo가 독자적으로 개발한 심층학습형 AI 모델로, 입력된 영상에 어울리는 곡의 후보를 리스트업 해주는 기술입니다.

지금까지 영상 크리에이터들이 BGM을 찾기 위해 많은 시간을 들여야만 했던 부분을, AI가 자동으로 찾아 줌에 따라 영상제작 시간을 크게 단축할 수 있습니다.



선곡 작업을 대폭 줄여주는「Video2Music」

동영상의 분위기에 딱 맞는 배경 음악이나 특정 장면에서의 감정을 잘 나타내는 곡을 선곡하려면 폭넓은 음악 지식이 필요합니다. 또한, 영상과 음악이 잘 어울리는지는 감각적으로 밖에 평가할 수 없기 때문에, 개개인에 의한 선택의 편차도 큰 편이며, 다양한 후보곡 중에서 다양한 사람의 의견을 기초로 한 선곡을 실시할 필요가 있습니다.

그 때문에, 지금까지 비디오 디렉터나 크리에이터들은, BGM의 선곡에 많은 시간을 소비하고 있으며, Qosmo의 사용자 의견에 의하면, 영상 내에서 몇 초 밖에 사용되지 않는 음악의 선곡을 위하여 몇 시간을 소비할 때도 있다고 지적되고 있습니다.

Video2Music은 사용자가 동영상을 업로드하기만 하면 여러 후보곡을 즉시 찾을 수 있습니다. 후보곡의 수는 자유롭게 정할 수 있으며, 각각의 후보곡은 매치도로 순위가 매겨집니다. 이러한 후보곡에는 일정한 유사성이 있는 한편, 어느 정도의 편차도 존재하기 때문에, 최종적으로는 제작자의 센스나 의도를 가미한 선곡을 실시할 수 있습니다.


Video2Music의 특징

Video2Music에는 다음의 4가지 특징이 있습니다.

1. Qosmo가 독자적으로 개발한 AI 모델이 주어진 동영상에 '알맞은' 음악을 대상 음악 라이브러리에서 단시간에 추출해 냅니다. 대상 음악의 장르나 형태 등에 제한은 없습니다.
2.「비디오 → 음악」에 더하여「음악 → 비디오」의 검색도 할 수 있으므로, 크로스 미디어 정보 검색 구현에 의해 UX를 향상할 수 있습니다.

3. Qosmo의 음악 검색 알고리즘을 함께 사용하면 유사곡 후보 제안 등 폭넓은 검색 서비스를 구축할 수 있습니다.
4. Video2Music은 API 또는 온플레이 환경에서 실행할 수 있습니다.


Video2Music | Qosmo

 

Video2Music | Qosmo - CULTIVATE THE CHAOS

Qosmo is a small team of passionate creatives based in Tokyo. Our projects include both commercial projects for well-established Japanese and international clients, as well as purely artistic projects that have reached a global audience and have been part

qosmo.jp



Qosmo가 독자적으로 개발한 AI 모델

시계열성이 있는 데이터 해석에 뛰어난「Transformer」자연언어 처리(NLP) 모델을 응용해, 영상과 음악 양쪽을 상호 비교 가능한 잠재 벡터치로 변환합니다.

이러한 접근법을 사용하여 온라인상의 영상 콘텐츠 등을 입력 데이터로 학습하고 Contrastive(대조) 학습이라는 기법으로 모델링함으로써 영상과 음악이라는 상이한 정보의 유사도를 정량적으로 계산할 수 있습니다. 독자적으로 개발한 AI 모델은, 이미 폭넓은 [입력 영상 · 선곡]에 대응하고 있습니다만, Qosmo에서는 추가 데이터를 사용한 재학습을 통해, 특정 용도에 따른 정밀도를 향상하는 것에도 대응하고 있습니다.


입력영상 → 심층학습모델 → 영상특징량 → 매 칭 ← 악곡특징량 ← 심층학습모델 ← 음악 데이터베이스

 

반응형