Google의 AI 부문인 Google DeepMind가 YouTube에서 최대 60초의 세로 동영상을 공유하는 'YouTube 쇼츠'에서 시각 언어 모델 'Flamingo'를 사용하여 동영상 메타데이터를 자동 생성하고 있었습니다.
A Google DeepMind AI language model is now making descriptions for YouTube Shorts - The Verge
YouTube 쇼츠는 설명문이나 타이틀이 충분히 갖춰지지 않은 것이 많아, 이것이 YouTube 쇼츠의 검색성을 낮추는 원인이 되고 있다고 합니다. Google DeepMind의 콜린 머독 CEO에 따르면 YouTube 쇼츠의 경우 동영상 제작 과정이 간단하기 때문에 제작자가 메타데이터를 추가하지 않을 수 있습니다.
또한 유튜브 쇼츠의 제품 관리 디렉터인 토드 샤먼은 "YouTube 쇼츠는 피드에서 시청되는 경우가 대부분으로 적극적으로 검색하여 동영상을 찾는 것이 아니라 다음 영상으로 스와이프 하는 스타일이므로 메타데이터 추가로 인한 인센티브는 그리 높지 않습니다."라고 말합니다.
시각 언어 모델인 Flamingo는 동영상의 첫 프레임을 분석하고 언어화하여 설명을 자동으로 만듭니다.
이 설명은 사용자가 볼 수 없으며 어디까지나 메타데이터로 저장되며 YouTube 쇼츠 영상의 검색 가능성을 높이기 위해 활용됩니다.
Sharman은 "Flamingo 모델은 YouTube 쇼츠 영상을 이해하고 설명적인 텍스트를 제공합니다. 이 기능은 메타데이터를 필요로 하는 검색의 경우 매우 유용합니다. 이렇게 하면 사용자의 검색에 맞는 영상을 노출하기 쉽습니다."라고 코멘트.
IT 계열 뉴스 사이트인 The Verge는 YouTube 쇼츠 이외의 긴 영상에서도 Flamingo가 사용될지 샤먼 씨에게 질문했습니다. 샤먼 씨는 "그 가능성은 충분히 생각할 수 있습니다만, 그 필요성은 YouTube 쇼츠에 비하면 낮다고 생각합니다"라고 코멘트. 긴 영상의 경우 크리에이터가 촬영이나 편집에 몇 시간이나 소비하고 영상의 메타태그나 썸네일 등에도 세세하게 손을 넣기 때문에 Flamingo에서 일부러 메타데이터를 만드는 것에 큰 의미는 없습니다."라고 코멘트.
'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글
Meta의 대규모 언어 모델 "LLaMA"가 ChatGPT를 재현할 수 있다고, 다양한 채팅 AI 용 언어 모델의 벤치마크 측정으로 판명 (4) | 2023.06.01 |
---|---|
Apple이 AI 분야의 인재 모집을 강화, 고급 비주얼 생성 모델링에 임한다 (8) | 2023.05.31 |
Meta, 차세대 AI 인프라를 위한 칩과 슈퍼컴 개발 프로젝트 발표 (9) | 2023.05.31 |
마인크래프트를 GPT-4로 반복 학습하면서 자동 플레이하는 AI 에이전트 「Voyager」가 등장 (3) | 2023.05.30 |
AWS, Azure, Cudo 등이 제공하는 클라우드 GPU는 시간당 몇 달러이며, 어떤 구성인가? (3) | 2023.05.30 |
완전 오프라인으로 동작해 프라이버시를 지켜 주는 채팅 AI 「PrivateGPT」 (4) | 2023.05.29 |
1600개 이상의 API를 적절히 호출하여 AI의 '환각'을 대폭 줄이는 언어 모델 'Gorilla' 공개 (2) | 2023.05.28 |
Meta가 100만 토큰 초과의 콘텐츠 생성을 가능하게 하는 차세대 AI 아키텍처 'Megabyte' 발표 (4) | 2023.05.26 |