본문 바로가기
트렌드 이슈 · 토픽

YouTube에는 얼마나 많은 동영상이 있고 얼마나 많은 사람들이 보는가

by 두우우부 2024. 1. 25.
반응형

 
 
동영상 전달 플랫폼 YouTube는 지금 인터넷 사용자 대부분이 한 번은 사용해 봤다고 해도 과언이 아닌 서비스가 되고 있어, 소셜 미디어 중에서는 최대 규모를 자랑합니다. 매사추세츠 대학 아머스트교에서 공공 정책, 커뮤니케이션, 정보학을 가르치는 이단 자커만 부교수가 이 YouTube의 규모를 과학적으로 파악하기 위해 구축한 조사 방법을 설명하고 있습니다.

How Big is YouTube? - Ethan Zuckerman
https://ethanzuckerman.com/2023/12/22/how-big-is-youtube/

현재 소셜 미디어 조사의 대부분은 가짜 뉴스와 잘못된 정보, 헤이트 스피치를 발견하는 데 중점을 둡니다. 이러한 설문 조사는 소셜 미디어에서 특정 키워드를 검색하여 나온 게시물의 수와 노출수를 계산하기 때문에 설문 조사 자체는 그리 어렵지 않습니다. 그러나 자커만 부교수는 분모가 되는 전체의 수를 밝히지 않고, 분자가 되는 절대수만을 조사하는 경향을 「분모 문제」라고 부르며 문제시하고 있습니다.

예를 들어, 조사기업인 Avaaz가 2020년 8월에 발표한 「신형 코로나 바이러스 감염에 관한 오정보에 관한 리포트」에서는, 신형 코로나 바이러스 감염에 관한 오정보가 1년에 38억 회 열람되었다고 보고되었습니다. 38억 회라고 하는 것은 매우 큰 숫자입니다만, 38억 회라는 숫자가 전체에서 어느 정도의 규모인지를 모른다는 것입니다. 실제로 Facebook에서는 30억 명의 사용자가 하루에 수십 ~ 수백 개의 뷰를 생성하고 있다는 점을 감안할 때, 38억 회의 조회수는 매우 작은 수라고 해석할 수 있습니다.



분모가 되는 전체 데이터에 액세스 할 수 있는 소셜 미디어로는, Reddit이나 Twitter(현 X)가 있습니다. 그러나 둘 다 일반 액세스를 차단하고 API를 유료화했기 때문에 연구원이 분모 기반으로 Reddit 및 Twitter 연구를 수행하는 것이 불가능 해졌다고 Zackerman 준 교수는 말합니다.

그래서 자커만 준 교수는 Reddit이나 Twitter보다 인터넷에서 널리 사용되는 YouTube에 주목했습니다. 설문 조사 미디어 Pew Research Center의 설문 조사에서 10대 청소년의 93%가 YouTube를 사용하고 있다고 하며, TikTok이 63%, SnapChat이 60%인 것에 비해 YouTube는 보다 인터넷 사용자 전체를 포착하기 쉬운 소셜 미디어라고 할 수 있습니다.

그러나 YouTube에는 몇 가지 API가 제공되지만 YouTube에는 샘플 동영상을 무작위로 추출하는 방법이 없다는 것. 지금까지의 YouTube 관련 연구에서는 선택한 동영상 목록에 대해 연구하거나 하나의 지정된 동영상에서 추천 동영상을 따라가는 방법 중 하나를 연구할 수밖에 없고, 물론 그러한 방법으로도 충분히 뛰어난 조사는 가능하지만 YouTube의 모든 동영상 샘플을 얻을 수는 없습니다. 무작위로 샘플을 추출하는 방법이 없다면 YouTube의 전체 규모를 추정할 수 없다고 자커만 준 교수는 지적했습니다.



거기서, 재커만 부교수는, Reddit의 과거의 글을 모두 축적해 제공하는 사이트 「Pushshift.io」의 운영자인 제이슨 바움 가트너 씨와 상담했습니다. 그리고 바움 가트너는 YouTube의 'Innertube API'라는 문서화되지 않은 API를 사용하여 무작위 URL을 추측하여 동영상이 있는지 확인하는 시스템을 구축했습니다.

YouTube URL은 'https://www.youtube.com/watch?v=○○○○'로 되어 있으며, 이 ○○○○ 부분에는 알파벳의 대문자와 소문자, 숫자, 언더바, 하이픈으로 구성된 11자리 문자열이 들어 있습니다. 생각할 수 있는 문자열 수는 대략 18경 4,000조의 패턴이 나와, 아무리 YouTube에 대량의 동영상이 보존되어 있다고 해도, 이 문자열 패턴이 부족할 일은 없습니다. 만약 YouTube에 10억 개의 동영상이 저장되어 있다고 해서 URL을 무작위로 선택해도 유효한 주소를 얻을 수 있는 확률은 184억 분의 1이라는 계산이 됩니다.

자커맨 준 교수와 바움 가트너 씨는 "문자열을 무작위로 생성하고 동영상이 있는지 확인"하는 방법은 "술에 취해 아무 번호에 전화를 걸어 상대가 나오는지 시도하는 것과 같은 일"이라며, "drunk dialing"이라고 부르고 있다고 합니다. 바움 가트너 씨는 이 drunk dialing을 3만 2000배의 속도로 할 수 있도록 개선하고, drunk dialing으로 검증하는 문자열을 제한하여 시행 횟수를 줄여 동영상 추출률을 향상하는 방법도 고안하고 있습니다. 또한 대량의 스크립트를 돌려 몇 개월 만에 10,000 개가 넘는 무작위 YouTube 동영상을 추출하는 방법도 확립했습니다.

이 스크립트에 의해 2만 4,964개의 동영상을 샘플로서 추출해, 거기서부터 YouTube의 전체 규모를 추정한 결과를 정리한 사이트 「TubeStats」에 공개하고 있습니다.

TubeStats
https://tubestats.org/




아래 막대그래프는 2006 ~ 2023년까지의 YouTube에 보존되고 있는 동영상의 추정 개수 추이를 정리한 것입니다.
2023년의 YouTube에는 대략 141억 건의 동영상이 존재할 것으로 추정된다고 합니다. 


2023년도에만 대략 435억 건의 동영상이 업로드 되었습니다.



동영상 조회수입니다.
가장 빈번한 조회수는 '17~32회'로, 전체의 10.880%입니다.
대부분의 동영상이 조회수 1,000회의 벽을 넘지 못한다는 것을 알 수 있습니다.


카테고리별 영상 수입니다.



동영상의 언어는 전체의 31.844%가 영어, 한국어는 전체의 2.246%로 9위 였습니다. 일본은 2.976%로 7위.


좋아요를 1개만 받은 영상이 전체의 14%이고 0개인 영상도 32%입니다.

댓글이 제로인 영상이 전체의 73%

영상 시청 지속시간은 9초~16초가 가장 높은 19%를 차지

채널별 구독자수는 0명이 8.3%이고, 257~512명도 8%로 비슷한 스코어

TubeStats에서는 샘플을 기반으로 한 추정 데이터가 한 달에 한 번 업데이트됩니다.

자커만 준 교수는 "아마도 가장 중요한 것은 TubeStats를 가능한 한 오래 유지하는 것입니다. 저는 모든 미디어 플랫폼에 대해 이러한 높은 수준의 데이터를 정기적으로 게시해야 한다고 생각합니다. YouTube와 같은 플랫폼은 Google의 디지털 공공권의 가장 중요한 부분 중 하나이며, 우리는 거기에 무엇이 있는지, 또한 누가 이 콘텐츠를 만들고 누구에게 도달하는지에 대해 훨씬 더 많은 정보가 필요합니다."라고 말했습니다.

반응형