본문 바로가기
AI · 인공지능/AI 뉴스

AI 학습 데이터가 고갈되는 "2026년 문제"에 주목 - 스튜어트 러셀 교수의 유엔 발언이 계기

by 두우우부 2023. 8. 2.
반응형

 
 
AI의 기계 학습에 사용할 새로운 데이터의 고갈에 대한 우려가 다시 주목받고 있습니다.
 
ChatGPT의 등장 전야, 2022년 11월에 미국의 연구 그룹 Epoch AI가 발표한 논문에 의하면, 기계 학습에 사용할 수 있는 「저품질」인 언어 데이터는 2030 ~ 2050년에, 「고품질」의 언어 데이터는 2026년까지, 시각 데이터는 2030 ~ 2060년에 기존의 축적을 모두 이용해 버린다고 합니다.
 
「고품질」의 언어 데이터란 서적 뉴스 기사, 과학 논문, 위키피디아, 필터링이 끝난 웹 콘텐츠 등을 의미합니다. 이 예측이 2023년 7월이 되어 다시 화제를 불러일으켰습니다.

그 이유는 국제연합의 전문기관 중 하나인 국제전기통신연합(ITU)이 공개한 영상에서 AI의 권위자인 캘리포니아 대학 버클리교의 스튜어트 러셀 교수가 학습 데이터의 고갈을 언급한 것이 계기입니다.

3명의 AI 전문가가 미국 의회에서 증언, AI 연구의 1인자들의 시각은?

3명의 AI 전문가가 미국 의회에서 증언, AI 연구의 1인자들의 시각은?

2023년 7월 25일에 미국 상원 사법위원회가 개최한 공청회에서 AI에 빠삭한 3명이 증언을 실시해, AI에 관한 규제 본연의 자세나 향후 전망에 대해 제언했습니다. AI leaders warn Senate of twin risks: Moving t

doooob.tistory.com

 


러셀 교수는 대규모 언어 모델이 더 많은 데이터로부터 훈련하면서 보다 거대하게, 거대하게, 거대하게만 나아가려는 현상을 두고, "벽돌의 벽에 맞서려 하고 있다."라고 말하며, 학습을 위해 사용할 수 있는 텍스트가 곧 우주에서 고갈될지도 모른다고 표현했습니다.

영상 속에서 이 화제를 언급한 시간은 1분에 못 미치지만, 미국의 미디어인 Business Insider가 반응해, "생성 AI 툴은 곧 '학습을 위한 텍스트를 전부 소모하게 된다'라고 UC 버클리 교수가 경고"라고 보도했습니다. 해당 기사가 Epoch의 조사 결과도 함께 소개했기 때문에, 2026년이라는 시기에도 다시 관심이 모이고 있습니다.
 
새로운 학습 데이터를 어떻게 확보할지가 LLM을 개발하는 각 사에 있어서 과제가 되고 있는 것은 확실합니다.

그럼에도 OpenAI, Meta, Google은 학습 데이터를 둘러싼 저작권 침해를 이유로 한 소송에 직면하고 있습니다.

또한, X(구 Twitter)는 투고 내용을 타사가 마음대로 기계 학습에 이용하는 것을 제한하려 하고 있고,

Reddit은 대가를 요구하는 방침을 나타내는 등, 데이터 공급원 측도 엄격한 자세를 취하기 시작하고 있습니다.

머신러닝 분야에서는 기존 데이터로부터 새로운 데이터를 생성하는 "합성 데이터"의 이용도 활발해지고 있습니다.

반응형