본문 바로가기
AI · 인공지능/AI 뉴스

AI를 개발하는 데 필요한 데이터가 급속히 고갈되고 단 1년만에 고품질 데이터의 1/4이 사용 불가

by 두우우부 2024. 7. 24.
반응형

 

 

AI의 개발에는 인터넷에서 수집한 텍스트, 이미지, 동영상 등의 데이터가 대량으로 사용되고 있습니다. 그러나 크롤링의 금지나 서비스 이용 약관의 변경에 의해 AI 기업이 웹사이트로부터 폐쇄된 것으로, 고성능의 AI의 트레이닝에 사용할 수 있는 데이터의 총량이 1년에 약 5%, 고품질의 데이터의 약 25 %를 사용할 수 없게 된 것을 알았습니다.

Data Provenance Initiative
https://www.dataprovenance.org/consent-in-crisis-paper

Data for AI Training Is Disappearing Fast, Study Shows - The New York Times
https://www.nytimes.com/2024/07/19 /technology/ai-data-restrictions.html

AI 모델의 데이터 세트를 감사하는 단체 · Data Provenance Initiative는 널리 사용되는 3 개의 AI 교육용 데이터 세트 "C4" "RefinedWeb" "Dolma" 포함된 1만 4000개의 웹 도메인을 조사하여 크롤링에서 얻은 데이터와 사용에 대한 동의 상황의 변화를 조사했습니다.

 


그 결과, 2023년부터 2024년에 이르는 단 1년만에 각 사이트에 의한 데이터 제한이 급증하고 있는 것을 알 수 있었습니다.

아래는 조사 결과의 그래프로, 위가 크롤러에 액세스를 허가하는 URL을 기술하는 「Robots.txt」, 아래가 서비스 이용 약관 「Terms of service(ToS)」에 의한 액세스 제한의 상황을 나타내고 있습니다. 특히 Robots.txt의 한계는 OpenAI 크롤러인 'GPTBot'의 도입을 경계로 급증하고 있다.


한계 증가로 인공지능 교육에 사용할 수 없는 데이터도 급증했습니다. 구체적으로는, 코퍼스 전체에 있어서의 토큰의 제한은 2023년 중순의 약 1%로부터 2024년 4월에는 5~7%로, 가장 중요한 데이터 「HEAD」의 제한은 3% 미만으로부터 20~33% 에 증가하고 C4와 RefinedWeb에서 코퍼스 전체의 상대적인 제한 증가량은 500%, HEAD에서는 1000% 이상에 달하고 있다는 것. 특히 C4에서는 서비스 이용 약관에 따라 토큰의 45%가 제한되었습니다.


연구논문의 필두 저자인 셰인 롱프레는 “웹상에서 데이터 이용에 대한 동의율이 급속히 떨어지고 있으며, 이는 AI 기업뿐만 아니라 연구자, 학자, 비영리 단체에도 영향을 미친다. "라고 말했습니다.

생성 AI는 데이터를 기본적인 구성 요소로 하고 있으며, OpenAI의 ChatGPT, Google의 Gemini, Anthropic의 Claude 등의 AI는 모두 대량의 데이터 세트를 사용하여 훈련된 것입니다.

수년에 걸쳐 AI 개발자들은 쉽게 데이터를 수집할 수 있었습니다만, 생성 AI가 유행함에 따라 AI 개발자와 데이터 소유자의 갈등이 표면화하게 되었습니다. 그 결과 데이터 소유자는 데이터를 교육에 사용하는 것을 금지하거나 유료화하여 데이터 사용에 대한 대가를 요구하게 되었습니다.

OpenAI가 인터넷상의 콘텐츠 수집에 사용하는 웹 크롤러 "GPTBot"을 차단하려는 시도가 진행 중 - GIGAZINE


AI 업계와 관계자는 이러한 변화에 경계감을 강화하고 있습니다. 또 일부는 "이미 많은 데이터를 소유하고 있는 대기업 기술 기업과 후진 소규모 기업과 연구자 간의 데이터 격차가 확대될 뿐이 아닐까"라고 지적하는 사람도 있습니다.

AI 플랫폼을 제공하는 Hugging Face의 기계 학습 연구자인 Yacine Jernite는 “데이터 작성자가 온라인으로 공유한 텍스트, 이미지 및 동영상이 상업 시스템 개발에 사용되며 종종 그들의 삶을 직접 위협합니다. 사태가 되고 있기 때문에, 데이터 작성자로부터 반발이 일어나는 것은 당연합니다. 그러나, AI의 학습에 사용하는 데이터를 모두 라이센스 계약으로 입수할 필요가 되면, 거버넌스에서 배제될 수도 있습니다”라고 말했습니다.

또한 비영리 AI 연구 기관인 EleutherAI의 이그제큐티브 디렉터인 스텔라 비더먼은 “대형 기술 기업은 이미 대량의 데이터를 보유하고 있으며 데이터 라이선스를 변경해도 허가를 취소할 수 없습니다. 그러니까, 영향을 받는 것은 주로 나중에 온 소규모 스타트업이나 연구자가 될 것입니다.”라고 말했습니다.

반응형