2026년이면 AI 트레이닝용 데이터가 고갈되는「데이터 부족 문제」란?

인터넷상에는 방대한 데이터가 존재하고, 이를 학습시킴으로써 만들어진 AI가 속속 등장하게 되었습니다. AI의 보급이 폭발적으로 진행되는 한편, 연구자들은 AI 시스템을 움직이는 연료인 학습 데이터가 고갈될 수 있다고 우려하는 목소리도 높아지고 있습니다.

Researchers warn we could run out of data to train AI by 2026. What then?

Our home is girt by sea; our land abounds in nature’s carbon sinks

Reducing carbon emissions is necessary, but what about the carbon that has already been released into the atmosphere? Many countries are turning to “biosequestration” for the answers: using nature - including…

theconversation.com

학습 데이터는 양뿐만 아니라 품질도 중요합니다. 예를 들어, 소셜 미디어 게시물과 흐릿한 사진과 같은 저품질 데이터는 쉽게 얻을 수 있지만 고성능 AI 모델 교육에는 적합하지 않습니다.

더 심각한 문제는 SNS에서 얻은 텍스트 데이터가 편견과 차별로 가득한 위험, 가짜 정보 및 불법 콘텐츠가 혼동될 위험이 있다는 것입니다.

일례로서, Microsoft가 X(당시는 Twitter)의 콘텐츠를 사용해 AI를 트레이닝하려고 했는데, AI는 여성 차별이나 인종 차별을 담은 발언을 생성해 버렸습니다.

마이크로소프트의 인공지능이 "빌어먹을 페미는 지옥에서 태워라", "히틀러는 옳았다"등의 문제 발언을 연발해, 활동 정지

Microsoft terminates its Tay AI chatbot after she turns into a Nazi

Setting her neural net processor to read-write was a terrible mistake.

arstechnica.com

이러한 전례가 있기 때문에 AI 개발자는 책과 과학 논문, Wikipedia, 온라인 기사, 필터링된 특정 콘텐츠의 텍스트 등 고품질 데이터를 찾게 되었습니다. 예를 들어 Google은 Google 어시스턴트의 대화 기능을 개선하기 위해 자비 출판 사이트 Smashwords의 연애 소설 1만 1,000권을 이용하고 있습니다.

ChatGPT와 DALL-E 3와 같은 고성능 모델은 이러한 고품질의 데이터 세트를 풍부하게 교육함으로써 만들어졌지만, 그 성장에는 한계가 있습니다. 프리프린트 서버 arXiv에서 2022년에 발표한 논문에서는 "지금 상태로 AI가 훈련을 계속하면 2026년에는 고품질 텍스트 데이터가 고갈되며, 저품질 텍스트 데이터는 2030~2050년 사이에, 저품질 이미지 데이터는 2030~2060년 사이에 고갈될 것으로" 예측되었습니다.

컨설팅 회사 PwC에 따르면 AI는 2030년까지 세계 경제에 최대 15.7조 달러(약 2경 524조 원)의 경제 효과를 가져올 수 있다고 합니다. 그러나 2030년에 AI 학습 데이터가 바닥나면 AI의 발전은 늦어져 버리게 됩니다.

그렇다고 해도, Maturionite는 "상황이 보기보다 나쁘지 않을 수도 있습니다."라고 말합니다. AI 모델의 발전은 미지수인 부분이 많기 때문입니다.

또한 데이터 부족 위험에 대처하는 방법을 모색하고 있습니다. 이 방법 중 하나는 알고리즘을 개선하여 기존 데이터를 보다 효율적으로 사용할 수 있도록 하는 것입니다. 사용하는 데이터를 절약할 수 있게 되면, 적은 연산 능력으로 보다 고성능의 AI 시스템을 트레이닝할 수 있게 되므로, AI 개발 과정에서 배출되는 이산화탄소의 삭감으로 이어집니다.

또 다른 방법은 AI를 사용하여 교육용 데이터를 합성하는 것입니다. 이를 통해 AI 개발자는 특정 AI 모델에 맞게 필요한 데이터를 합성할 수 있습니다. 이미, 일부 프로젝트가 AI 모델용 합성 데이터 작성 기업, MOSTLY AI로부터 입수한 합성 콘텐츠를 활용하고 있어, 이 수법은 향후 보다 일반적으로 되어 갈 것이라고 마트리오니테 씨는 생각하고 있습니다.

AI 개발자는 또한 주요 출판사와 오프라인 리포지토리가 소유한 콘텐츠와 같은 무료 인터넷 이외의 장소에서도 활로를 찾았다고 합니다. 2023년 9월 세계 최대의 뉴스 콘텐츠를 보유한 News Corp는 AI 개발자와 콘텐츠 거래에 대한 협상을 진행하고 있다고 발표했습니다. 이처럼 지금까지 무료 콘텐츠를 무단으로 사용해 오던 AI 개발은 유료 콘텐츠에 돈을 지불하는 방향으로 이동하고 있습니다.

이러한 흐름에 대해 Maturionite 씨는 "크리에이터들은 AI 모델의 훈련에 자신의 콘텐츠가 무허가로 사용되는 것에 항의하고 있으며 Microsoft나 OpenAI, Stability AI 등 AI 기업을 고소하는 사람도 있습니다. 자신의 작업에 대해 보상을 받게 되면 크리에이터와 인공지능 기업 사이에 존재하는 힘의 불균형이 개선될 수 있습니다."라고 말했습니다.

이미지 생성 AI 'Stable Diffusion'과 'Midjourney'에 대해 집단 소송이 제기됨

'인공지능'이라고 칭하여 아티스트 및 기타 크리에이터의 권리를 침해하는 제품을 만들었다고 하여, Stability AI, Midjourney, DeviantArt의 3사에 대해서 집단 소송이 제기되었습니다. Stable Diffusion litigat

doooob.tistory.com

저작자표시 비영리 변경금지 (새창열림)

'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글

OpenAI가 저작권 침해로 법적 청구가 발생할 경우 사용자를 보호하고 비용을 전액 지불하는 '저작권 실드'를 발표 (2)	2023.11.13
일본 경시청, 도내의 정체 완화에 AI를 활용한 신호기 제어를 개시 (2)	2023.11.13
대규모 언어 모델을 LoRA로 저비용에 효율적으로 미세 조정할 수 있는 「Punica」가 등장 (2)	2023.11.13
일본 기시다 총리의 가짜 동영상이 확산 (82)	2023.11.09
AI에게「그게 최선이야?」, 「전력을 다해」등의 감정적 명령문을 전달하면 퍼포먼스가 향상된다 (0)	2023.11.09
NTT의 독자적인 LLM 「tsuzumi」 2024년 3월에 상용 서비스를 제공 예정 (0)	2023.11.09
미국 최초의 AI 규제 대통령령 「개발자는 공개 전에 테스트하고 사전에 미국 정부와 공유할 것」 (0)	2023.11.09
「Hugging Face」란 무엇인가? 내 블로그의 QR코드를 AI로 만들어 보았다 (32)	2023.11.02

두우우부

2026년이면 AI 트레이닝용 데이터가 고갈되는「데이터 부족 문제」란?

'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글

티스토리툴바

2026년이면 AI 트레이닝용 데이터가 고갈되는「데이터 부족 문제」란?

'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글

관련글

티스토리툴바