AI의 기계 학습에 사용할 새로운 데이터의 고갈에 대한 우려가 다시 주목받고 있습니다.
ChatGPT의 등장 전야, 2022년 11월에 미국의 연구 그룹 Epoch AI가 발표한 논문에 의하면, 기계 학습에 사용할 수 있는 「저품질」인 언어 데이터는 2030 ~ 2050년에, 「고품질」의 언어 데이터는 2026년까지, 시각 데이터는 2030 ~ 2060년에 기존의 축적을 모두 이용해 버린다고 합니다.
「고품질」의 언어 데이터란 서적 뉴스 기사, 과학 논문, 위키피디아, 필터링이 끝난 웹 콘텐츠 등을 의미합니다. 이 예측이 2023년 7월이 되어 다시 화제를 불러일으켰습니다.
그 이유는 국제연합의 전문기관 중 하나인 국제전기통신연합(ITU)이 공개한 영상에서 AI의 권위자인 캘리포니아 대학 버클리교의 스튜어트 러셀 교수가 학습 데이터의 고갈을 언급한 것이 계기입니다.
3명의 AI 전문가가 미국 의회에서 증언, AI 연구의 1인자들의 시각은?
러셀 교수는 대규모 언어 모델이 더 많은 데이터로부터 훈련하면서 보다 거대하게, 거대하게, 거대하게만 나아가려는 현상을 두고, "벽돌의 벽에 맞서려 하고 있다."라고 말하며, 학습을 위해 사용할 수 있는 텍스트가 곧 우주에서 고갈될지도 모른다고 표현했습니다.
영상 속에서 이 화제를 언급한 시간은 1분에 못 미치지만, 미국의 미디어인 Business Insider가 반응해, "생성 AI 툴은 곧 '학습을 위한 텍스트를 전부 소모하게 된다'라고 UC 버클리 교수가 경고"라고 보도했습니다. 해당 기사가 Epoch의 조사 결과도 함께 소개했기 때문에, 2026년이라는 시기에도 다시 관심이 모이고 있습니다.
새로운 학습 데이터를 어떻게 확보할지가 LLM을 개발하는 각 사에 있어서 과제가 되고 있는 것은 확실합니다.
그럼에도 OpenAI, Meta, Google은 학습 데이터를 둘러싼 저작권 침해를 이유로 한 소송에 직면하고 있습니다.
또한, X(구 Twitter)는 투고 내용을 타사가 마음대로 기계 학습에 이용하는 것을 제한하려 하고 있고,
Reddit은 대가를 요구하는 방침을 나타내는 등, 데이터 공급원 측도 엄격한 자세를 취하기 시작하고 있습니다.
머신러닝 분야에서는 기존 데이터로부터 새로운 데이터를 생성하는 "합성 데이터"의 이용도 활발해지고 있습니다.
'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글
프롬프트로 음악과 효과음을 생성하는 오픈 소스 AI 툴 「AudioCraft」를 Meta가 발표 (3) | 2023.08.03 |
---|---|
YouTube가 "AI로 동영상 내용을 자동으로 요약하는 기능"을 실험 중이라고 밝힌다 (1) | 2023.08.03 |
Meta는 '링컨 AI' 및 '여행 계획을 제안하는 서퍼 AI' 등 캐릭터 AI를 SNS에 구현하는 계획을 추진중 (2) | 2023.08.03 |
GPT가 클라우드에서 다른 AI를 훈련하는 「자율형 엣지 AI시스템」을 Microsoft가 제안 (1) | 2023.08.02 |
Meta의 간부가 AI 기술의 일부 기업에 의한 지배는 계속되지 않을 것으로 예측, 오픈 소스 전략의 중요성을 강조 (1) | 2023.08.02 |
개발자용 대화형 AI「GitHub Copilot Chat」퍼블릭 베타판 등장 (1) | 2023.08.02 |
ChatGPT를 흉악한 폭언 머신으로 변모시키는 마법의 문자열 발견 (2) | 2023.08.01 |
대략 250조 규모의 게임업계가 AI의 등장으로 크게 변화하려 한다 (1) | 2023.07.31 |