본문 바로가기
AI · 인공지능/AI 칼럼

새로운 AI 개발 사상「데이터 중심의 AI」입문

by 두우우부 2022. 8. 31.
반응형

92%의 AI 실무자가 만난 데이터 캐스케이드 문제

머신러닝 모델의 오류가 누적되는 현상을 데이터 캐스케이드(Data Cascade) 현상이라고 합니다.
 

기존의 AI 연구 개발에서 중시되어 온 것은 AI 시스템의 핵심이 되는 AI 모델이었습니다. AI 개발자는 AI 시스템의 정확성을 향상하기 위해 AI 모델에 다양한 기법을 구사하는 것에 익숙했습니다.

 

이러한 가운데 2021년 5월, Google의 조사 팀은 지금까지 당연히 생각해 온 AI 모델 중심의 개발 사상을 비판적으로 검토한 논문인 「모두가 데이터가 아닌 모델을 다루는 일을 하고 싶어 한다」: Data Cascades in High-Stakes AI를 발표했습니다. 이 논문에서는 학습 데이터의 품질이 AI 시스템에 미치는 영향을 고찰합니다.

Data Cascades in High-Stakes AI.pdf
0.65MB

 

다음 조사는, 세계 각지로부터 참가한 53명의 AI 실무자를 대상으로 행해졌습니다.

(※ 미국이 16명, 인도가 23명, 나이지리아가 10명, 케냐가 2명, 가나가 1명, 우간다가 1명)

 

이 조사는 데이터와 AI 개발의 관계에 대해 인터뷰 형식으로 질문하는 것이었습니다. 질문 결과 설문조사 참가자 중 92% 이상이 데이터에 문제가 발생했다고 대답했습니다. Google 설문조사팀은 데이터 부족 및 저품질로 인한 AI 시스템의 문제를 데이터 케스케이드라 명명하며 아래 표와 같이 유형화했습니다.

 

캐스케이드 특징 개요 원인
물리세계와의 상호작용 취약 AI 시스템이 실세계 문제를 미반영 실세계 데이터취급 미비
응용 분야의 전문 지식 부족 문제나 학습 데이터에 대한 전문 지식 부족 일부 작업에서 전문 지식에 과도한 의존
보상 시스템의 충돌 AI 시스템 개발&운영의 일부 작업이 터무니없이 박봉 인센티브의 구성 불량
데이터의 경시(무시)
조직을 아우르는 자료의 부족 프로젝트 팀 전체에서 공유해야 할 자료의 미공유 데이터 자료의 작성 태만

 

 

이상의 캐스케이드가 발생하는 프로젝트 공정과 영향을 주는 공정을 모식도로 나타내면 다음과 같습니다.

 

 

위의 개략도에서 알 수 있는 것은, 각종 데이터 캐스케이드는 「문제정의」 같은 프로젝트의 초기 공정으로부터 생겨 , 모델의 평가나 구현과 같은 프로젝트의 후공정에 악영향을 주어, 최악의 경우 프로젝트 자체를 다시 하거나 포기로 이어질 것입니다. 또한 데이터 케스케이드가 여러 번 발생하면 이들이 축적되어 프로젝트 후공정에 부정적 영향을 미친다는 것을 알 수 있습니다.

 

조사 논문은 위와 같은 데이터 캐스케이드가 발생하는 원인으로 기존의 AI 프로젝트가 AI 모델이 주어진 데이터에 대해 적절하게 동작하는지 여부를 각종 지표로 측정하는 「Goodness-of-fit(적합도)」라는 개발 자세에 사로잡혀 있었기 때문이라고 지적합니다. 그러나 Goodness-of-fit은 데이터 자체가 해결해야 할 문제에 대하여 적합한지 어떤지는 논하지 않습니다.

 

 

데이터 캐스케이드 발생을 예방하는 새로운 개발 자세로 Google 설문조사팀은 Goodness-of-fit 대신 Goodness-of-data를 제창합니다. 그러나 후자에 관해서는 아직 구체적인 평가 도구가 없어, 향후 정비되어야 한다고 지적하고 있습니다.

 

덧붙여서, 이상의 조사 논문의 타이틀에 있는 「모두가 데이터가 아닌 모델에 관한 일을 하고 싶어 한다」라는 발언은, 조사 참가자 중 한 명이었던 헬스케어 분야 인도인 AI실무가의 것입니다. 이 발언은 데이터 수집과 라벨링과 같은 수수하지만 AI 시스템의 성능에 큰 영향을 미치는 데이터 관련 작업은 평가되지 않고, AI 모델의 개발이 최우선시되는 현상을 이야기한 것입니다.

 

 

빅 데이터에서 굿 데이터로

「Goodness-of-Data」를 「데이터 중심의 AI」 설계 사상으로 체계화하려고 하고 있는 것이, 미국에서 제3차 AI 붐의 주역으로 활약한 Andrew Ng(앤드류 응) 교수입니다.

 

데이터 중심의 AI의 개요는, 응 교수가 2021년 3월에 YouTube에서 라이브로 전달한 프레젠테이션

「MLOpes를 둘러싼 Andrew 교수와의 대화:모델 중심에서 데이터 중심의 AI로」의 슬라이드 자료에 정리되어 있습니다.

MLOps-From-Model-centric-to-Data-centric-AI.pdf
1.83MB

 

 

Ng 교수는 데이터와 AI 시스템의 관계를 '데이터는 AI를 위한 음식'으로 표현하며 아래와 같은 도표를 제시하고 고찰합니다. 이 표현은 요리에서 요리 기술 못지않게 재료의 신선도(품질)도 중요한 것처럼, AI 시스템 개발에서도 데이터 품질이 중요한 것을 전하고자 합니다. 또한 AI 시스템 개발 공수의 80%가 데이터 준비에 소비되기 때문에 데이터가 중요하다는 것은 확실합니다.

 

 

 

Ng 교수는, 데이터가 AI 시스템의 품질에 중대한 영향을 미치는데도, 기존의 AI 연구에서는 그 99%가 모델에 대하여 논하고 있고, 대략 1%만이 데이터를 논하는 현상을 지적합니다. 이러한 현상은 이전의 Google 조사 논문에서도 지적된 바와 같이 AI 연구에 있어서는 신규 모델의 개발이야말로 꽃인 반면, 데이터의 정비나 데이터의 영향을 논하는 것은 경시되어 왔다고 말할 수 있습니다.

 

모델 중심의 연구개발이 중시되는 현상에 대해, Ng 교수는 데이터의 품질을 향상하는 것이 AI 시스템의 성능 향상에 기여한다는 것을 다수의 사례를 인용해 실증합니다. 아래의 표에 정리한 바와 같이, 모델 중심의 어프로치에서는 성능 향상이 막혔지만, 데이터 중심의 그것으로 전환하면 대폭적인 성능 향상을 확인할 수 있었습니다. 이러한 사례로부터 알 수 있는 것은, AI 시스템 개발에서는 데이터 중심의 어프로치가 우수하다는 것입니다.

 

구분 금속 결함 검출 태양 전지 패널 표면 검사
기준선 76.20% 75.68% 85.05%
모델 중심 +0 +0.0004 +0
데이터 중심 +0.169 +0.0306 +0.004

 

Ng 교수는 데이터 중심 AI 개발의 장점으로 기존보다 학습 데이터가 줄어든다는 것을 지적합니다. 이 장점을 증명하는 사례로는 모터에 가하는 전압으로부터 모터의 회전 속도를 예측하는 AI 시스템을 들 수 있습니다. 데이터 품질과 AI 시스템의 관계를 밝히기 위해 다음과 같은 세 가지 경우에서 예측 정확도를 비교해 보겠습니다.

  • 사례 1: 학습 데이터량은 적지만 데이터 라벨에 모순이 있는 등, 노이즈가 많다.
  • 사례 2: 학습 데이터량은 많지만 데이터에 노이즈가 많다.
  • 사례 3: 학습 데이터량은 적지만 데이터에 노이즈가 적다.

 

 

위의 세 가지 사례를 비교하면 사례 2와 3이 거의 동등한 예측 정확도가 나왔습니다. 이 결과로부터 알 수 있는 것은, 데이터 중심의 AI 개발을 실천하는 데 있어서 중요한 것은, 많은 학습 데이터를 수집하는 것이 아니라 고품질의 데이터를 준비하는 것입니다. 이러한 사태를 근거로, Ng 교수는 데이터 중심의 AI 개발을 실천하는 마음가짐을 「빅 데이터로부터 굿 데이터로」라고 표현합니다.

 

데이터 중심의 AI 개발의 정리로서, Ng 교수는 MLOps의 유효 활용을 설명하고 있습니다. 데이터 중심의 AI 개발에 있어서는 데이터의 개선과 그것을 이용한 AI 모델 훈련의 반복, 나아가 프로덕션 환경에 투입되는 데이터와 AI 모델 성능의 감시가 필요하게 됩니다. 이러한 데이터를 중심으로 한 반복적 프로세스의 실천에는 MLOps를 활용하는 것이 편리합니다.

  • MLOps는 Machine Learning + Operations의 합성어로 데이터 관리부터 머신러닝 시스템 개발과 서비스 운영을 하나의 서비스로 제공하며 신속하고 유연한 개발을 추구하는 운영방식을 의미합니다. 좀 더 쉽게 말하면 아직 R&D 단계에 있는 수많은 아이디어들을 더 빠르게 비즈니스에 적용시켜 비즈니스의 가치를 높일 수 있게 도와주는 기술입니다.

 

데이터 중심의 AI로 전회하는 AI 업계

Ng 교수는 자신이 제창하는 데이터 중심의 AI 개발을 실천하기 위해 스타트업 Landing AI를 창업하였습니다. 이 회사의 블로그에는 데이터 중심의 AI와 관련된 기사가 게재되어 있습니다.

 

Home - Landing AI

What if you could collect, manage, drive consistency, and continuously iterate on your defect data within one integrated platform? Check out LandingLens™, a visual inspection platform serving manufacturers worldwide. Learn More

landing.ai

 

또한 2021년 12월 14일, 데이터 중심의 AI를 돋보이게 하여 AI학계에서 톱 콘퍼런스 중 하나인 NeurPS의 2021년 대회의 마지막 날인 데이터 중심의 AI에 특화된 워크숍 NeurPS Data-Centric AI Workshop가 개최되었습니다. 이 워크숍은 데이터 중심의 AI라는 개발 사상이 주목할 만한 연구 분야인 것을 널리 알렸습니다. 실제로, 이 워크숍 개최에 맞추어 데이터 중심의 AI를 논한 논문을 모집했는데, 다수의 논문이 제출되었습니다. 수록된 논문들은, 아래의 워크숍 공식 사이트로부터 확인할 수 있습니다.

 

 

NeurIPS Data-Centric AI Workshop

Call for Papers The ML community has a strong track record of building and using datasets for AI systems. But this endeavor is often artisanal—painstaking and expensive. The community lacks high productivity and efficient open data engineering tools to m

datacentricai.org

 

 

또한 2022년부터 데이터 중심의 AI에 관한 정보를 집적하는 것을 목적으로 한 웹사이트 Data-centric AI Resource Hub 도 개설했습니다. 이 사이트에는 데이터 중심의 AI에 관한 노하우를 논한 기사와, 해당 분야 유력자가 프레젠테이션 하는 동영상이 게재되어 있습니다.

 

 

Data-centric AI Resource Hub

Find the latest developments and best practices compiled here, so you can begin your Data-centric AI journey!

datacentricai.org

 

 

데이터 정비 노하우

다음엔 위의 Data-centric AI Resource Hub에 게재된 데이터 중심의 AI 개발을 실천하기 위한 3가지 데이터 정비에 관한 노하우를 소개하고자 합니다.

 

「Data-centric AI Resource Hub」가 밝히는 데이터 정비 노하우

 

「Data-centric AI Resource Hub」가 밝히는 데이터 정비 노하우

라벨링 스탠퍼드 대학 컴퓨터 과학 학과의 Michael Bernstein 부교수는 자신이 관련된 AI 프로젝트에서 데이터 라벨링에서 얻은 교훈을 살린 데이터 라벨링 방법을 설명하고 있습니다. Labeling and Crowd

doooob.tistory.com

반응형