본문 바로가기
AI · 인공지능/AI 뉴스

'Stable Diffusion'이 사용하는 무료 데이터 세트 'LAION'의 구축을 이끈 것은 1명의 교사였다

by 두우우부 2023. 4. 26.
반응형

 

이미지 생성 AI 「Stable Diffusion」이 사용하고 있는 것으로도 알려져 있는, 제네레이티브 AI의 학습용 데이터 세트를 구축하는 비영리 단체가 「LAION」입니다. 이 LAION의 리더를 맡고 있는 것은 독일의 함부르크시에서 고교 교사로 일하는 크리스토프 슈만입니다.

A High School Teacher's Free Image Database Powers AI Unicorns - Bloomberg
https://www.bloomberg.com/news/features/2023-04-24/a-high-school-teacher-s-free-image-database-powers-ai-unicorns



크리스토프 슈만은 비엔나 대학에서 컴퓨터 과학과 물리학을 공부하면서 워크숍에서 6년간 연기를 배우고, 졸업 후 함부르크시에서 IT 관리자 및 교사로 일하면서 아이들을 위한 영화 촬영 워크숍에도 참가했습니다.



그런 슈만 씨가 LAION 설립에 관여한 것은, AI 애호가를 위한 Discord 서버에 참가한 것이 계기였습니다. 당시 AI 개발 단체 OpenAI가 DALL-E라는 이미지 생성용 확산 모델을 개발하고 있었지만, 슈만 씨는 거대 기술 기업이 데이터를 점유하는 것이 우려됐다고 합니다.

그래서 슈만 씨는 Discord 서버의 동료들과 함께 확산 모델의 학습에 도움이 되는 오픈 소스 데이터 세트를 만드는 프로젝트 "Large-scale AI Open Network"를 시작했습니다. 

이미지의 데이터 세트는 단순히 이미지를 묶은 것이 아니라 이미지에 무엇이 찍혀 있는지 설명하는 주석이 필요합니다. 슈만은 캘리포니아의 비영리 단체인 Common Crawl이 수집한 HTML 코드를 사용하여 인터넷상의 이미지를 찾아내 설명적 텍스트를 연관시키는 작업을 했습니다. 그 결과, 슈만 씨는 불과 몇 주만에 300만 건의 이미지와 텍스트 세트를 모으는 데 성공했습니다. 또한 3개월 후에는 4억 개의 이미지와 텍스트 쌍을 포함하는 데이터 세트를 출시할 수 있었습니다현재는 50억 건을 넘는 이미지와 텍스트를 포함한LAION-5B」도 릴리즈 되고 있어, 무료로 사용할 수 있는 데이터 세트로서는 최대 규모의 것이 되고 있습니다. 

또한 LAION은 이미지 인식 모델의 CLIP 및 그 벤치마크 등의 도구도 공개하고 있습니다.



LAION의 데이터 세트에 포함된 이미지와 링크의 대부분은 Pinterest, Shopify, Amazon Web Services의 비주얼 데이터, YouTube 썸네일, 예술 공유 소셜 사이트의 DeviantArt에 올라온 포트폴리오, 뉴스 사이트 사진, 미국 국방부 등 정부의 웹사이트에 있는 이미지 등 인터넷상에 있는 것입니다. 따라서 LAION이 수집한 일부 이미지와 링크에는 폭력적, 차별적, 성적 콘텐츠가 포함될 수 있습니다.

슈만은 LAION의 데이터 세트를 구축하기 전에 변호사와 상담하여 불법 콘텐츠를 필터링하는 자동 툴을 실행했다고 합니다. 또, 문제가 있는 콘텐츠가 통지되었을 경우, 곧바로 그 콘텐츠를 삭제하고 있다는 것. 하지만 슈만은 "데이터세트를 완벽하게 필터링하는 것보다는 데이터세트로 학습할 수 있다는 것에 더 관심이 컸다"라고 밝혔습니다. 데이터에 포함된 폭력 콘텐츠가 폭력 탐지 소프트웨어 개발을 가속화하기 때문에 필터링하지 않기로 결정했다고 합니다.

2021년 7월에 LAION은 비영리 단체가 되었고, 슈만은 지도자로 취임했습니다. LAION 앞으로의 연락은 슈만 씨가 맡고 있는 모양으로, 함부르크 시 교외에 있는 슈만 씨 자택의 우편 접수함에는, 「LAION」이라고 연필로 쓴 종이가 붙어 있다는 것.



물론 데이터 세트를 만드는 것은 완전 무보수이며 모든 사람이 무급으로 일하고 있습니다. 따라서 LAION은 2021년에 AI를 위한 온라인 리포지토리를 제공하는 Hagging Face로부터 한 번만 기부를 받았습니다.

게다가, Discord의 채팅으로 비용 부담을 제기한 것이 Stablity AI의 CEO를 맡는 에머드 모스타크였습니다. 모스타크는 오픈 소스의 제네레이티브 AI에 의한 사업을 시작하고 싶었고, 그 AI 학습에 LAION을 사용하고 싶었습니다. 슈만 씨는 "모스타크에 대해 처음에는 매우 회의적이었습니다."라고 말했고, LAION 팀은 모스타크의 아이디어를 진지하게 받아들이지 않았다고 합니다만, 모스타크가 이끄는 Stability AI는 2022년 8월에 LAION의 데이터 세트로 학습한 Stable Diffusion을 릴리즈했고, 현재 Stability AI는 40억 달러(약 5조 3,600억 원)의 가치를 지녔다고 평가받고 있습니다. 

슈만은 LAION으로부터 보상을 일절 받지 않았고, 앞으로도 받을 생각이 없다고 말합니다.
"저는 여전히 고등학교 교사입니다. 독립된 상태를 유지하고 싶기 때문에 모든 종류의 기업에서 온 구인을 거부했습니다."라고 말했습니다.
 

반응형