본문 바로가기
AI · 인공지능/AI 뉴스

제대로 체크하면 「781년」 걸리는 AI용 데이터 세트 「LAION-5B」 를 논하는 「Models All The Way Down」

by 두우우부 2024. 4. 2.
반응형

 
 
Stable Diffusion을 비롯한 주요 이미지 생성 AI 교육에는 50억 장 이상의 이미지와 텍스트 세트인 "LAION-5B"가 사용되고 있습니다. 주 5일 일하는 풀타임 노동자가 1초씩 이미지를 육안으로 확인해도 781년 걸린다는 데이터 세트의 방대함 및 그 문제점을 정리한 사이트 "Models All The Way Down"이 공개되었습니다.

Models All The Way Down
https://knowingmachines.org/models-all-the-way




위의 URL에 액세스 하여 스크롤하면 배경에 다양한 이미지와 거기에 연결된 텍스트 데이터가 나타납니다. 이것은 LAION-5B에 수록되어 있는 데이터 세트입니다.




LAION-5B의 공식 페이지에는  「 바로 사용할 제품의 작성에 이용하는 것은 추천하지 않습니다」 라는 주의사항이 기재되어 있습니다만, 이 경고는 거의 무시되고 있어, 아동 포르노 이미지가 다수 섞여 있다는 것이 발각되는 등의 문제가 자주 표면화되고 있습니다.

Largest Dataset P
owering AI Images Removed After Discovery of Child Sexual Abuse Material

Largest Dataset Powering AI Images Removed After Discovery of Child Sexual Abuse Material

The model is a massive part of the AI-ecosystem, used by Stable Diffusion and other major generative AI products. The removal follows discoveries made by Stanford researchers, who found thousands instances of suspected child sexual abuse material in the da

www.404media.co



더 스크롤하면 LAION-5B가 작성된 경위를 설명합니다. 이에 따르면 LAION-5B는 또 다른 비영리 단체인 Common Crawl이 제공하는 더 큰 데이터 세트로 구축되었다고 합니다. Common Crawl은 매월 인터넷을 통해 크롤링을 통해 데이터를 가져오며, 여기에는 30억 개 이상의 웹사이트 데이터가 포함되어 있습니다.




LAION-5B의 이미지 출처로 대표적인 사이트로는 사진 공유 서비스, Pinterest, 전자상거래 플랫폼, Shopify, PowerPoint 데이터 공유 플랫폼, SlidePlayer 등이 있습니다. 이 사이트에는 시각 장애인을 위해 대체 텍스트를 부여하는 ALT 속성으로 캡션 된 이미지가 많이 게재되므로 특히 유용합니다.




ALT 속성에 의한 설명의 예가 아래입니다. 사진에는 꽃을 사고파는 두 명의 여성이 찍혀 있고, 거기에  「 꽃을 판매하는 원예 센터의 점원」 이라는 텍스트가 붙어 있습니다.




그러나 시각장애인을 위한 본래의 사용법으로 쓰이는 것은 드물고, ALT 속성의 대부분은 인간을 위해서가 아닌 알고리즘을 끌어들이기 위해서 사용되고 있다는 것이 현실이라는 것. 예를 들면, 아래와 같이 「Heart Shaped Sunnies - Chynna Dolls Swimwear」 라는 텍스트가 붙어 있다면, 그것을 읽어 들이는 소프트웨어로 돌려도 무슨 사진인지 알 수 없습니다.




"LAION-5B의 진실은 인간이 세계를 어떻게 보고 있는지보다, 검색 엔진이 세계를 어떻게 보고 있는지가 더 많이 포함되어 있다는 것"이라고 Models All The Way Down은 호소하고 있습니다.




ALT 속성 텍스트가 이미지 내용과 일치하는 이미지와 텍스트 캡션 세트를 선택하기 위해 LAION-5B는 Open AI가 개발한 모델인  「 CLIP(Contrastive Language–Image Pre-training)」 을 사용하여, 텍스트 문자열과 이미지의 유사성을 보여주는 점수를 습득했습니다.




하지만 선정된 이미지의 점수에는 편차가 있었고, 50억 장 중에서 점수가 0.5 이상은 단 2만 2645장으로 전체의 16%는 점수가 0.1 이하였습니다. 이러한 정밀도 면에서의 난점이 있기 때문에, LAION의 연구자가 유사성 스코어의 허용치를 0.01 끌어올리는 것만으로 데이터 세트에서 9억 조 이상의 이미지와 텍스트 세트가 사라져 버린다는 것.




이로 인해 두 가지 중요한 문제가 떠오릅니다.

첫 번째는 알고리즘에 의한 큐레이션은 스코어에 의존하고 있어, 이미지나 텍스트의 내용이 도외시되어, 데이터 세트에 채용되는 이미지나 텍스트의 기준이 무엇인지 아무도 파악하고 있지 않다는 점입니다.

두 번째는 데이터 세트 작성 과정에서  「 모델을 사용해 모델을 만든다」 라는 순환성이 존재하고 있어, 어느 모델이나 트레이닝 세트에 존재한 맹점이나 편향이 늘 새로운 모델이나 데이터 세트에 이어져 버린다는 점입니다.




또한 언어적으로도 편향이 있습니다. 그 전제로서 LAION의 데이터 세트는 영어로 묶인 'LAION-2B EN', 다른 언어인 'LAION-2B MULTI', 언어를 지정할 수 없는 'LAION-1B NOLANG'의 3개의 서브세트로 나뉩니다.




영어 이외에는 러시아어가 일반적이며, 데이터세트에는 지구상의 2억 5500만 명의 러시아어 화자 1명당 Russian으로 라벨이 붙은 이미지 캡션이 1장 존재합니다. 마찬가지로 프랑스어 화자 2명당 1장의 이미지가 있으며 스와힐리어 화자 35명당 1장의 이미지가 있습니다. 한편 영어 화자는 1인당 1.6장, 네덜란드어 화자 1인당 3장, 아이슬란드 화자 1인당 7장의 이미지가 존재합니다.




게다가 LAION-5B에는 30만 명의 화자가 있는 룩셈부르크어로 분류된 텍스트 캡션이 약 3500만 개가 있지만, 원래의 트레이닝 세트에는 약 3만 3000페이지밖에 없습니다. 그도 그럴 것이, 룩셈부르크어로 된 데이터 세트를 보면 대부분이 영어나 다른 언어였다고 합니다. "이것은 LAION의 자동 처리가 어떻게 실패하는지를 보여주는 간단한 예"라고 Models All The Way Down은 지적합니다.




언어의 하위 집합 외에도 LAION-5B는 품질이 높은 이미지를 결합한 "LAION-Aesthetics"라는 데이터 집합을 가지고 있지만 그 품질은 매우 적은 수의 사람들이 평가했습니다. 즉, 대부분의 데이터세트 평가는 소수의 사용자가 제출한 것이며, 그 미적 선호도가 전체 데이터세트를 지배하고 있습니다. 이를 통해 "시각적으로 매력적인 개념과 그렇지 않은 것의 개념은 매우 적은 수의 개인 취향과 데이터 세트 작성자가 데이터 세트를 큐레이션 하기 위해 선택하는 프로세스에 따라 달라진다."라는 문제점이 부각됩니다.



이와 같이 LAION-5B는 여러 가지 문제를 안고 있어, 「 곧바로 사용할 제품에는 사용하지 말 것」 이라고 경고하고 있지만, 무시한 채로 AI 개발에 계속 사용되고 있습니다. 게다가, 이 문제를 특정할 수 있었던 것은 LAION-5B가 공개되어 있었기 때문입니다만, 아동 포르노의 문제가 판명된 이후에는 더 이상 다운로드할 수 없게 되었습니다.

LAION-5B : https://laion.ai/blog/laion-5b/

LAION-5B: A NEW ERA OF OPEN LARGE-SCALE MULTI-MODAL DATASETS | LAION

<p>We present a dataset of 5,85 billion CLIP-filtered image-text pairs, 14x bigger than LAION-400M, previously the biggest openly accessible image-text datas...

laion.ai



또한, 개발자는 "이 문제를 해결하기 위해 노력하고 있습니다."라고 약속했지만 실현되지 않았고, 이번에는 Common Crawl이 수집 한 128 억 샘플로 구성된 CommonPool이라는 데이터 세트가 새롭게 출시되었습니다.



결국, 세 줄 요약하면

LAION-5B 데이터세트는 너무나 방대하여,
각종 편향이나 문제가 계속 발생하고 있음에도,
인간이 체크할 수 없어서 그냥 AI개발에 계속 사용되고 있다?

그래서, 이대로 가다가는...

반응형