클라우드 컴퓨팅 서비스를 제공하는 Salesforce의 AI 연구 부문 Salesforce AI Research가 1조의 텍스트 토큰을 포함한 오픈 소스 멀티 모달 데이터 세트 ' MINT-1T '를 공개했습니다.
GitHub - mlfoundations/MINT-1T: MINT-1T: A one trillion token multimodal interleaved dataset.
https://github.com/mlfoundations/MINT-1T
MINT-1T: Scaling Open-Source Multimodal Data by 10x: A Multimodal Dataset with One Trillion Tokens
https://blog.salesforceairesearch.com/mint-1t/
AI 개발에는 엄청난 양의 텍스트와 이미지가 포함된 데이터세트가 필요하며, 고품질 데이터세트가 오픈소스로 공개되는 것은 AI 분야의 발전에 큰 이점이 됩니다.
MINT-1T 멀티 모달 데이터 세트는 1조의 텍스트 토큰이나 34억 장의 이미지가 포함되어 있다는 것 외에 PDF나 프리프린트 서버인 ArXiv의 논문 등, 지금까지의 데이터 세트에는 활용되지 않았던 데이터도 포함되어 있습니다.
아래 그림에서 알 수 있듯이 OBELICS 및 MMC4와 같은 기존 오픈 소스 데이터 세트의 토큰 수는 최대 1150억이며, MINT-1T는 토큰 수가 크게 증가하고 있습니다.
다음은 MINT-1T에 포함된 문서의 샘플입니다. 이미지와 함께 텍스트가 병기되어 있어 다양한 그래프나 히트 맵등도 포함되어 있습니다. MINT-1T 큐레이션의 주요 원칙은 규모와 다양성이라고 합니다.
아래 그래프는 Salesforce AI Research가 개발한 AI 모델의 XGen-MM을 사용하여 MINT-1T에서 트레이닝한 경우(왼쪽)와 OBELICS에서 트레이닝한 경우(오른쪽)의 퍼포먼스를 비교한 결과입니다. MINT-1T로 훈련하는 것이 전반적인 성능을 향상하고 있음을 알 수 있습니다.
'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글
EA가 AI를 사용해 불과 3개월 만에 1만 1천 명분의 대학 미식축구 선수를 스캔하여 게임에 구현하는 데 성공 (1) | 2024.07.30 |
---|---|
Stability AI가 1개의 동영상에서 다른 8개 앵글의 동영상을 생성하는 AI 모델 「Stable Video 4D」 를 발표 (1) | 2024.07.26 |
코드 생성 · 수학 · 추론 능력이 대폭 향상된 「Mistral Large 2」 출시 (1) | 2024.07.26 |
Mistral AI가 코드 생성 특화형 AI 「Codestral Mamba」 를 오픈 소스 라이센스로 출시 (1) | 2024.07.22 |
OpenAI가 「정확하고 알기 쉬운 문장을 출력하는 AI」의 개발 방법을 공개 (0) | 2024.07.19 |
Microsoft가 엑셀을 이해하는 언어 모델 「SpreadsheetLLM」을 발표, Excel도 AI가 다루는 시대 (0) | 2024.07.19 |
세계 제일의 AI 미인, Miss AI의 결과 발표 (1) | 2024.07.15 |
영화의 전편 모두를 생성 AI로 제작하는 옴니버스 영화 (0) | 2024.07.11 |