
클라우드 컴퓨팅 서비스를 제공하는 Salesforce의 AI 연구 부문 Salesforce AI Research가 1조의 텍스트 토큰을 포함한 오픈 소스 멀티 모달 데이터 세트 ' MINT-1T '를 공개했습니다.
GitHub - mlfoundations/MINT-1T: MINT-1T: A one trillion token multimodal interleaved dataset.
https://github.com/mlfoundations/MINT-1T
GitHub - mlfoundations/MINT-1T: MINT-1T: A one trillion token multimodal interleaved dataset.
MINT-1T: A one trillion token multimodal interleaved dataset. - mlfoundations/MINT-1T
github.com
MINT-1T: Scaling Open-Source Multimodal Data by 10x: A Multimodal Dataset with One Trillion Tokens
https://blog.salesforceairesearch.com/mint-1t/
MINT-1T: Scaling Open-Source Multimodal Data by 10x: A Multimodal Dataset with One Trillion Tokens
We are excited to open-source 🍃MINT-1T, the first trillion token multimodal interleaved dataset and a valuable resource for the community to study and build large multimodal models.
blog.salesforceairesearch.com
AI 개발에는 엄청난 양의 텍스트와 이미지가 포함된 데이터세트가 필요하며, 고품질 데이터세트가 오픈소스로 공개되는 것은 AI 분야의 발전에 큰 이점이 됩니다.
MINT-1T 멀티 모달 데이터 세트는 1조의 텍스트 토큰이나 34억 장의 이미지가 포함되어 있다는 것 외에 PDF나 프리프린트 서버인 ArXiv의 논문 등, 지금까지의 데이터 세트에는 활용되지 않았던 데이터도 포함되어 있습니다.
아래 그림에서 알 수 있듯이 OBELICS 및 MMC4와 같은 기존 오픈 소스 데이터 세트의 토큰 수는 최대 1150억이며, MINT-1T는 토큰 수가 크게 증가하고 있습니다.

다음은 MINT-1T에 포함된 문서의 샘플입니다. 이미지와 함께 텍스트가 병기되어 있어 다양한 그래프나 히트 맵등도 포함되어 있습니다. MINT-1T 큐레이션의 주요 원칙은 규모와 다양성이라고 합니다.

아래 그래프는 Salesforce AI Research가 개발한 AI 모델의 XGen-MM을 사용하여 MINT-1T에서 트레이닝한 경우(왼쪽)와 OBELICS에서 트레이닝한 경우(오른쪽)의 퍼포먼스를 비교한 결과입니다. MINT-1T로 훈련하는 것이 전반적인 성능을 향상하고 있음을 알 수 있습니다.

'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글
| 기존 동영상 생성 AI를 8배 고속화할 수 있는 'FastVideo' 등장 (0) | 2024.08.02 |
|---|---|
| Meta가 이미지뿐만 아니라 동영상의 객체도 실시간으로 정확하게 식별 가능한 AI 모델 "Segment Anything Model 2 (SAM 2)"를 출시 (0) | 2024.07.31 |
| OpenAI의 경영은 대적자로 2024년의 부채는 약 7700억엔 (0) | 2024.07.31 |
| EA가 AI를 사용해 불과 3개월 만에 1만 1천 명분의 대학 미식축구 선수를 스캔하여 게임에 구현하는 데 성공 (1) | 2024.07.30 |
| Stability AI가 1개의 동영상에서 다른 8개 앵글의 동영상을 생성하는 AI 모델 「Stable Video 4D」 를 발표 (1) | 2024.07.26 |
| 코드 생성 · 수학 · 추론 능력이 대폭 향상된 「Mistral Large 2」 출시 (1) | 2024.07.26 |
| 기계 학습으로 기존의 3500배 이상 빠르고 비용이 10만분의 1로 억제되는 기상 예측 모델 「NeuralGCM」을 Google Research가 공개 (0) | 2024.07.26 |
| OpenAI가 인간을 사용하지 않고 AI의 안전성을 높이는 방법 「Rule-Based Rewards(RBR)」를 개발 (0) | 2024.07.26 |