1조의 텍스트 토큰, 34억개의 이미지, PDF, ArXiv의 논문 등을 포함한 오픈 소스 데이터 세트 MINT-1T

클라우드 컴퓨팅 서비스를 제공하는 Salesforce의 AI 연구 부문 Salesforce AI Research가 1조의 텍스트 토큰을 포함한 오픈 소스 멀티 모달 데이터 세트 ' MINT-1T '를 공개했습니다.

GitHub - mlfoundations/MINT-1T: MINT-1T: A one trillion token multimodal interleaved dataset.
https://github.com/mlfoundations/MINT-1T

GitHub - mlfoundations/MINT-1T: MINT-1T: A one trillion token multimodal interleaved dataset.

MINT-1T: A one trillion token multimodal interleaved dataset. - mlfoundations/MINT-1T

github.com

MINT-1T: Scaling Open-Source Multimodal Data by 10x: A Multimodal Dataset with One Trillion Tokens
https://blog.salesforceairesearch.com/mint-1t/

MINT-1T: Scaling Open-Source Multimodal Data by 10x: A Multimodal Dataset with One Trillion Tokens

We are excited to open-source 🍃MINT-1T, the first trillion token multimodal interleaved dataset and a valuable resource for the community to study and build large multimodal models.

blog.salesforceairesearch.com

AI 개발에는 엄청난 양의 텍스트와 이미지가 포함된 데이터세트가 필요하며, 고품질 데이터세트가 오픈소스로 공개되는 것은 AI 분야의 발전에 큰 이점이 됩니다.

MINT-1T 멀티 모달 데이터 세트는 1조의 텍스트 토큰이나 34억 장의 이미지가 포함되어 있다는 것 외에 PDF나 프리프린트 서버인 ArXiv의 논문 등, 지금까지의 데이터 세트에는 활용되지 않았던 데이터도 포함되어 있습니다.

아래 그림에서 알 수 있듯이 OBELICS 및 MMC4와 같은 기존 오픈 소스 데이터 세트의 토큰 수는 최대 1150억이며, MINT-1T는 토큰 수가 크게 증가하고 있습니다.

다음은 MINT-1T에 포함된 문서의 샘플입니다. 이미지와 함께 텍스트가 병기되어 있어 다양한 그래프나 히트 맵등도 포함되어 있습니다. MINT-1T 큐레이션의 주요 원칙은 규모와 다양성이라고 합니다.

아래 그래프는 Salesforce AI Research가 개발한 AI 모델의 XGen-MM을 사용하여 MINT-1T에서 트레이닝한 경우(왼쪽)와 OBELICS에서 트레이닝한 경우(오른쪽)의 퍼포먼스를 비교한 결과입니다. MINT-1T로 훈련하는 것이 전반적인 성능을 향상하고 있음을 알 수 있습니다.

저작자표시 비영리 변경금지 (새창열림)

'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글

기존 동영상 생성 AI를 8배 고속화할 수 있는 'FastVideo' 등장 (0)	2024.08.02
Meta가 이미지뿐만 아니라 동영상의 객체도 실시간으로 정확하게 식별 가능한 AI 모델 "Segment Anything Model 2 (SAM 2)"를 출시 (0)	2024.07.31
OpenAI의 경영은 대적자로 2024년의 부채는 약 7700억엔 (0)	2024.07.31
EA가 AI를 사용해 불과 3개월 만에 1만 1천 명분의 대학 미식축구 선수를 스캔하여 게임에 구현하는 데 성공 (1)	2024.07.30
Stability AI가 1개의 동영상에서 다른 8개 앵글의 동영상을 생성하는 AI 모델 「Stable Video 4D」 를 발표 (1)	2024.07.26
코드 생성 · 수학 · 추론 능력이 대폭 향상된 「Mistral Large 2」 출시 (1)	2024.07.26
기계 학습으로 기존의 3500배 이상 빠르고 비용이 10만분의 1로 억제되는 기상 예측 모델 「NeuralGCM」을 Google Research가 공개 (0)	2024.07.26
OpenAI가 인간을 사용하지 않고 AI의 안전성을 높이는 방법 「Rule-Based Rewards(RBR)」를 개발 (0)	2024.07.26

두우우부

1조의 텍스트 토큰, 34억개의 이미지, PDF, ArXiv의 논문 등을 포함한 오픈 소스 데이터 세트 MINT-1T

'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글

티스토리툴바

1조의 텍스트 토큰, 34억개의 이미지, PDF, ArXiv의 논문 등을 포함한 오픈 소스 데이터 세트 MINT-1T

'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글

관련글

티스토리툴바