본문 바로가기
AI · 인공지능/AI 뉴스

무료로 상용 이용도 가능한 완전 오픈소스 대규모 언어 모델 「RedPajama」가 트레이닝 데이터 세트를 공개

by 두우우부 2023. 4. 19.
반응형

 

OpenAI의 GPT-4와 같은 대규모 언어 모델을 통해 AI 기술이 빠르게 확산되고 있습니다. 그러나 GPT-4를 비롯한 대규모 언어 모델 중 상당수가 폐쇄형 상용 모델이거나 부분적으로만 공개되어 있습니다. RedPajama는 완전 오픈 소스화된 대규모 언어 모델을 개발하는 프로젝트로, 그 첫 단계로서 1조 2천 억 이상의 토큰을 포함하는 LLAMA 트레이닝 데이터 세트를 공개했습니다.

RedPajama, a project to create leading open-source models, starts by reproducing LLaMA training dataset of over 1.2 trillion tokens - TOGETHER
https://www.together.xyz/blog/redpajama

RedPajama, a project to create leading open-source models, starts by reproducing LLaMA training dataset of over 1.2 trillion tok

RedPajama is a project to create a set of leading, fully open-source models. Today, we are excited to announce the completion of the first step of this project: the reproduction of the LLaMA training dataset of over 1.2 trillion tokens.

www.together.xyz


GitHub - togethercomputer/RedPajama-Data: The RedPajama-Data repository contains code for preparing large datasets for training large language models.
https://github.com/togethercomputer/RedPajama-Data

GitHub - togethercomputer/RedPajama-Data: The RedPajama-Data repository contains code for preparing large datasets for training

The RedPajama-Data repository contains code for preparing large datasets for training large language models. - GitHub - togethercomputer/RedPajama-Data: The RedPajama-Data repository contains code ...

github.com


RedPajama는 재현 가능하고 완전 개방적인 언어 모델을 창출하기 위한 노력으로, AI 스타트업인 Together, Ontocord.ai, 취리히 공과 대학의 ETH DS3Lab, 스탠퍼드 대학의 Stanford CRFM, Hazy Research, MILA Québec AI Institute의 공동 연구 프로젝트로 진행되고 있습니다.

이 Redpajama의 기반이 되는 것은 Meta가 개발하는 "LLaMA"입니다. LLaMA는 1조 2천 억 토큰의 데이터 세트로 트레이닝된 대규모 언어 모델로, 70억 파라미터의 모델은 GPT-4나 Chincilla보다 훨씬 경량이면서도 동등한 퍼포먼스를 발휘하는 것이 특징입니다.

Meta가 대규모 언어 모델 「LLaMA」를 발표, GPT-3에 필적하는 성능이면서 단일 GPU에서도 동작 가능

Meta가 대규모 언어 모델「LLaMA」를 발표, GPT-3에 필적하는 성능

Meta의 AI 연구 조직인 Meta AI Research가 대규모 언어 모델 LLAMA(Large Language Model Meta AI) 를 2023년 2월 24일에 발표했습니다. Meta AI Research에 따르면, LLaMA는 OpenAI의 GPT-3 보다 파라미터 수가 훨씬 적고, 단

doooob.tistory.com



그러나 LLAMA는 부분적으로 오픈 소스로 개발되었지만 비영리 연구 목적으로만 사용할 수 있었으며 가중치 데이터는 공개되지 않았습니다. 따라서 RedPajama는 "상업용 응용 프로그램에도 사용할 수 있는 완전한 오픈 소스"로 개발하는 것을 목표로 합니다.



RedPajama는 「고품질로 폭넓은 범위를 커버하는 사전 학습 데이터의 개발」, 「그 사전 학습 데이터로 대규모 학습한 베이스 모델의 개발」, 「그 베이스 모델을 개량해 사용하기 쉽고 안전성을 높인 튜닝 데이터와 모델의 개발」이라는 3단계를 상정하고 있다고 하며, 이번에 공개된 것은 제1단계인 사전 학습 데이터 「RedPajama-Data-1T」로, AI용 리포지토리 사이트의 Hugging Face에서 공개되어 있다고 합니다.

togethercomputer/RedPajama-Data-1T · Datasets at Hugging Face
https://huggingface.co/datasets/togethercomputer/RedPajama-Data-1T

togethercomputer/RedPajama-Data-1T · Datasets at Hugging Face

"\section{Introduction} Given $\rho>0$, we consider the problem \begin{equation}\label{eq:main_prob_U} \begin{cases} -\Delta U + \lambda U = |U|^{p-1}U & \text{in }\Omega,\smallskip\\ \int_\Omega U^2\,dx = \rho, \quad U=0 & \text{on }\partial\Omega, \end{c

huggingface.co



RedPajama-Data-1T는 데이터 세트를 수집하는 소스에 따라 'CommonCrawl, C4, GitHub, arXiv, Books, Wikipedia, StackExchange'라는 7개의 데이터 슬라이스로 구성되어 있으며, 각각 신중한 전처리 및 필터링이 이루어지고 있다는 것. RedPajama-Data-1T는 LLAMA에서 사용된 데이터 세트를 재현한 것으로, 각 데이터 슬라이스의 토큰 수도 상당히 비슷한 것이 되었다고 합니다.

RedPajama의 다음 목표는 이 RedPajama-Data-1T를 사용하여 강력한 대규모 언어 모델을 교육하는 것입니다. 이미, Oak Ridge Leadership Computing Facility(OLCF)의 지원을 받아 트레이닝을 실시하고 있는 곳에서, 2023년 5월 중에는 최초의 모델이 이용 가능하게 될 것이라고 합니다.

관련 글

「RedPajama」가 최초의 모델 「RedPajama-INCITE」릴리즈, 무료로 상용 이용도 가능

오픈 소스 LLM 개발 프로젝트 「RedPajama」가 최초의 모델 「RedPajama-INCITE」릴리즈, 무료로 상용 이

Meta가 공개한 대규모 언어 모델 「LLaMA」의 논문에 근거해 대규모 언어 모델을 구축하는 오픈 소스의 프로젝트 「RedPajama」가 LLaMA를 가능한 한 충실히 재현하는 것을 목적으로 한 베이스 모델 「

doooob.tistory.com

반응형