OpenAI의 GPT-4와 같은 대규모 언어 모델을 통해 AI 기술이 빠르게 확산되고 있습니다. 그러나 GPT-4를 비롯한 대규모 언어 모델 중 상당수가 폐쇄형 상용 모델이거나 부분적으로만 공개되어 있습니다. RedPajama는 완전 오픈 소스화된 대규모 언어 모델을 개발하는 프로젝트로, 그 첫 단계로서 1조 2천 억 이상의 토큰을 포함하는 LLAMA 트레이닝 데이터 세트를 공개했습니다.
RedPajama, a project to create leading open-source models, starts by reproducing LLaMA training dataset of over 1.2 trillion tokens - TOGETHER
https://www.together.xyz/blog/redpajama
GitHub - togethercomputer/RedPajama-Data: The RedPajama-Data repository contains code for preparing large datasets for training large language models.
https://github.com/togethercomputer/RedPajama-Data
RedPajama는 재현 가능하고 완전 개방적인 언어 모델을 창출하기 위한 노력으로, AI 스타트업인 Together, Ontocord.ai, 취리히 공과 대학의 ETH DS3Lab, 스탠퍼드 대학의 Stanford CRFM, Hazy Research, MILA Québec AI Institute의 공동 연구 프로젝트로 진행되고 있습니다.
이 Redpajama의 기반이 되는 것은 Meta가 개발하는 "LLaMA"입니다. LLaMA는 1조 2천 억 토큰의 데이터 세트로 트레이닝된 대규모 언어 모델로, 70억 파라미터의 모델은 GPT-4나 Chincilla보다 훨씬 경량이면서도 동등한 퍼포먼스를 발휘하는 것이 특징입니다.
Meta가 대규모 언어 모델 「LLaMA」를 발표, GPT-3에 필적하는 성능이면서 단일 GPU에서도 동작 가능
그러나 LLAMA는 부분적으로 오픈 소스로 개발되었지만 비영리 연구 목적으로만 사용할 수 있었으며 가중치 데이터는 공개되지 않았습니다. 따라서 RedPajama는 "상업용 응용 프로그램에도 사용할 수 있는 완전한 오픈 소스"로 개발하는 것을 목표로 합니다.
RedPajama는 「고품질로 폭넓은 범위를 커버하는 사전 학습 데이터의 개발」, 「그 사전 학습 데이터로 대규모 학습한 베이스 모델의 개발」, 「그 베이스 모델을 개량해 사용하기 쉽고 안전성을 높인 튜닝 데이터와 모델의 개발」이라는 3단계를 상정하고 있다고 하며, 이번에 공개된 것은 제1단계인 사전 학습 데이터 「RedPajama-Data-1T」로, AI용 리포지토리 사이트의 Hugging Face에서 공개되어 있다고 합니다.
togethercomputer/RedPajama-Data-1T · Datasets at Hugging Face
https://huggingface.co/datasets/togethercomputer/RedPajama-Data-1T
RedPajama-Data-1T는 데이터 세트를 수집하는 소스에 따라 'CommonCrawl, C4, GitHub, arXiv, Books, Wikipedia, StackExchange'라는 7개의 데이터 슬라이스로 구성되어 있으며, 각각 신중한 전처리 및 필터링이 이루어지고 있다는 것. RedPajama-Data-1T는 LLAMA에서 사용된 데이터 세트를 재현한 것으로, 각 데이터 슬라이스의 토큰 수도 상당히 비슷한 것이 되었다고 합니다.
RedPajama의 다음 목표는 이 RedPajama-Data-1T를 사용하여 강력한 대규모 언어 모델을 교육하는 것입니다. 이미, Oak Ridge Leadership Computing Facility(OLCF)의 지원을 받아 트레이닝을 실시하고 있는 곳에서, 2023년 5월 중에는 최초의 모델이 이용 가능하게 될 것이라고 합니다.
관련 글
'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글
인기 가수가 "AI로 자신의 목소리의 곡을 만들어도 된다"라고 발표 (0) | 2023.04.25 |
---|---|
아마존 리뷰나 트위터에 ChatGPT로 생성된 스팸이 폭증, 'AI 스팸'의 증가를 전문가가 우려 (0) | 2023.04.25 |
Stability AI가 오픈 소스로 상용 이용도 가능한 대규모 언어 모델 「StableLM」을 릴리즈 (0) | 2023.04.21 |
Meta가 영상 처리 모델 「DINOv2」를 발표, 장래에는 프롬프트로 VR 환경도 만들 가능성 (0) | 2023.04.19 |
일론 머스크가 새로운 채팅 AI 'TruthGPT' 개발을 발표, '우주의 본질을 밝히는 것'이 목표 (0) | 2023.04.19 |
가장 친한 친구끼리의 그룹 채팅을 통째로 AI로 재현하면 어떻게 될까? (0) | 2023.04.18 |
페이크 정보부터 전투용 자율주행차까지, 우크라이나 전쟁에 사용된 군용 AI 총정리 (1) | 2023.04.18 |
GPT-4는 라벨링 작업에서 엘리트급 인간만큼 유능, 약 2만 시간 + 6억 이상을 절약 (0) | 2023.04.18 |