Meta가 공개한 대규모 언어 모델 「LLaMA」의 논문에 근거해 대규모 언어 모델을 구축하는 오픈 소스의 프로젝트 「RedPajama」가 LLaMA를 가능한 한 충실히 재현하는 것을 목적으로 한 베이스 모델 「RedPajama-INCITE」를 공개했습니다.
Releasing 3B and 7B RedPajama-INCITE family of models including base, instruction-tuned & chat models — TOGETHER
https://www.together.xyz/blog/redpajama-models-v1
RedPajama는 AI 스타트업 Together와 취리히 공과 대학, 스탠퍼드 대학 등이 공동으로 연구를 진행하고 있는 프로젝트로, 비영리 연구 목적으로만 이용 가능한 LLaMA를 기반으로 상용 이용도 가능하고 완전히 개방된 대규모 언어 모델을 만드는 것을 목표로 개발이 이루어지고 있습니다.
RedPajama는
「고품질의 넓은 범위를 커버할 필요가 있는 사전 학습용 데이터」,
「그 데이터로 대규모 학습시킨 베이스 모델」,
「그 베이스 모델을 개선하여 사용하기 쉽고 안전하게 만든 튜닝된 데이터 및 모델」
이렇게 3종류를 단계적으로 개발하는 목표를 세우고 있으며, 2023년 4월에는 제1단계로서 1조 2천억 이상의 토큰을 포함한 5TB의 트레이닝 데이터 세트가 공개되었습니다. 이 데이터 세트는 수백 번 다운로드되었으며 MPT, OpenLLaMA , OpenAlpaca 등의 모델을 훈련하는 데 사용되었습니다.
무료로 상용 이용도 가능한 완전 오픈소스 대규모 언어 모델 「RedPajama」가 트레이닝 데이터 세트를 공개
그리고 이번에, 제2단계에 해당하는 「베이스 모델」이 공개되었습니다.
RedPajama는 기본 모델 외에도 명령어 조정 모델과 채팅 모델을 출시하고, 추가 개선을 도모하는 방침을 제시했습니다.
RedPajama-INCITE에는 30억 개의 매개변수 모델과 70억 개의 매개변수 모델이 있습니다. 30억 모델은 유사품과 비해도 가장 강력하며, 크기가 작기 때문에 매우 빠르고 액세스 하기 쉽다고 합니다. 2018년에 발매된 구형 GPU인 「RTX 2070」에서도 동작한다고 RedPajama는 말하고 있습니다. 70억 모델은 「Pythia 7B」모델을 웃도는 성능을 나타내고 있다고 합니다.
공개된 파생 모델(Variation)은 다음과 같습니다.
◆ RedPajama-INCITE-Base-3B-v1
벤치마크 결과 유사 규모의 다른 오픈 소스 모델을 능가하는 베이스 모델.
◆ RedPajama-INCITE-Chat-3B-v1
베이스 모델 RedPajama-INCITE-Base-3B-v1을 오픈 소스 대규모 언어 모델인 「Dolly 2.0」와, 「Open Assistant」의 데이터를 사용하여 미세 조정한 채팅 모델.
◆ RedPajama-INCITE-Instruct-3B-v1
전 세계의 컴퓨터를 링크하여 개발된 「GPT-JT」와 거의 같은 계산식을 사용하여 RedPajama-INCITE-Base-3B-v1의 베이스 모델에 파인 튜닝을 실시한 모델.
◆ RedPajama-INCITE-Base-7B-v0.1
RedPajama 7B의 초기 미리 보기 버전으로, 1조의 토큰 중 8천억 토큰의 트레이닝을 완료.
◆ RedPajama-INCITE-Chat-7B-v0.1
RedPajama-INCITE-Base-7B-preview로 학습한 채팅 모델의 얼리 프리뷰 버전.
◆ RedPajama-INCITE-Instruct-7B-v0.1
RedPajama-INCITE-Base-7B-preview로 학습한 Few-Shot·프롬프트용으로 설계된 모델의 초기 프리뷰.
RedPajama는 "이번에 얻은 최대 수확은, 오픈 소스 커뮤니티가 고성능 대규모 언어 모델을 신속하게 구축할 수 있음을 입증한 것입니다. 불과 몇 주 안에 받은 오픈 소스 커뮤니티의 RedPajama에 대한 지원, 제안 및 피드백은 믿을 수 없을 정도였습니다. 우리는 이러한 개방형 협업이, 더 거대한 규모로 미래의 최고의 AI 시스템을 지원할 것이라고 믿습니다."라고 코멘트하였습니다.
'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글
드디어 구글 검색, Workspace, 지도에 제네레이티브 AI 탑재, 무엇이 바뀌나? (2) | 2023.05.12 |
---|---|
구글이 영상 자동더빙 & 립싱크 AI를 개발중, 너무 고성능이라 악용에 주의 (3) | 2023.05.12 |
구글이 텍스트기반 음악 작곡 AI 'MusicLM' 공개, 데이터 세트의 윤리적 과제도 클리어 (2) | 2023.05.11 |
AI로 생성한 수만개의 곡을 음악 스트리밍 서비스 Spotify가 삭제 (9) | 2023.05.11 |
ChatGPT로 가짜 열차 사고 뉴스를 만든 용의자를 중국 경찰이 체포 (2) | 2023.05.11 |
Google이 대규모 언어 모델 'PaLM 2'를 발표, 이미 25개의 Google 서비스에 도입 (1) | 2023.05.11 |
OpenAI가 "언어 모델에게 언어 모델을 설명"시키는 데모 툴을 공개 (0) | 2023.05.10 |
Meta가 6가지 데이터를 통합하는 오픈 소스 AI 모델 「ImageBind」를 공개 (0) | 2023.05.10 |