본문 바로가기
AI · 인공지능/AI 뉴스

오픈 소스 GPT 기반의 대규모 언어 모델「Cerebras-GPT」7종류를 누구나 다운로드 가능

by 두우우부 2023. 3. 30.
반응형

 

AI 기업인 Cerebras가 오픈 소스로 파라미터 수 1억 1,100만 ~ 130억의 대규모 언어 모델인 Cerebras-GPT 7종을 공개했습니다. 

Cerebras-GPT는 OpenAI의 GPT-3을 기반으로 DeepMind가 2022년 3월에 출시한 Chinchilla 방식으로 학습한 모델로, 지금까지 공개된 어느 모델보다 학습 시간이 짧고, 학습 비용이 낮고, 소비 전력이 적은 것이 특징입니다.

Cerebras-GPT: A Family of Open, Compute-efficient, Large Language Models - Cerebras

Cerebras-GPT: A Family of Open, Compute-efficient, Large Language Models - Cerebras

Cerebras open sources seven GPT-3 models from 111 million to 13 billion parameters. Trained using the Chinchilla formula, these models set new benchmarks for accuracy and compute efficiency.

www.cerebras.net


cerebras (Cerebras)
https://huggingface.co/cerebras

cerebras (Cerebras)

Cerebras is the inventor of the wafer scale engine – a single chip that packs the compute performance of a GPU cluster. Cerebras CS-2 systems are designed to train large language models upward of 1 trillion parameters using only data parallelism. This i

huggingface.co

GitHub - Cerebras/modelzoo
https://github.com/Cerebras/modelzoo

GitHub - Cerebras/modelzoo

Contribute to Cerebras/modelzoo development by creating an account on GitHub.

github.com



주요 대규모 언어 모델의 오픈 액세스와 라이선스를 정리한 표가 아래입니다. 
OpenAI의 GPT-4는 모델 구조를 포함해 오픈되어 있지 않고,
DeepMind의 Chinchilla도 오픈 액세스가 가능한 것은 모델 구조뿐.
Meta의 OPT는 거의 개방되어 있지만, 모델의 가중치는 연구자 한정이거나 라이선스가 상용이용 불가로 한정되어 있습니다. 

한편, Cerebras-GPT는 모든 모델, 가중치, 체크포인트는 Apache 2.0 라이선스(소스 코드 공개 의무가 없고, 2차 라이선스와 변형물의 특허 출원이 가능)로 Hugging Face와 GitHub에 공개되어 있습니다.



Cerebras는 "LLM(Large Language Model : 대규모 언어 모델)이 개방적이고 접근하기 쉬운 기술이 되기 위해서는, 연구 및 상용 애플리케이션 전체에서 개방, 재현 가능, 로열티 없는 최첨단 모델에 대한 액세스가 중요하다고 생각합니다."라고 코멘트.

Cerebras-GPT는 Cerebras가 보유한 AI 슈퍼컴퓨터 안드로메다의 일부인 CS-2 시스템에서 몇 주간에 학습이 진행되고 있다는 것. 

Cerebras는
111M(파라미터수 1억 1,100만),
256M(파라미터수 2억 5,600만),
590M(파라미터수 5억 9,000만),
1.3B(파라미터수 13억),
2.7B(파라미터수 27억),
6.7B(파라미터수 67억),
13B(파라미터수 130억)의 7가지 모델이 있어,

각 모델 사이즈별로 최적의 학습 토큰을 사용하여, 모든 모델 사이즈에서 단위 계산량당 데이터 손실을 최소화했다고 합니다. 

다음은 Cerebras-GPT(오렌지)와 EleutherAI의 대규모 언어 모델인 Pythia(녹색)의 계산 효율을 나타낸 그래프입니다. 
세로가 학습 중에 손실된 데이터 값, 가로가 학습에 있어서의 계산량(대수 표시)으로, 이 그래프의 기울기가 작을수록 학습 효율이 높은 것을 나타냅니다.



또한 Cerebras는 Cerebras-GPT가 다운스트림 태스크에서 높은 학습 효율을 유지할 것이라고 어필했습니다. 아래의 그래프는 다양한 데이터 세트를 사용하여 Cerebras-GPT(오렌지), Pythia(녹색), OPT(갈색)를 학습시켰을 때의 다운스트림 태스크에서의 효율을 나타낸 그래프입니다. Cerebras는, 그래프 결과를 비교해 보면 다운스트림 작업에서도 Cerebras-GPT의 학습 효율이 높은 것으로 나타났다고 주장합니다.



Cerebras는 "Cerebras-GPT가 최첨단 학습 효율을 가진 최초의 공개 대규모 GPT 모델 군으로서, 효율적인 학습을 위한 레시피로서, 또 커뮤니티 연구를 위한 참고 자료로서 도움이 될 것으로 기대합니다. 또한 Cerebras AI Model Studio를 통해 클라우드에서 인프라와 모델을 모두 사용할 수 있도록 지원하고 있습니다. 우리는 더 나은 교육 인프라와 커뮤니티의 공유를 통해 대규모 제네레이티브(생성) AI 산업을 더욱 발전시킬 수 있다고 생각합니다."라고 말했습니다.

반응형