오픈 소스 GPT 기반의 대규모 언어 모델「Cerebras-GPT」7종류를 누구나 다운로드 가능

AI 기업인 Cerebras가 오픈 소스로 파라미터 수 1억 1,100만 ~ 130억의 대규모 언어 모델인 Cerebras-GPT 7종을 공개했습니다.

Cerebras-GPT는 OpenAI의 GPT-3을 기반으로 DeepMind가 2022년 3월에 출시한 Chinchilla 방식으로 학습한 모델로, 지금까지 공개된 어느 모델보다 학습 시간이 짧고, 학습 비용이 낮고, 소비 전력이 적은 것이 특징입니다.

Cerebras-GPT: A Family of Open, Compute-efficient, Large Language Models - Cerebras

Cerebras-GPT: A Family of Open, Compute-efficient, Large Language Models - Cerebras

Cerebras open sources seven GPT-3 models from 111 million to 13 billion parameters. Trained using the Chinchilla formula, these models set new benchmarks for accuracy and compute efficiency.

www.cerebras.net

cerebras (Cerebras)
https://huggingface.co/cerebras

cerebras (Cerebras)

Cerebras is the inventor of the wafer scale engine – a single chip that packs the compute performance of a GPU cluster. Cerebras CS-2 systems are designed to train large language models upward of 1 trillion parameters using only data parallelism. This i

huggingface.co

GitHub - Cerebras/modelzoo
https://github.com/Cerebras/modelzoo

GitHub - Cerebras/modelzoo

Contribute to Cerebras/modelzoo development by creating an account on GitHub.

github.com

주요 대규모 언어 모델의 오픈 액세스와 라이선스를 정리한 표가 아래입니다.
OpenAI의 GPT-4는 모델 구조를 포함해 오픈되어 있지 않고,
DeepMind의 Chinchilla도 오픈 액세스가 가능한 것은 모델 구조뿐.
Meta의 OPT는 거의 개방되어 있지만, 모델의 가중치는 연구자 한정이거나 라이선스가 상용이용 불가로 한정되어 있습니다.

한편, Cerebras-GPT는 모든 모델, 가중치, 체크포인트는 Apache 2.0 라이선스(소스 코드 공개 의무가 없고, 2차 라이선스와 변형물의 특허 출원이 가능)로 Hugging Face와 GitHub에 공개되어 있습니다.

Cerebras는 "LLM(Large Language Model : 대규모 언어 모델)이 개방적이고 접근하기 쉬운 기술이 되기 위해서는, 연구 및 상용 애플리케이션 전체에서 개방, 재현 가능, 로열티 없는 최첨단 모델에 대한 액세스가 중요하다고 생각합니다."라고 코멘트.

Cerebras-GPT는 Cerebras가 보유한 AI 슈퍼컴퓨터 안드로메다의 일부인 CS-2 시스템에서 몇 주간에 학습이 진행되고 있다는 것.

Cerebras는
111M(파라미터수 1억 1,100만),
256M(파라미터수 2억 5,600만),
590M(파라미터수 5억 9,000만),
1.3B(파라미터수 13억),
2.7B(파라미터수 27억),
6.7B(파라미터수 67억),
13B(파라미터수 130억)의 7가지 모델이 있어,

각 모델 사이즈별로 최적의 학습 토큰을 사용하여, 모든 모델 사이즈에서 단위 계산량당 데이터 손실을 최소화했다고 합니다.

다음은 Cerebras-GPT(오렌지)와 EleutherAI의 대규모 언어 모델인 Pythia(녹색)의 계산 효율을 나타낸 그래프입니다.
세로가 학습 중에 손실된 데이터 값, 가로가 학습에 있어서의 계산량(대수 표시)으로, 이 그래프의 기울기가 작을수록 학습 효율이 높은 것을 나타냅니다.

또한 Cerebras는 Cerebras-GPT가 다운스트림 태스크에서 높은 학습 효율을 유지할 것이라고 어필했습니다. 아래의 그래프는 다양한 데이터 세트를 사용하여 Cerebras-GPT(오렌지), Pythia(녹색), OPT(갈색)를 학습시켰을 때의 다운스트림 태스크에서의 효율을 나타낸 그래프입니다. Cerebras는, 그래프 결과를 비교해 보면 다운스트림 작업에서도 Cerebras-GPT의 학습 효율이 높은 것으로 나타났다고 주장합니다.

Cerebras는 "Cerebras-GPT가 최첨단 학습 효율을 가진 최초의 공개 대규모 GPT 모델 군으로서, 효율적인 학습을 위한 레시피로서, 또 커뮤니티 연구를 위한 참고 자료로서 도움이 될 것으로 기대합니다. 또한 Cerebras AI Model Studio를 통해 클라우드에서 인프라와 모델을 모두 사용할 수 있도록 지원하고 있습니다. 우리는 더 나은 교육 인프라와 커뮤니티의 공유를 통해 대규모 제네레이티브(생성) AI 산업을 더욱 발전시킬 수 있다고 생각합니다."라고 말했습니다.

'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글

「컨트롤의 상실」을 우려로, GPT-4를 넘는 AI의 개발 정지를 즉각 요구하는 공개 서한 (0)	2023.03.31
'ChatGPT' 등의 AI는 세계 GDP를 7% 증가시키고 3억 명의 고용에 영향을 미친다는 보고서 (0)	2023.03.31
무료로 문장에서 동영상을 생성하는 AI 「Text2Video-Zero」리뷰 (0)	2023.03.31
GPT-4를 활용해 '보안의 새로운 시대'를 목표로 하는 「Microsoft Security Copilot」발표 (0)	2023.03.30
GPT4를 사용하여 GPT3.5를 해킹하고 제일 브레이크 가능? (0)	2023.03.29
ChatGPT의 API를 해킹해보니 80개 이상의 '비밀 플러그인'을 발견했다는 보고 (0)	2023.03.29
OpenAI가 ChatGPT의 서비스 이용규약을 개정, 구체적인 금지 사례도 제시 (0)	2023.03.29
ChatGPT에「최신 정보 수집 기능」이나「Python 실행 환경」을 추가하는「ChatGPT plugins」등장 (0)	2023.03.29

두우우부

오픈 소스 GPT 기반의 대규모 언어 모델「Cerebras-GPT」7종류를 누구나 다운로드 가능

'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글

티스토리툴바

오픈 소스 GPT 기반의 대규모 언어 모델「Cerebras-GPT」7종류를 누구나 다운로드 가능

'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글

관련글

티스토리툴바