AI 기업인 Cerebras가 오픈 소스로 파라미터 수 1억 1,100만 ~ 130억의 대규모 언어 모델인 Cerebras-GPT 7종을 공개했습니다.
Cerebras-GPT는 OpenAI의 GPT-3을 기반으로 DeepMind가 2022년 3월에 출시한 Chinchilla 방식으로 학습한 모델로, 지금까지 공개된 어느 모델보다 학습 시간이 짧고, 학습 비용이 낮고, 소비 전력이 적은 것이 특징입니다.
Cerebras-GPT: A Family of Open, Compute-efficient, Large Language Models - Cerebras
cerebras (Cerebras)
https://huggingface.co/cerebras
GitHub - Cerebras/modelzoo
https://github.com/Cerebras/modelzoo
주요 대규모 언어 모델의 오픈 액세스와 라이선스를 정리한 표가 아래입니다.
OpenAI의 GPT-4는 모델 구조를 포함해 오픈되어 있지 않고,
DeepMind의 Chinchilla도 오픈 액세스가 가능한 것은 모델 구조뿐.
Meta의 OPT는 거의 개방되어 있지만, 모델의 가중치는 연구자 한정이거나 라이선스가 상용이용 불가로 한정되어 있습니다.
한편, Cerebras-GPT는 모든 모델, 가중치, 체크포인트는 Apache 2.0 라이선스(소스 코드 공개 의무가 없고, 2차 라이선스와 변형물의 특허 출원이 가능)로 Hugging Face와 GitHub에 공개되어 있습니다.
Cerebras는 "LLM(Large Language Model : 대규모 언어 모델)이 개방적이고 접근하기 쉬운 기술이 되기 위해서는, 연구 및 상용 애플리케이션 전체에서 개방, 재현 가능, 로열티 없는 최첨단 모델에 대한 액세스가 중요하다고 생각합니다."라고 코멘트.
Cerebras-GPT는 Cerebras가 보유한 AI 슈퍼컴퓨터 안드로메다의 일부인 CS-2 시스템에서 몇 주간에 학습이 진행되고 있다는 것.
Cerebras는
111M(파라미터수 1억 1,100만),
256M(파라미터수 2억 5,600만),
590M(파라미터수 5억 9,000만),
1.3B(파라미터수 13억),
2.7B(파라미터수 27억),
6.7B(파라미터수 67억),
13B(파라미터수 130억)의 7가지 모델이 있어,
각 모델 사이즈별로 최적의 학습 토큰을 사용하여, 모든 모델 사이즈에서 단위 계산량당 데이터 손실을 최소화했다고 합니다.
다음은 Cerebras-GPT(오렌지)와 EleutherAI의 대규모 언어 모델인 Pythia(녹색)의 계산 효율을 나타낸 그래프입니다.
세로가 학습 중에 손실된 데이터 값, 가로가 학습에 있어서의 계산량(대수 표시)으로, 이 그래프의 기울기가 작을수록 학습 효율이 높은 것을 나타냅니다.
또한 Cerebras는 Cerebras-GPT가 다운스트림 태스크에서 높은 학습 효율을 유지할 것이라고 어필했습니다. 아래의 그래프는 다양한 데이터 세트를 사용하여 Cerebras-GPT(오렌지), Pythia(녹색), OPT(갈색)를 학습시켰을 때의 다운스트림 태스크에서의 효율을 나타낸 그래프입니다. Cerebras는, 그래프 결과를 비교해 보면 다운스트림 작업에서도 Cerebras-GPT의 학습 효율이 높은 것으로 나타났다고 주장합니다.
Cerebras는 "Cerebras-GPT가 최첨단 학습 효율을 가진 최초의 공개 대규모 GPT 모델 군으로서, 효율적인 학습을 위한 레시피로서, 또 커뮤니티 연구를 위한 참고 자료로서 도움이 될 것으로 기대합니다. 또한 Cerebras AI Model Studio를 통해 클라우드에서 인프라와 모델을 모두 사용할 수 있도록 지원하고 있습니다. 우리는 더 나은 교육 인프라와 커뮤니티의 공유를 통해 대규모 제네레이티브(생성) AI 산업을 더욱 발전시킬 수 있다고 생각합니다."라고 말했습니다.
'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글
「컨트롤의 상실」을 우려로, GPT-4를 넘는 AI의 개발 정지를 즉각 요구하는 공개 서한 (0) | 2023.03.31 |
---|---|
'ChatGPT' 등의 AI는 세계 GDP를 7% 증가시키고 3억 명의 고용에 영향을 미친다는 보고서 (0) | 2023.03.31 |
무료로 문장에서 동영상을 생성하는 AI 「Text2Video-Zero」리뷰 (0) | 2023.03.31 |
GPT-4를 활용해 '보안의 새로운 시대'를 목표로 하는 「Microsoft Security Copilot」발표 (0) | 2023.03.30 |
GPT4를 사용하여 GPT3.5를 해킹하고 제일 브레이크 가능? (0) | 2023.03.29 |
ChatGPT의 API를 해킹해보니 80개 이상의 '비밀 플러그인'을 발견했다는 보고 (0) | 2023.03.29 |
OpenAI가 ChatGPT의 서비스 이용규약을 개정, 구체적인 금지 사례도 제시 (0) | 2023.03.29 |
ChatGPT에「최신 정보 수집 기능」이나「Python 실행 환경」을 추가하는「ChatGPT plugins」등장 (0) | 2023.03.29 |