본문 바로가기
AI · 인공지능/AI 뉴스

무료로 노트북도 실행 가능한 70억 파라미터 채팅봇 「GPT4ALL」 발표

by 두우우부 2023. 4. 2.
반응형

 

GPT-3.5-Turbo와 Meta의 대규모 언어 모델 LLAMA로 학습한 데이터를 이용하여, 노트북에서도 실행 가능한 채팅봇 GPT4ALL 을 Nomic AI가 발표했습니다.

 

다양한 주제를 배우는 데 사용된 질문과 답변 교육용 데이터 세트도 모두 공개되어 있습니다.

https://github.com/nomic-ai/gpt4all

 

GitHub - nomic-ai/gpt4all: gpt4all: a chatbot trained on a massive collection of clean assistant data including code, stories an

gpt4all: a chatbot trained on a massive collection of clean assistant data including code, stories and dialogue - GitHub - nomic-ai/gpt4all: gpt4all: a chatbot trained on a massive collection of cl...

github.com

 

GPT4All: Training an Assistant-style Chatbot with Large Scale Data Distillation from GPT-3.5-Turbo

(PDF 파일)

https://s3.amazonaws.com/static.nomic.ai/gpt4all/2023_GPT4All_Technical_Report.pdf

 

 

GPT4All: Running an Open-source ChatGPT Clone on Your Laptop | Better Programming

 

GPT4All: Running an Open-source ChatGPT Clone on Your Laptop

The open-source chatbot that was trained on ChatGPT output

betterprogramming.pub

 


Nomic AI는 우선 GPT-3.5-Turbo를 이용하여 질문과 답변 쌍을 약 100만 개 수집하고, 선행하는 스탠포드 대학의 Alpaca의 해설에 근거해, Nomic AI는 데이터 준비와 큐레이션에 주의하여, 수집한 페어를 Atlas라고 하는 툴을 사용해 정리, 다양성이 낮은 질문을 삭제하고 교육 데이터가 광범위한 주제를 다룰 수 있도록 했습니다. 정리 후에 남은 질답의 쌍은 43만 7605건.

 


그리고 Nomic AI는 LLAMA 7B의 인스턴스에서 미세 조정된 여러 모델을 훈련, 최초 공개와 관련된 모델은 LoRA에서 훈련되었습니다. 이 모델을 오픈 소스 「Alpaca-LoRA」와 비교했을 때, 일관되게 perplexity가 낮은(낮은 편이 좋음) 결과가 나왔습니다.

 


GPT4ALL은 말하자면 ChatGPT의 오픈 소스 경량형 클론(복제)입니다.

 

블로그 Better Programming의 필자인 맥시밀리안 슈트라우스 씨는 "GPT4ALL의 매력은 양자화 4비트 버전 모델을 공개한 것에 있다"라고 코멘트. 이것은, 모델의 일부 정밀도를 떨어뜨려 실행하여 보다 콤팩트한 모델로 만든 것으로, 전용 하드웨어 없이 소비자 레벨의 단말에서도 실행할 수 있다는 것을 의미하고 있습니다.

아래는 메모리 8GB의 iMac M1에서 동작했다는 보고.

 


개중에는, 900g 미만의 콤팩트한 소니의 노트북 VAIO SX12에서도 동작한 것을 확인했다고 합니다.


덧붙여 이 모델은 연구 목적에 한해 무료로 이용이 가능합니다만, 상업적 목적의 이용은 금지되어 있습니다. 또한 보조 데이터를 수집한 GPT-3.5-Turbo의 사용 조건으로 OpenAI와 상업적으로 경쟁하는 모델의 개발을 금지할 수 있다는 점에도 주의가 필요합니다.

반응형