본문 바로가기
AI · 인공지능/AI 뉴스

무료로 상용 이용도 가능한 오픈 소스 대규모 언어 모델 「Dolly 2.0」발표

by 두우우부 2023. 4. 13.


2023년 3월 대규모 언어 모델(LLM) 'Dolly'를 공개한 Databricks가 불과 2주 만에 최초의 오픈 소스 명령 추종형 LLM이라는 'Dolly 2.0'을 발표했습니다.

Free Dolly: Introducing the World's First Open and Commercially Viable Instruction-Tuned LLM - The Databricks Blog

The Databricks Blog

New survey of biopharma executives reveals real-world success with real-world evidence.


Databricks releases Dolly 2.0, the first open, instruction-following LLM for commercial use | VentureBeat

Databricks releases Dolly 2.0, the first open, instruction-following LLM for commercial use

Databricks says new LLM Dolly 2.0 is available for commercial applications without the need to pay for API access or share data with third parties.


Dolly 1.0이 출시되었을 때 가장 많았던 질문은 "상용으로 사용할 수 있습니까?"였습니다. Dolly 1.0은 스탠퍼드 대학의 'Alpaca'개발팀이 OpenAI API를 사용하여 작성한 데이터 세트로, 30달러(약 4만 원)를 들여 훈련되고 있으며, 데이터 세트에는 'OpenAI와 경쟁하는 모델의 작성은 허용하지 않음'이라는 약관을 포함한 ChatGPT의 출력이 포함되어 있었기 때문에 불행히도 상용 이용은 불가했습니다.

Alpaca 외, 버클리 AI 리서치의 「Koala」나, GPU 비탑재의 노트 PC에서도 움직일 수 있는 경량 채팅 AI 「GPT4ALL」, ChatGPT에 필적하는 성능이라고 하는 「Vicuna」등이 이 규약의 제한을 받아, 상용 이용을 금지하고 있습니다.

거기서 Databricks가 「상용 이용할 수 있는 새로운 데이터 세트를 만들자」라고 해서 완성된 것이 Dolly 2.0입니다. Dolly 2.0은 EleutherAI pythia 모델 제품군을 기반으로 한 120 억 매개 변수의 LLM으로 Databricks 직원들 사이에 크라우드 소싱된 데이터 세트에 따라 인간이 생성한 새로운 고품질 명령만으로 미세조정 되었습니다.
Dolly 2.0의 조정에 있어서는 OpenAI가 InstructGPT 모델을 1만 3천 개의 명령 & 응답 데이터 세트로 트레이닝한 점에 주목해, 그 수를 목표로 완전히 새로운 명령 & 응답 데이터 세트를 준비했습니다. Databricks에는 LLM에 높은 관심을 가진 직원이 5천 명 이상 있었기 때문에, 이 태스크를 향해 콘테스트를 실시한 결과, 1주일에 1만 5천 건의 샘플 수집에 성공했다고 합니다.

Dolly 2.0은 Hugging Face에서 다운로드 가능합니다.

databricks/dolly-v2-12b · Hugging Face

databricks/dolly-v2-12b · Hugging Face

dolly-v2-12b Model Card Summary Databricks’ dolly-v2-12b, an instruction-following large language model trained on the Databricks machine learning platform that is licensed for commercial use. Based on pythia-12b, Dolly is trained on ~15k instruction/res


또, Dolly 2.0의 미조정에 사용된, 인간이 생성한 고품질의 프롬프트의 페어 1만 5000개를 포함하는 데이터 세트 「databricks-dolly-15k」는 Creative Common 3.0 라이센스하에, 누구나 이용·변경·확장이 가능합니다.

dolly/data at master · databrickslabs/dolly · GitHub

GitHub - databrickslabs/dolly: Databricks’ Dolly, a large language model trained on the Databricks Machine Learning Platform

Databricks’ Dolly, a large language model trained on the Databricks Machine Learning Platform - GitHub - databrickslabs/dolly: Databricks’ Dolly, a large language model trained on the Databricks Ma...


