2023년 3월 대규모 언어 모델(LLM) 'Dolly'를 공개한 Databricks가 불과 2주 만에 최초의 오픈 소스 명령 추종형 LLM이라는 'Dolly 2.0'을 발표했습니다.
Free Dolly: Introducing the World's First Open and Commercially Viable Instruction-Tuned LLM - The Databricks Blog
Databricks releases Dolly 2.0, the first open, instruction-following LLM for commercial use | VentureBeat
Dolly 1.0이 출시되었을 때 가장 많았던 질문은 "상용으로 사용할 수 있습니까?"였습니다. Dolly 1.0은 스탠퍼드 대학의 'Alpaca'개발팀이 OpenAI API를 사용하여 작성한 데이터 세트로, 30달러(약 4만 원)를 들여 훈련되고 있으며, 데이터 세트에는 'OpenAI와 경쟁하는 모델의 작성은 허용하지 않음'이라는 약관을 포함한 ChatGPT의 출력이 포함되어 있었기 때문에 불행히도 상용 이용은 불가했습니다.
Alpaca 외, 버클리 AI 리서치의 「Koala」나, GPU 비탑재의 노트 PC에서도 움직일 수 있는 경량 채팅 AI 「GPT4ALL」, ChatGPT에 필적하는 성능이라고 하는 「Vicuna」등이 이 규약의 제한을 받아, 상용 이용을 금지하고 있습니다.
거기서 Databricks가 「상용 이용할 수 있는 새로운 데이터 세트를 만들자」라고 해서 완성된 것이 Dolly 2.0입니다. Dolly 2.0은 EleutherAI pythia 모델 제품군을 기반으로 한 120 억 매개 변수의 LLM으로 Databricks 직원들 사이에 크라우드 소싱된 데이터 세트에 따라 인간이 생성한 새로운 고품질 명령만으로 미세조정 되었습니다.
Dolly 2.0의 조정에 있어서는 OpenAI가 InstructGPT 모델을 1만 3천 개의 명령 & 응답 데이터 세트로 트레이닝한 점에 주목해, 그 수를 목표로 완전히 새로운 명령 & 응답 데이터 세트를 준비했습니다. Databricks에는 LLM에 높은 관심을 가진 직원이 5천 명 이상 있었기 때문에, 이 태스크를 향해 콘테스트를 실시한 결과, 1주일에 1만 5천 건의 샘플 수집에 성공했다고 합니다.
Dolly 2.0은 Hugging Face에서 다운로드 가능합니다.
databricks/dolly-v2-12b · Hugging Face
https://huggingface.co/databricks/dolly-v2-12b
또, Dolly 2.0의 미조정에 사용된, 인간이 생성한 고품질의 프롬프트의 페어 1만 5000개를 포함하는 데이터 세트 「databricks-dolly-15k」는 Creative Common 3.0 라이센스하에, 누구나 이용·변경·확장이 가능합니다.
dolly/data at master · databrickslabs/dolly · GitHub
https://github.com/databrickslabs/dolly/tree/master/data
'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글
"AI 훈련에 악곡이 사용되는 것을 막아달라"고 유니버설 뮤직 그룹이 Spotify나 Apple Music에 요구 (0) | 2023.04.17 |
---|---|
ChatGPT를 폭언 AI로 만드는 방법을 조지아 공대 연구팀이 발표 (1) | 2023.04.17 |
일론 머스크가 새로운 AI 기업 「X.AI」설립 (0) | 2023.04.16 |
아마존이 제네레티브 AI를 구축하기 위한 서비스 'Bedrock'과 기초 모델 발표 (0) | 2023.04.14 |
대규모 언어 모델을 기존보다 15배 고속 · 저비용으로 학습하는 「DeepSpeed-Chat」공개 (0) | 2023.04.13 |
중국에서는 이미 AI가 일러스트레이터의 일을 빼앗고 있다! 현장 리포트 공개 (0) | 2023.04.13 |
"ChatGPT를 이용한 스팸봇의 피해가 심각하다"고 Reddit의 사회자가 고발 (0) | 2023.04.13 |
GPT-4가 버그를 자동 수정하는 프로그램 「Wolverine」이 등장 (0) | 2023.04.13 |