본문 바로가기
AI · 인공지능/AI 뉴스

이미지 생성 AI 「Stable Diffusion」개발사가 채팅 AI「StableVicuna」를 출시

by 두우우부 2023. 5. 2.
반응형

 

Stable Diffusion의 개발사인 Stability AI가 오픈 소스 챗봇 AI 'StableVicuna'의 출시를 발표했습니다. StableVicuna는 Meta가 개발한 대규모 언어 모델인 LAMA 13B를 기반으로 하는 챗봇 AI 'Vicuna-13B'를 더욱 조정하여 훈련한 챗봇 AI입니다.

Stability AI releases StableVicuna, the AI World's First Open Source RLHF LLM Chatbot — Stability AI
https://stability.ai/blog/stablevicuna-open-source-rlhf-chatbot

Stability AI releases StableVicuna, the AI World’s First Open Source RLHF LLM Chatbot — Stability AI

Experience the power of StableVicuna, the first large-scale open source chatbot trained via reinforced learning from human feedback (RHLF). With enhanced training and fine-tuning capabilities, StableVicuna offers advanced chatbot solutions to drive engagem

stability.ai



StableVicuna는 "프롬프트의 파인 튜닝"과 "인간의 피드백에 의한 강화 학습(RLHF)"이라는 두 가지 접근법을 취하고 있습니다. 기존에는 프롬프트의 파인 튜닝이 복잡한 작업이었기 때문에, RLHF는 행해지지 않는 것이 대부분이었습니다. 그러나 최근에는 채팅봇을 위한 RLHF용 데이터 세트가 오픈 소스로 제공되었기 때문에 StableVicuna를 실현할 수 있었다고 합니다.



StableVicuna는 인간이 생성하고 인간이 주석을 단 대화 데이터 세트의 OpenAssistant Conversations Dataset(OASST1), GPT-3.5 터보에서 생성된 43만 건 이상의 프롬프트와 응답 데이터 세트인 GPT4All Prompt Generations, OpenAI의 text-davinci-003 엔진에 의해 생성된 Alpaca에 의해 파인 튜닝을 실시하고 있습니다. 또한 trlx를 사용하여 OASST1 · Anthropic HH-RLHF · Stanford Human Preferences 에서 강화 학습과 RLHF 훈련을 실시하고 있습니다.

StableVicuna가 할 수 있는 일로, Stability AI사는 "기본적인 수학을 다룰 수 있다", "코드를 쓸 수 있다", "문법을 수정해 준다"라는 3가지를 들고 있습니다. 현시점에서 StableVicuna의 채팅 인터페이스는 공개되지 않고 있으며, 곧 공개할 예정이라고 Stability AI는 말하고 있습니다.



또한, StableVicuna는 AI용 리포지토리인 HuggingFace에 호스팅 되지만, 공개된 것은 어디까지나 가중치 차이뿐이며 실제로 로컬 환경에서 StableVicuna를 체험하려면 LLAMA의 오리지널 모델에 액세스 할 수 있어야 합니다.

CarperAI/stable-vicuna-13b-delta · Hugging Face
https://huggingface.co/CarperAI/stable-vicuna-13b-delta

CarperAI/stable-vicuna-13b-delta · Hugging Face

StableVicuna-13B Model Description StableVicuna-13B is a Vicuna-13B v0 model fine-tuned using reinforcement learning from human feedback (RLHF) via Proximal Policy Optimization (PPO) on various conversational and instructional datasets. Apply Delta Weights

huggingface.co

반응형