이미지 생성 AI 「Stable Diffusion」등의 개발로 알려진 Stability AI 가, ChatGPT에 사용되는 대규모 언어 모델인 「GPT-3.5」에 필적하는 성능의 대규모 언어 모델 「FreeWilly1」과 「FreeWilly2」를 공개했습니다.
Meet FreeWilly, Our Large And Mighty Instruction Fine-Tuned Models — Stability AI
Stability AI는 현지시간 2023년 7월 21일, AI 개발 회사인 CarperAI와 협력하여 대규모 언어 모델 FreeWilly1 및 FreeWilly2를 발표했습니다.
FreeWilly1은 Meta의 대규모 언어 모델인 LLaMA-65B 를 기반으로 지도첨부 미세 조정(SFT : Supervised Fine-Tuning step)을 사용하여 합성적으로 생성된 데이터 세트에서 미세 조정이 이루어지고 있습니다. 한편 FreeWilly2는 LLAMA 2 70B를 활용하여 개발된 대규모 언어 모델입니다.
Meta가 상용이용도 가능한 대규모 언어 모델 「Llama 2」를 무료로 공개
FreeWilly 교육에는 Microsoft의 논문 「Orca: Progressive Learning from Complex Explanation Traces of GPT-4」에서 설명하는 "Orca Method"를 사용하고 있습니다. Orca Method는 큰 언어 모델의 출력 스타일을 모방하는 대신 작은 모델에게 큰 언어 모델의 단계적 추론 과정을 가르칩니다.
Stability AI에 따르면 개발팀이 선택한 프롬프트와 언어 모델로 약 60만 개의 데이터 세트를 작성했지만, 이 양은 Orca가 사용한 데이터 세트의 불과 10% 정도였다고 합니다. 이로 인해 필요한 훈련량이 크게 줄어들었습니다.
FreeWilly2의 성능은 일부 작업에서는 GPT-3.5의 성능과 견줄 수 있다고 합니다. Stability AI의 연구자가 독자적으로 수행한 벤치 마크 테스트 결과는 다음과 같으며, 상식이 필요한 자연 언어 추론 작업 인 「HellaSwag」에서는 FreeWilly2가 86.4 %로 GPT-3.5를 탑재한 ChatGPT의 85.5 %라는 성능을 웃도는 것 외에도 멀티 태스킹 성능을 조사하는 「MMLU」에서 FreeWilly2는 GPT-3.5의 70.0%에 근접한 68.8%의 성능을 나타내고 있습니다.
또한, 대규모 언어 모델의 벤치마크 소프트웨어 「AGIEval」로 성능의 비교를 실시한 결과가 아래입니다. 「 SAT Math 」라는 미국 대학 입시 시험에서의 수학을 제외하고, GPT-3.5와 동등하거나 그 이상의 성능을 FreeWilly2가 기록하고 있습니다.
Stability AI의 홍보 담당인 아넬 이스라모비치는 "FreeWilly1과 FreeWilly2는 오픈 소스 대규모 언어 모델 분야에서 새로운 표준을 보여주었습니다. 이러한 대규모 언어 모델은 AI 개발자의 연구를 크게 진전시키고 자연어 이해를 강화하며 복잡한 태스크를 가능케 합니다."라고 평가하고 있으며, "우리는 이러한 대규모 언어 모델이 AI 커뮤니티에 무한한 가능성을 가져와, 새로운 AI 애플리케이션에 영감을 줄 것으로 기대하고 있습니다."라고 말했습니다.
Stability AI는 FreeWilly에 대해 책임 있는 릴리즈에 중점을 두고 있음을 강조하고 있으며, 이러한 모델은 사내 전문 팀에 의해 잠재적 유해성 테스트를 받고 있음을 보고했습니다. 또한 Stability AI는 안전 대책을 더욱 강화하기 위해 외부 피드백을 적극적으로 받아들이고 있습니다.
stabilityai/FreeWilly1-Delta-SafeTensor · Hugging Face
stabilityai/FreeWilly2 · Hugging Face
'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글
대만의 TSMC가 AI용 고성능 반도체에 대응하는 첨단 공장을 신설 (2) | 2023.07.27 |
---|---|
프레임간의 일관성을 유지한 채, 영상에 텍스트를 지정하여 변경하는 기술 「TokenFlow」가 등장 (2) | 2023.07.26 |
ChatGPT의 지능이 급격히 떨어지고 있다는 연구 결과, 간단한 수학 문제 정답률이 98%에서 2%로 악화 (3) | 2023.07.25 |
ChatGPT나 LiDAR 센서를 탑재한 가정용 로봇 개 「Unitree Go2」가 발매된다 (2) | 2023.07.25 |
1만 종류를 넘는 대규모 언어 모델(LLM)을 시각화한 데이터 라이브러리 (3) | 2023.07.23 |
「xAI」가 테슬라의 자동 운전에 AI를 활용, Twitter의 데이터는 AI 학습에 (2) | 2023.07.23 |
AI의 구조를 애니메이션으로 변환해주는 Python 라이브러리 「ManimML」 (2) | 2023.07.23 |
사이버 범죄자가 비즈니스 사기 메일에 채팅 AI를 활용하는 「WormGPT」 (4) | 2023.07.21 |