RLHF란 「인간의 평가에 의한 강화 학습」으로, 대규모 언어 모델의 품질을 높여 ChatGPT 등의 실용 레벨에 이르도록 한 기법입니다. RLHF에서는 지도학습 데이터를 작성하거나 대규모 언어 모델의 답변을 평가할 때, 인간이 데이터를 입력해야 하며 특히 여러 사람이 작업할 경우 데이터 관리가 어려워집니다. 그러한 RLHF용 데이터의 입력이나 관리를 해 주는 플랫폼이 「Argilla」입니다.
Bringing LLM Fine-Tuning and RLHF to Everyone
https://argilla.io/blog/argilla-for-llms/
대규모 언어 모델을 작성할 때의 순서를 나타낸 것이 아래 그림입니다. 우선 대량의 텍스트를 이용해 사전 학습을 실시합니다. 이렇게 작성된 모델은 사전 학습된 모델이며 GPT, Palm, LLaMA 등의 모델이 이 범주에 속합니다. 이 상태에서도 문장을 작성하는 것은 가능합니다만, 한층 더 품질을 높이기 위해서 「지도학습 파인 튜닝」, 「보상 모델 작성」, 「보상 모델에 의한 강화 학습」이라는 트레이닝을 쌓아 간다는 것. 단계에 따라 적절한 교육을 쌓아 가면 ChatGPT 같은 고품질의 대규모 언어 모델을 만들 수 있습니다.
「지도학습 파인 튜닝」에서는 모델에 「어떤 형식으로 회답하는 것이 적절한가」를 배울 수 있습니다. 예를 들어, 사전 학습된 모델인 Falcon-7B에 "영업 후속 메일을 써라"라고 명령하면 아래와 같이 그냥 문장이 반환됩니다.
한편, Falcon-7B에 파인 튜닝을 실시한 후에 같은 명령을 실시하면 아래와 같이. 일반적인 메일 형식을 따르면서 '고객을 위한 메일 문면에 적합한 것'으로 수정되었습니다.
위와 같이 파인 튜닝은 매우 효과적인 방법입니다만, 대규모 언어 모델의 품질을 높이기 위해서는 단지 많은 데이터를 모으면 좋다는 것은 아니고, 다양하면서도 일관된 고품질 데이터를 준비하는 것이 중요하다는 연구 결과가 나와 있습니다. 때문에, 파인 튜닝용 지도학습 데이터는 아래와 같은 순서로 인간이 고품질의 것으로 준비할 필요가 있습니다.
1: 데이터세트의 형식 책정
2: 질문 데이터베이스에서 지도학습 데이터로 이용할 질문을 선택
3: 인간이 적절한 대답을 작성 및 편집
4: 데이터의 형식을 정돈
5: 파인 튜닝 진행
Argilla는 위와 같은 교육용 데이터를 관리하는 플랫폼입니다. 특히, 「인간이 적절한 회답을 작성 및 편집한다」는 부분에서 알기 쉬운 UI가 준비되어 있어, 간단하게 입력할 수 있게 되어 있습니다. Argilla를 이용하면, 혼자서 데이터를 작성하는 경우뿐만 아니라, 소수로 완전하게 담당을 나누는 경우나, 반대로 많은 사람에게 협력을 얻어 질문마다 몇 개의 회답을 준비하는 등 다양한 상황에 쉽게 대응할 수 있습니다.
파인 튜닝의 다음은 「보상 모델 작성」을 실시합니다. 파인 튜닝과의 주된 차이는 아래 그림의 빨간색 프레임 부분과 같으며, 파인 튜닝이 끝난 모델로부터 복수의 대답을 출력시켜 「어느 대답이 보다 적절한가」를 인간이 평가하고 있습니다. 이 데이터로 대규모 언어 모델을 직접 훈련하는 것이 아니라, 한 번 「보상 모델」이라고 불리는 대규모 언어 모델의 응답 평가용의 모델을 작성해, 그 보상 모델이 높은 평가를 주는 응답을 하도록 대규모 언어 모델을 교육합니다. 이렇게 하면 ChatGPT와 같은 고품질의 대규모 언어 모델이 만들어진다는 것입니다.
물론, Argilla는 보상 모델 작성용 평가의 입력에 있어서도 간단하고 알기 쉬운 UI를 제공해 줍니다.
Argilla의 코드는 GitHub에 공개되어 있으며 Docker 명령 한 번으로 셀프 호스팅 할 수 있습니다. 또한 완전 관리형 Argilla의 클라우드 서비스가 전개될 예정이며 조기 액세스 신청을 접수 중입니다.
https://github.com/argilla-io/argilla
'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글
「ChatGPT 목사」에 의한 예배에 300명이 넘는 청중이 몰려 (1) | 2023.06.13 |
---|---|
ChatGPT로 작성된 과학 논문을 99% 이상의 정확도로 감지할 수 있는 도구가 개발됨 (2) | 2023.06.13 |
Meta가 음악 생성 AI 모델을 오픈 소스로 공개 (4) | 2023.06.12 |
AI 도입으로 노동 시간이 줄어든다면 급여 삭감도 받아들일 의향이 있다 (3) | 2023.06.12 |
이미지의 연속을 그릴 수 있는 AI 앱 「Uncrop」이 무료 공개되었으므로 사용해 보았다 (3) | 2023.06.12 |
AI로 생성된 가상 아이돌 「진구지 아이」가 TikTok에서 일약 화제로 (3) | 2023.06.12 |
AI는 포토스톡 업계를 죽이는가? (3) | 2023.06.10 |
구글「Bard」가 백그라운드로 코드를 실행하는 '암묵적 코드 실행'을 도입 (2) | 2023.06.09 |