본문 바로가기
AI · 인공지능/AI 뉴스

「RLHF」는 무엇? 오픈 소스로 셀프 호스팅도 가능한 플랫폼 「Argilla」소개

by 두우우부 2023. 6. 12.
반응형

 
 
RLHF란 「인간의 평가에 의한 강화 학습」으로, 대규모 언어 모델의 품질을 높여 ChatGPT 등의 실용 레벨에 이르도록 한 기법입니다. RLHF에서는 지도학습 데이터를 작성하거나 대규모 언어 모델의 답변을 평가할 때, 인간이 데이터를 입력해야 하며 특히 여러 사람이 작업할 경우 데이터 관리가 어려워집니다. 그러한 RLHF용 데이터의 입력이나 관리를 해 주는 플랫폼이 「Argilla」입니다.

Bringing LLM Fine-Tuning and RLHF to Everyone
https://argilla.io/blog/argilla-for-llms/

Bringing LLM Fine-Tuning and RLHF to Everyone

April 17, 2023 ● Natalia Elvira Astoreca, Tom Aarsen, David Berenstein

argilla.io



대규모 언어 모델을 작성할 때의 순서를 나타낸 것이 아래 그림입니다. 우선 대량의 텍스트를 이용해 사전 학습을 실시합니다. 이렇게 작성된 모델은 사전 학습된 모델이며 GPT, Palm, LLaMA 등의 모델이 이 범주에 속합니다. 이 상태에서도 문장을 작성하는 것은 가능합니다만, 한층 더 품질을 높이기 위해서 「지도학습 파인 튜닝」, 「보상 모델 작성」, 「보상 모델에 의한 강화 학습」이라는 트레이닝을 쌓아 간다는 것. 단계에 따라 적절한 교육을 쌓아 가면 ChatGPT 같은 고품질의 대규모 언어 모델을 만들 수 있습니다.

 

「지도학습 파인 튜닝」에서는 모델에 「어떤 형식으로 회답하는 것이 적절한가」를 배울 수 있습니다. 예를 들어, 사전 학습된 모델인 Falcon-7B에 "영업 후속 메일을 써라"라고 명령하면 아래와 같이 그냥 문장이 반환됩니다.

 

한편, Falcon-7B에 파인 튜닝을 실시한 후에 같은 명령을 실시하면 아래와 같이. 일반적인 메일 형식을 따르면서 '고객을 위한 메일 문면에 적합한 것'으로 수정되었습니다.



위와 같이 파인 튜닝은 매우 효과적인 방법입니다만, 대규모 언어 모델의 품질을 높이기 위해서는 단지 많은 데이터를 모으면 좋다는 것은 아니고, 다양하면서도 일관된 고품질 데이터를 준비하는 것이 중요하다는 연구 결과가 나와 있습니다. 때문에, 파인 튜닝용 지도학습 데이터는 아래와 같은 순서로 인간이 고품질의 것으로 준비할 필요가 있습니다.

1: 데이터세트의 형식 책정
2: 질문 데이터베이스에서 지도학습 데이터로 이용할 질문을 선택
3: 인간이 적절한 대답을 작성 및 편집
4: 데이터의 형식을 정돈
5: 파인 튜닝 진행

 

Argilla는 위와 같은 교육용 데이터를 관리하는 플랫폼입니다. 특히, 「인간이 적절한 회답을 작성 및 편집한다」는 부분에서 알기 쉬운 UI가 준비되어 있어, 간단하게 입력할 수 있게 되어 있습니다. Argilla를 이용하면, 혼자서 데이터를 작성하는 경우뿐만 아니라, 소수로 완전하게 담당을 나누는 경우나, 반대로 많은 사람에게 협력을 얻어 질문마다 몇 개의 회답을 준비하는 등 다양한 상황에 쉽게 대응할 수 있습니다.

 

파인 튜닝의 다음은 「보상 모델 작성」을 실시합니다. 파인 튜닝과의 주된 차이는 아래 그림의 빨간색 프레임 부분과 같으며, 파인 튜닝이 끝난 모델로부터 복수의 대답을 출력시켜 「어느 대답이 보다 적절한가」를 인간이 평가하고 있습니다. 이 데이터로 대규모 언어 모델을 직접 훈련하는 것이 아니라, 한 번 「보상 모델」이라고 불리는 대규모 언어 모델의 응답 평가용의 모델을 작성해, 그 보상 모델이 높은 평가를 주는 응답을 하도록 대규모 언어 모델을 교육합니다. 이렇게 하면 ChatGPT와 같은 고품질의 대규모 언어 모델이 만들어진다는 것입니다.

 

물론, Argilla는 보상 모델 작성용 평가의 입력에 있어서도 간단하고 알기 쉬운 UI를 제공해 줍니다.



Argilla의 코드는 GitHub에 공개되어 있으며 Docker 명령 한 번으로 셀프 호스팅 할 수 있습니다. 또한 완전 관리형 Argilla의 클라우드 서비스가 전개될 예정이며 조기 액세스 신청을 접수 중입니다.

https://github.com/argilla-io/argilla

GitHub - argilla-io/argilla: ✨Argilla: the open-source data curation platform for LLMs

✨Argilla: the open-source data curation platform for LLMs - GitHub - argilla-io/argilla: ✨Argilla: the open-source data curation platform for LLMs

github.com

반응형