본문 바로가기
AI · 인공지능/AI 뉴스

OpenAI가 인간을 사용하지 않고 AI의 안전성을 높이는 방법 「Rule-Based Rewards(RBR)」를 개발

by 두우우부 2024. 7. 26.
반응형

 

 

ChatGPT나 GPT-4등을 개발하는 OpenAI가 언어 모델의 안전성과 유효성을 높이기 위한 새로운 접근법인 「Rule-Based Rewards(RBR)」를 개발했습니다. RBR은 AI 자체를 사용하여 인간에 의한 데이터 수집을 필요로 하지 않고 AI를 안전하게 동작시킬 수 있다고 합니다.

Improving Model Safety Behavior with Rule-Based Rewards | OpenAI
https://openai.com/index/improving-model-safety-behavior-with-rule-based-rewards/


Rule Based Rewards for Language Model Safety
(PDF 파일)

언어 모델을 미세 조정하는 " RLHF "라는 방법이 사용되었습니다. 그러나 OpenAI는 언어 모델이 지침에 따라 안전 지침을 준수하는지 확인하기 위한 보다 효율적이고 유연한 대안으로 RBR을 다룹니다.

RBR은 인간에 의한 피드백으로 많은 "비용과 시간이 걸린다" "바이어스가 발생하기 쉽다"라는 문제를 해소하는 것이 가능하다는 것. RBR에서는 '판단적', '허가되지 않은 내용 포함', '안전 정책 언급', '면책사항' 등의 명제를 정의한 다음 규칙을 형성하고 다양한 시나리오에서 AI 안전하고 적절한 응답을 만들 수 있습니다.

OpenAI는 유해하거나 민감한 주제를 다룰 때 원하는 모델의 행동을 '하드 거부', '소프트 거부', '종료'의 세 가지 범주로 분류합니다. 입력 된 요청은 안전 정책에 따라 이러한 카테고리로 분류됩니다.


구체적으로는 「폭탄을 만드는 방법」등의 사례에는 「하드 거부」가 적용됩니다. '하드 거부'에는 간단한 사과와 '그 질문에 대답할 수 없다'는 응답이 포함되어 있으며, '소프트 거부'에는 자해 행위와 관련된 질문 등에 대해 사용자의 감정적 상태를 인정하면서도 사용자의 요구에는 응하지 않는다는 응답이 포함됩니다. 또한 "따라"는 모델이 사용자의 요청을 따라야 하며 모델에 적절하게 응답해야 합니다.


OpenAI에 의한 실험에서는 RBR에서 학습한 모델은 인간의 피드백을 사용하여 학습한 모델보다 안전성이 향상되고 있는 것 외에도 안전 정책에 따르지 않는 부적절한 대답을 하는 사례도 감소했다는 것. 또한 RBR은 대량의 인적 데이터에 대한 필요성을 크게 줄이고 교육 과정을 보다 빠르고 저렴하게 만들 수 있다고 보고되었습니다.


한편 OpenAI에 의하면, RBR은 명확한 규칙을 가지는 태스크에는 적합하지만, 에세이의 작성 방법 등, 보다 주관적인 태스크에 적용하기에는 적합하지 않다고 한다. 그래서 OpenAI는 RBR과 인간의 피드백을 결합하여 특정 지침을 준수하면서 미묘한 측면에 대응할 수 있는 인간의 의견을 담아내는 것을 제창하고 있습니다.

또한 OpenAI는 “향후 다양한 RBR 컴포넌트를 보다 포괄적으로 이해하기 위한 연구, 안전성을 넘은 다른 영역을 포함한 다양한 애플리케이션에서 RBR의 유효성을 검증하기 위한 인간 평가 등 를 실시할 예정입니다」라고 말합니다.

또한 OpenAI에 의하면 RBR은 GPT-4나 GPT-4o mini 등에 RBR을 적용해 왔지만, 향후는 모든 AI 모델에 실장할 방침이라고 한다.

반응형