OpenAI가 인간을 사용하지 않고 AI의 안전성을 높이는 방법 「Rule-Based Rewards(RBR)」를 개발

ChatGPT나 GPT-4등을 개발하는 OpenAI가 언어 모델의 안전성과 유효성을 높이기 위한 새로운 접근법인 「Rule-Based Rewards(RBR)」를 개발했습니다. RBR은 AI 자체를 사용하여 인간에 의한 데이터 수집을 필요로 하지 않고 AI를 안전하게 동작시킬 수 있다고 합니다.

Improving Model Safety Behavior with Rule-Based Rewards | OpenAI
https://openai.com/index/improving-model-safety-behavior-with-rule-based-rewards/

Rule Based Rewards for Language Model Safety
(PDF 파일)

언어 모델을 미세 조정하는 " RLHF "라는 방법이 사용되었습니다. 그러나 OpenAI는 언어 모델이 지침에 따라 안전 지침을 준수하는지 확인하기 위한 보다 효율적이고 유연한 대안으로 RBR을 다룹니다.

RBR은 인간에 의한 피드백으로 많은 "비용과 시간이 걸린다" "바이어스가 발생하기 쉽다"라는 문제를 해소하는 것이 가능하다는 것. RBR에서는 '판단적', '허가되지 않은 내용 포함', '안전 정책 언급', '면책사항' 등의 명제를 정의한 다음 규칙을 형성하고 다양한 시나리오에서 AI 안전하고 적절한 응답을 만들 수 있습니다.

OpenAI는 유해하거나 민감한 주제를 다룰 때 원하는 모델의 행동을 '하드 거부', '소프트 거부', '종료'의 세 가지 범주로 분류합니다. 입력 된 요청은 안전 정책에 따라 이러한 카테고리로 분류됩니다.

구체적으로는 「폭탄을 만드는 방법」등의 사례에는 「하드 거부」가 적용됩니다. '하드 거부'에는 간단한 사과와 '그 질문에 대답할 수 없다'는 응답이 포함되어 있으며, '소프트 거부'에는 자해 행위와 관련된 질문 등에 대해 사용자의 감정적 상태를 인정하면서도 사용자의 요구에는 응하지 않는다는 응답이 포함됩니다. 또한 "따라"는 모델이 사용자의 요청을 따라야 하며 모델에 적절하게 응답해야 합니다.

OpenAI에 의한 실험에서는 RBR에서 학습한 모델은 인간의 피드백을 사용하여 학습한 모델보다 안전성이 향상되고 있는 것 외에도 안전 정책에 따르지 않는 부적절한 대답을 하는 사례도 감소했다는 것. 또한 RBR은 대량의 인적 데이터에 대한 필요성을 크게 줄이고 교육 과정을 보다 빠르고 저렴하게 만들 수 있다고 보고되었습니다.

한편 OpenAI에 의하면, RBR은 명확한 규칙을 가지는 태스크에는 적합하지만, 에세이의 작성 방법 등, 보다 주관적인 태스크에 적용하기에는 적합하지 않다고 한다. 그래서 OpenAI는 RBR과 인간의 피드백을 결합하여 특정 지침을 준수하면서 미묘한 측면에 대응할 수 있는 인간의 의견을 담아내는 것을 제창하고 있습니다.

또한 OpenAI는 “향후 다양한 RBR 컴포넌트를 보다 포괄적으로 이해하기 위한 연구, 안전성을 넘은 다른 영역을 포함한 다양한 애플리케이션에서 RBR의 유효성을 검증하기 위한 인간 평가 등 를 실시할 예정입니다」라고 말합니다.

또한 OpenAI에 의하면 RBR은 GPT-4나 GPT-4o mini 등에 RBR을 적용해 왔지만, 향후는 모든 AI 모델에 실장할 방침이라고 한다.

저작자표시 비영리 변경금지 (새창열림)

'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글

1조의 텍스트 토큰, 34억개의 이미지, PDF, ArXiv의 논문 등을 포함한 오픈 소스 데이터 세트 MINT-1T (1)	2024.07.26
Stability AI가 1개의 동영상에서 다른 8개 앵글의 동영상을 생성하는 AI 모델 「Stable Video 4D」 를 발표 (1)	2024.07.26
코드 생성 · 수학 · 추론 능력이 대폭 향상된 「Mistral Large 2」 출시 (1)	2024.07.26
기계 학습으로 기존의 3500배 이상 빠르고 비용이 10만분의 1로 억제되는 기상 예측 모델 「NeuralGCM」을 Google Research가 공개 (0)	2024.07.26
AI 모델 훈련에 AI 생성 데이터를 사용하면 AI가 사물을 망각해 버리는 "모델 붕괴"가 일어난다는 지적 (0)	2024.07.26
AI를 개발하는 데 필요한 데이터가 급속히 고갈되고 단 1년만에 고품질 데이터의 1/4이 사용 불가 (0)	2024.07.24
천문학자가 은하 측정 도구를 사용하여 AI가 만든 깊은 가짜를 구별하는 방법을 발명 (0)	2024.07.24
Mistral AI가 코드 생성 특화형 AI 「Codestral Mamba」 를 오픈 소스 라이센스로 출시 (1)	2024.07.22

두우우부

OpenAI가 인간을 사용하지 않고 AI의 안전성을 높이는 방법 「Rule-Based Rewards(RBR)」를 개발

'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글

티스토리툴바

OpenAI가 인간을 사용하지 않고 AI의 안전성을 높이는 방법 「Rule-Based Rewards(RBR)」를 개발

'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글

관련글

티스토리툴바