본문 바로가기
AI · 인공지능/AI 뉴스

GPT나 Llama 등의 대규모 언어 모델은 파인 튜닝으로 쉽게 탈옥 가능하다는 연구 결과

by 두우우부 2023. 10. 18.
반응형

 
 
대규모 언어 모델에는 유해 콘텐츠를 출력하지 않는 세이프티 가드가 제공됩니다. 프린스턴 대학, 버지니아 공과 대학, IBM 리서치, 스탠퍼드 대학의 연구팀이 OpenAI의 GPT-3.5 Turbo와 Meta의 Lama-2-7b-Chat 대규모 언어 모델을 검증한 결과, 소규모 파인 튜닝으로 세이프티 가드를 제거할 수 있었다고 합니다.

[2310.03693] Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend To!
https://arxiv.org/abs/2310.03693


AI safety guardrails easily thwarted, security study finds • The Register

AI safety guardrails easily thwarted, security study finds

OpenAI GPT-3.5 Turbo chatbot defenses dissolve with '20 cents' of API tickling

www.theregister.com



OpenAI는 2023년 8월 업데이트에서 GPT-3.5 Turbo의 미세 조정 기능을 출시했습니다. 이를 통해 훈련된 GPT-3.5 Turbo 모델을 새로운 데이터 세트로 재교육하여 보다 미세한 애플리케이션에 적합한 모델로 조정할 수 있습니다. 즉, 기업이나 개발자가 특정 작업에 적합한 모델을 준비할 수 있게 된 것입니다.

그러나 연구팀은 "연구 결과, 대규모 언어 모델의 안전장치는 약간 적대적으로 설계된 훈련으로 미세조정 함으로써 손실될 수 있다."라고 보고했습니다.

연구팀에 따르면 OpenAI의 GPT-3.5 Turbo의 세이프 가드는 API 경유로 조금의 파인 튜닝을 실시함으로써 「탈옥(제일 브레이크)」이 가능해져, 유해한 명령에 반응할 수 있게 되었다는 것.

연구팀은 대규모 언어 모델로 전송되는 프롬프트에 로드할 수 있는 적대적인 문자열을 자동 생성하는 방법을 발견했다는 것입니다. 이 문자열을 대규모 언어 모델로 전송하면 미리 설정되어 있는 세이프티 가드를 제거하여 유해한 콘텐츠를 생성할 수 있게 된다고 합니다.

연구팀은 "세이프 가드가 설치된 대규모 언어 모델을 미세 조정하면 현재 해결할 수 없는 새로운 보안 위험이 발생할 수 있음을 확인했습니다. 비록 모델이 초기 상태에서 공격하기 어려운 수준의 안전성 보장을 달성했다 하여도, 정밀 튜닝 후에도 안전성이 유지되는 것은 아닙니다. ChatGPT를 커스터마이즈 하는 사용자는 보안 메커니즘에 더 투자하여 모델 본연의 안전성에만 의존하지 않는 것이 필수입니다."라고 코멘트하고 있습니다.

반응형