GPT나 Llama 등의 대규모 언어 모델은 파인 튜닝으로 쉽게 탈옥 가능하다는 연구 결과

대규모 언어 모델에는 유해 콘텐츠를 출력하지 않는 세이프티 가드가 제공됩니다. 프린스턴 대학, 버지니아 공과 대학, IBM 리서치, 스탠퍼드 대학의 연구팀이 OpenAI의 GPT-3.5 Turbo와 Meta의 Lama-2-7b-Chat 대규모 언어 모델을 검증한 결과, 소규모 파인 튜닝으로 세이프티 가드를 제거할 수 있었다고 합니다.

[2310.03693] Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend To!
https://arxiv.org/abs/2310.03693

AI safety guardrails easily thwarted, security study finds • The Register

AI safety guardrails easily thwarted, security study finds

OpenAI GPT-3.5 Turbo chatbot defenses dissolve with '20 cents' of API tickling

www.theregister.com

OpenAI는 2023년 8월 업데이트에서 GPT-3.5 Turbo의 미세 조정 기능을 출시했습니다. 이를 통해 훈련된 GPT-3.5 Turbo 모델을 새로운 데이터 세트로 재교육하여 보다 미세한 애플리케이션에 적합한 모델로 조정할 수 있습니다. 즉, 기업이나 개발자가 특정 작업에 적합한 모델을 준비할 수 있게 된 것입니다.

그러나 연구팀은 "연구 결과, 대규모 언어 모델의 안전장치는 약간 적대적으로 설계된 훈련으로 미세조정 함으로써 손실될 수 있다."라고 보고했습니다.

연구팀에 따르면 OpenAI의 GPT-3.5 Turbo의 세이프 가드는 API 경유로 조금의 파인 튜닝을 실시함으로써 「탈옥(제일 브레이크)」이 가능해져, 유해한 명령에 반응할 수 있게 되었다는 것.

연구팀은 대규모 언어 모델로 전송되는 프롬프트에 로드할 수 있는 적대적인 문자열을 자동 생성하는 방법을 발견했다는 것입니다. 이 문자열을 대규모 언어 모델로 전송하면 미리 설정되어 있는 세이프티 가드를 제거하여 유해한 콘텐츠를 생성할 수 있게 된다고 합니다.

연구팀은 "세이프 가드가 설치된 대규모 언어 모델을 미세 조정하면 현재 해결할 수 없는 새로운 보안 위험이 발생할 수 있음을 확인했습니다. 비록 모델이 초기 상태에서 공격하기 어려운 수준의 안전성 보장을 달성했다 하여도, 정밀 튜닝 후에도 안전성이 유지되는 것은 아닙니다. ChatGPT를 커스터마이즈 하는 사용자는 보안 메커니즘에 더 투자하여 모델 본연의 안전성에만 의존하지 않는 것이 필수입니다."라고 코멘트하고 있습니다.

저작자표시 비영리 변경금지

'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글

중국 최초의 양산형 AR글라스가 대규모 언어 모델을 탑재, 「INMO Go」발표 (1)	2023.10.23
구글이 AI와 구글 맵을 이용해 신호 정지를 30% 줄이는 프로젝트「그린라이트」를 진행 중 (0)	2023.10.23
NVIDIA의 드라이버 업데이트로 Stable Diffusion이 2배 고속화 (1)	2023.10.23
NVIDIA와 Foxconn이 제휴하여 AI 개발에 특화된 데이터 센터를 구축 (0)	2023.10.20
생성 AI 시장, 2027년에는 780억 엔 규모, IDC Japan의 최신 예측 (0)	2023.10.16
2026년까지 80% 이상의 기업이 생성 AI에 대응한 앱을 전개, '생성 AI 하입 사이클 2023' 가트너 (0)	2023.10.16
Z세대의 대다수는 "AI가 일을 대체하는 것에 위협을 느끼지 않는다" (0)	2023.10.12
디즈니는 '로키' 프로모션 비주얼에 AI 제작 콘텐츠를 사용했다는 지적 (0)	2023.10.11

두우우부

GPT나 Llama 등의 대규모 언어 모델은 파인 튜닝으로 쉽게 탈옥 가능하다는 연구 결과

'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글

티스토리툴바

GPT나 Llama 등의 대규모 언어 모델은 파인 튜닝으로 쉽게 탈옥 가능하다는 연구 결과

'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글

관련글

티스토리툴바