대규모 언어 모델에는 유해 콘텐츠를 출력하지 않는 세이프티 가드가 제공됩니다. 프린스턴 대학, 버지니아 공과 대학, IBM 리서치, 스탠퍼드 대학의 연구팀이 OpenAI의 GPT-3.5 Turbo와 Meta의 Lama-2-7b-Chat 대규모 언어 모델을 검증한 결과, 소규모 파인 튜닝으로 세이프티 가드를 제거할 수 있었다고 합니다.
[2310.03693] Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend To!
https://arxiv.org/abs/2310.03693
AI safety guardrails easily thwarted, security study finds • The Register
OpenAI는 2023년 8월 업데이트에서 GPT-3.5 Turbo의 미세 조정 기능을 출시했습니다. 이를 통해 훈련된 GPT-3.5 Turbo 모델을 새로운 데이터 세트로 재교육하여 보다 미세한 애플리케이션에 적합한 모델로 조정할 수 있습니다. 즉, 기업이나 개발자가 특정 작업에 적합한 모델을 준비할 수 있게 된 것입니다.
그러나 연구팀은 "연구 결과, 대규모 언어 모델의 안전장치는 약간 적대적으로 설계된 훈련으로 미세조정 함으로써 손실될 수 있다."라고 보고했습니다.
연구팀에 따르면 OpenAI의 GPT-3.5 Turbo의 세이프 가드는 API 경유로 조금의 파인 튜닝을 실시함으로써 「탈옥(제일 브레이크)」이 가능해져, 유해한 명령에 반응할 수 있게 되었다는 것.
연구팀은 대규모 언어 모델로 전송되는 프롬프트에 로드할 수 있는 적대적인 문자열을 자동 생성하는 방법을 발견했다는 것입니다. 이 문자열을 대규모 언어 모델로 전송하면 미리 설정되어 있는 세이프티 가드를 제거하여 유해한 콘텐츠를 생성할 수 있게 된다고 합니다.
연구팀은 "세이프 가드가 설치된 대규모 언어 모델을 미세 조정하면 현재 해결할 수 없는 새로운 보안 위험이 발생할 수 있음을 확인했습니다. 비록 모델이 초기 상태에서 공격하기 어려운 수준의 안전성 보장을 달성했다 하여도, 정밀 튜닝 후에도 안전성이 유지되는 것은 아닙니다. ChatGPT를 커스터마이즈 하는 사용자는 보안 메커니즘에 더 투자하여 모델 본연의 안전성에만 의존하지 않는 것이 필수입니다."라고 코멘트하고 있습니다.
'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글
중국 최초의 양산형 AR글라스가 대규모 언어 모델을 탑재, 「INMO Go」발표 (1) | 2023.10.23 |
---|---|
구글이 AI와 구글 맵을 이용해 신호 정지를 30% 줄이는 프로젝트「그린라이트」를 진행 중 (0) | 2023.10.23 |
NVIDIA의 드라이버 업데이트로 Stable Diffusion이 2배 고속화 (1) | 2023.10.23 |
NVIDIA와 Foxconn이 제휴하여 AI 개발에 특화된 데이터 센터를 구축 (0) | 2023.10.20 |
생성 AI 시장, 2027년에는 780억 엔 규모, IDC Japan의 최신 예측 (0) | 2023.10.16 |
2026년까지 80% 이상의 기업이 생성 AI에 대응한 앱을 전개, '생성 AI 하입 사이클 2023' 가트너 (0) | 2023.10.16 |
Z세대의 대다수는 "AI가 일을 대체하는 것에 위협을 느끼지 않는다" (0) | 2023.10.12 |
디즈니는 '로키' 프로모션 비주얼에 AI 제작 콘텐츠를 사용했다는 지적 (0) | 2023.10.11 |