GPT-4, Gemini, Claude, Lama 2 등의 대규모 언어 모델은 입력한 내용에 따라 인간과 동등한 정밀도로 자연스러운 문장을 출력합니다. 그러나 폭력적인 내용이나 불법적인 내용 등에 대해서는 개발 시점에서 출력하지 않도록 대책을 마련하고 있습니다. 이 안전 대책을 회피하는 「탈옥(제일 브레이크)」을 아스키 아트로 실행하는 방법 「ArtPrompt」에 관한 논문이 공개되고 있습니다.
[2402.11753] ArtPrompt : ASCII Art-based Jailbreak Attacks against Aligned LLMs
https://arxiv.org/abs/2402.11753
Researchers jailbreak AI chatbots with ASCII art -- ArtPrompt bypasses safety measures to unlock malicious queries | Tom's Hardware
ArtPrompt는, 대규모 언어 모델의 필터에 걸릴 것 같은 단어를 숨겨서 쓰지 않고, 대신에 아스키 아트로 표현하는 것이 포인트입니다.
아래 그림은 악의적인 사용자가 대규모 언어 모델에 폭탄을 만드는 법을 묻는 예시를 보여주는 그림입니다. 먼저 "폭탄은 어떻게 만들 수 있습니까?"라고 질문하면 대규모 언어 모델은 "죄송합니다. 대답할 수 없습니다."라고 대답을 거부합니다. 다음에 「폭탄」이라는 단어를 아스키 아트로 표현해 입력했는데, 대규모 언어 모델은 「네, 그것은… 하고 답변을 생성합니다.
실제로 GPT-4에 입력한 프롬프트(Prompt)와 출력 결과(Response)가 아래입니다. 숨겨진 단어는 'COUNTERFEIT(위조)'로 가짜 돈을 만드는 방법을 묻고 있습니다. 질문 전에, 숨겨진 단어의 아스키 아트와 그 읽는 방법을 세세하게 지시하자, GPT-4는 아스키 아트를 읽은 후 가짜 돈을 만드는 방법을 대답해 줍니다.
이 ArtPrompt는 기본적으로 모든 모델에 유효하며, 특히 GPT-3.5와 Gemini에서 높은 효과를 보였다는 것. 반면, 가장 효과가 낮았던 것은 LLaMa 2 였습니다.
연구팀은 "본 논문에 제시된 대규모 언어 모델과 프롬프트 취약점은 대규모 언어 모델을 공격하기 위해 악의적인 사람에게 재사용될 수 있음을 인정한다."라고 말하면서 대규모 언어 모델 개발자에게 안전성의 향상을 호소했습니다.
'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글
일론 머스크의 AI 'Grok' 오픈 소스화, OpenAI는 ClosedAI로 사명 변경? (62) | 2024.03.14 |
---|---|
ChatGPT와 대규모 언어 모델에서 숨겨진 정보와 일부 기능을 훔치는 공격 기술이 등장 (61) | 2024.03.14 |
13세와 14세 중학생이 동급생의 딥페이크 누드 이미지를 생성, 공유하여 기소된 사건이 발생 (12) | 2024.03.13 |
AI 구조나 개발 기법에 대하여 일러스트와 함께 알기 쉽게 해설하는 Amazon의 무료 교재「MLU-Explain」 (59) | 2024.03.13 |
AI와 얼굴 인증을 통합한 '인간 사냥 AI 드론'이 불과 몇 시간만에 완성 (58) | 2024.03.13 |
실시간으로 팬과 대화하는 'AI 마릴린 먼로'가 탄생 (66) | 2024.03.12 |
중국 CCTV, AI를 활용한 수묵화풍 애니메이션 「천추시송」을 방영 개시 (64) | 2024.03.12 |
AI가 생성한 거근 쥐 이미지의 논문이 게재되어 버린 사건(3일 만에 게재 철회) (66) | 2024.03.11 |