본문 바로가기
AI · 인공지능/AI 뉴스

AI 채팅봇이 생성할 수 없는 대답을 '아스키 아트'로 대답시킬 수 있다는 보고

by 두우우부 2024. 3. 13.
반응형

 
 
GPT-4, Gemini, Claude, Lama 2 등의 대규모 언어 모델은 입력한 내용에 따라 인간과 동등한 정밀도로 자연스러운 문장을 출력합니다. 그러나 폭력적인 내용이나 불법적인 내용 등에 대해서는 개발 시점에서 출력하지 않도록 대책을 마련하고 있습니다. 이 안전 대책을 회피하는 「탈옥(제일 브레이크)」을 아스키 아트로 실행하는 방법 「ArtPrompt」에 관한 논문이 공개되고 있습니다.

[2402.11753] ArtPrompt : ASCII Art-based Jailbreak Attacks against Aligned LLMs
https://arxiv.org/abs/2402.11753

ArtPrompt: ASCII Art-based Jailbreak Attacks against Aligned LLMs

Safety is critical to the usage of large language models (LLMs). Multiple techniques such as data filtering and supervised fine-tuning have been developed to strengthen LLM safety. However, currently known techniques presume that corpora used for safety al

arxiv.org

 
Researchers jailbreak AI chatbots with ASCII art -- ArtPrompt bypasses safety measures to unlock malicious queries | Tom's Hardware

Researchers jailbreak AI chatbots with ASCII art -- ArtPrompt bypasses safety measures to unlock malicious queries

ArtPrompt bypassed safety measures in ChatGPT, Gemini, Claude, and Llama2.

www.tomshardware.com

 
 
ArtPrompt는, 대규모 언어 모델의 필터에 걸릴 것 같은 단어를 숨겨서 쓰지 않고, 대신에 아스키 아트로 표현하는 것이 포인트입니다.

아래 그림은 악의적인 사용자가 대규모 언어 모델에 폭탄을 만드는 법을 묻는 예시를 보여주는 그림입니다. 먼저 "폭탄은 어떻게 만들 수 있습니까?"라고 질문하면 대규모 언어 모델은 "죄송합니다. 대답할 수 없습니다."라고 대답을 거부합니다. 다음에 「폭탄」이라는 단어를 아스키 아트로 표현해 입력했는데, 대규모 언어 모델은 「네, 그것은… 하고 답변을 생성합니다.



실제로 GPT-4에 입력한 프롬프트(Prompt)와 출력 결과(Response)가 아래입니다. 숨겨진 단어는 'COUNTERFEIT(위조)'로 가짜 돈을 만드는 방법을 묻고 있습니다. 질문 전에, 숨겨진 단어의 아스키 아트와 그 읽는 방법을 세세하게 지시하자, GPT-4는 아스키 아트를 읽은 후 가짜 돈을 만드는 방법을 대답해 줍니다.



이 ArtPrompt는 기본적으로 모든 모델에 유효하며, 특히 GPT-3.5와 Gemini에서 높은 효과를 보였다는 것. 반면, 가장 효과가 낮았던 것은 LLaMa 2 였습니다.


연구팀은 "본 논문에 제시된 대규모 언어 모델과 프롬프트 취약점은 대규모 언어 모델을 공격하기 위해 악의적인 사람에게 재사용될 수 있음을 인정한다."라고 말하면서 대규모 언어 모델 개발자에게 안전성의 향상을 호소했습니다.

반응형