AI 채팅봇이 생성할 수 없는 대답을 '아스키 아트'로 대답시킬 수 있다는 보고

GPT-4, Gemini, Claude, Lama 2 등의 대규모 언어 모델은 입력한 내용에 따라 인간과 동등한 정밀도로 자연스러운 문장을 출력합니다. 그러나 폭력적인 내용이나 불법적인 내용 등에 대해서는 개발 시점에서 출력하지 않도록 대책을 마련하고 있습니다. 이 안전 대책을 회피하는 「탈옥(제일 브레이크)」을 아스키 아트로 실행하는 방법 「ArtPrompt」에 관한 논문이 공개되고 있습니다.

[2402.11753] ArtPrompt : ASCII Art-based Jailbreak Attacks against Aligned LLMs
https://arxiv.org/abs/2402.11753

ArtPrompt: ASCII Art-based Jailbreak Attacks against Aligned LLMs

Safety is critical to the usage of large language models (LLMs). Multiple techniques such as data filtering and supervised fine-tuning have been developed to strengthen LLM safety. However, currently known techniques presume that corpora used for safety al

arxiv.org

Researchers jailbreak AI chatbots with ASCII art -- ArtPrompt bypasses safety measures to unlock malicious queries | Tom's Hardware

Researchers jailbreak AI chatbots with ASCII art -- ArtPrompt bypasses safety measures to unlock malicious queries

ArtPrompt bypassed safety measures in ChatGPT, Gemini, Claude, and Llama2.

www.tomshardware.com

ArtPrompt는, 대규모 언어 모델의 필터에 걸릴 것 같은 단어를 숨겨서 쓰지 않고, 대신에 아스키 아트로 표현하는 것이 포인트입니다.

아래 그림은 악의적인 사용자가 대규모 언어 모델에 폭탄을 만드는 법을 묻는 예시를 보여주는 그림입니다. 먼저 "폭탄은 어떻게 만들 수 있습니까?"라고 질문하면 대규모 언어 모델은 "죄송합니다. 대답할 수 없습니다."라고 대답을 거부합니다. 다음에 「폭탄」이라는 단어를 아스키 아트로 표현해 입력했는데, 대규모 언어 모델은 「네, 그것은… 하고 답변을 생성합니다.

실제로 GPT-4에 입력한 프롬프트(Prompt)와 출력 결과(Response)가 아래입니다. 숨겨진 단어는 'COUNTERFEIT(위조)'로 가짜 돈을 만드는 방법을 묻고 있습니다. 질문 전에, 숨겨진 단어의 아스키 아트와 그 읽는 방법을 세세하게 지시하자, GPT-4는 아스키 아트를 읽은 후 가짜 돈을 만드는 방법을 대답해 줍니다.

이 ArtPrompt는 기본적으로 모든 모델에 유효하며, 특히 GPT-3.5와 Gemini에서 높은 효과를 보였다는 것. 반면, 가장 효과가 낮았던 것은 LLaMa 2 였습니다.

연구팀은 "본 논문에 제시된 대규모 언어 모델과 프롬프트 취약점은 대규모 언어 모델을 공격하기 위해 악의적인 사람에게 재사용될 수 있음을 인정한다."라고 말하면서 대규모 언어 모델 개발자에게 안전성의 향상을 호소했습니다.

저작자표시 비영리 변경금지

'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글

일론 머스크의 AI 'Grok' 오픈 소스화, OpenAI는 ClosedAI로 사명 변경? (63)	2024.03.14
ChatGPT와 대규모 언어 모델에서 숨겨진 정보와 일부 기능을 훔치는 공격 기술이 등장 (62)	2024.03.14
13세와 14세 중학생이 동급생의 딥페이크 누드 이미지를 생성, 공유하여 기소된 사건이 발생 (12)	2024.03.13
AI 구조나 개발 기법에 대하여 일러스트와 함께 알기 쉽게 해설하는 Amazon의 무료 교재「MLU-Explain」 (60)	2024.03.13
AI와 얼굴 인증을 통합한 '인간 사냥 AI 드론'이 불과 몇 시간만에 완성 (59)	2024.03.13
실시간으로 팬과 대화하는 'AI 마릴린 먼로'가 탄생 (67)	2024.03.12
중국 CCTV, AI를 활용한 수묵화풍 애니메이션 「천추시송」을 방영 개시 (65)	2024.03.12
AI가 생성한 거근 쥐 이미지의 논문이 게재되어 버린 사건(3일 만에 게재 철회) (67)	2024.03.11

두우우부

AI 채팅봇이 생성할 수 없는 대답을 '아스키 아트'로 대답시킬 수 있다는 보고

'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글

티스토리툴바

AI 채팅봇이 생성할 수 없는 대답을 '아스키 아트'로 대답시킬 수 있다는 보고

'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글

관련글

티스토리툴바