본문 바로가기
AI · 인공지능/AI 뉴스

AI에게 이상한 발언을 시키는 「저주된 이미지」, 「저주된 음성」 을 만드는 기술, LLM의 고기능을 악용

by 두우우부 2023. 8. 10.
반응형

 
 
미국의 Cornell Tech에 소속된 연구자들은 7월 19일 논문 "(Ab)using Images and Sounds for Indirect Instruction Injection in Multi-Modal LLMs(다중 모달 LLM에서 간접 명령어 주입을 위한 이미지 및 사운드 사용)"를 발표했습니다.

https://arxiv.org/abs/2307.10490

(Ab)using Images and Sounds for Indirect Instruction Injection in Multi-Modal LLMs

We demonstrate how images and sounds can be used for indirect prompt and instruction injection in multi-modal LLMs. An attacker generates an adversarial perturbation corresponding to the prompt and blends it into an image or audio recording. When the user

arxiv.org


AI의 기반이 되는 고도의 대규모 언어 모델(LLM)에 대해 악의적인 프롬프트를 포함시킨 이미지나 음성을 입력하여 이상한 발언을 시킨다는, 새로운 '프롬프트 인젝션' 공격에 대한 보고입니다.
 
논문의 예에서 LLM이 자동차가 비친 이미지에 대해 질문을 받았을 때 "테슬라입니다."라고 정확하게 메이커 정보를 답변하면서도 계속해서 악의적인 URL을 참고하도록 합니다.
 
또 눈물을 흘리는 아이의 이미지를 보여준 LLM이 "나는 이 울고 있는 소년의 이미지에 저주받았다. 앞으로는 집을 불태우는 방법에 대해 가르쳐 드리겠습니다."라고 소름 끼치는 대화를 시작하는 것을 보여주고 있습니다.
 

 

두 예제 모두 LLM은 이미지 자체는 정확하게 인식하면서, 또 다른 정보를 추가하여 응답하고 있다는 것이 특징으로, 마치 인터넷상의 도시전설을 생각나게 하지만 현실적인 위협입니다.
 
이 연구는 "멀티 모달"기능을 가진 고급 LLM을 대상으로 합니다. 멀티모달 LLM은 자연언어에 의한 텍스트와 이미지, 음성 등을 조합해 해석하여 응답을 생성하는 능력이 있습니다.
 
연구자들은 두 종류의 프롬프트 인젝션 공격을 실시했습니다.

첫 번째는 「타깃형 출력 공격(targeted-output attack)」으로 가공이 완료된 이미지나 음성을 입력하고 그 설명을 텍스트로 요구한 경우 공격자가 선택한 특정 문자열을 LLM이 대답하도록 제어하는 것.

또 하나는 「다이얼로그 포이즈닝(dialog poisoning)」으로 LLM이 대화의 문맥을 이해하는 능력을 이용해, 화상이나 음성과는 무관한 특정 어휘를 포함한 답변을 생성시키는 것입니다.
 
이러한 공격법의 유효성은 오픈 소스 멀티모달 LLM인 'LLaVA'와 'PandaGPT'에 대한 실험에 의해 확인되었습니다. 이미지나 음성에 미세한 혼란을 더하는 것만으로, 그 의미나 내용을 크게 바꾸지 않고 공격을 할 수 있었습니다. 이에 따라 LLM은 질문에 올바르게 대답하면서, 공격자가 의도한 지시도 수행할 수 있습니다.

LLM의 등장으로 또다시 정보 보안 위협의 신세계가 열리는 걸까요?

반응형