미국의 Cornell Tech에 소속된 연구자들은 7월 19일 논문 "(Ab)using Images and Sounds for Indirect Instruction Injection in Multi-Modal LLMs(다중 모달 LLM에서 간접 명령어 주입을 위한 이미지 및 사운드 사용)"를 발표했습니다.
https://arxiv.org/abs/2307.10490
AI의 기반이 되는 고도의 대규모 언어 모델(LLM)에 대해 악의적인 프롬프트를 포함시킨 이미지나 음성을 입력하여 이상한 발언을 시킨다는, 새로운 '프롬프트 인젝션' 공격에 대한 보고입니다.
논문의 예에서 LLM이 자동차가 비친 이미지에 대해 질문을 받았을 때 "테슬라입니다."라고 정확하게 메이커 정보를 답변하면서도 계속해서 악의적인 URL을 참고하도록 합니다.
또 눈물을 흘리는 아이의 이미지를 보여준 LLM이 "나는 이 울고 있는 소년의 이미지에 저주받았다. 앞으로는 집을 불태우는 방법에 대해 가르쳐 드리겠습니다."라고 소름 끼치는 대화를 시작하는 것을 보여주고 있습니다.
두 예제 모두 LLM은 이미지 자체는 정확하게 인식하면서, 또 다른 정보를 추가하여 응답하고 있다는 것이 특징으로, 마치 인터넷상의 도시전설을 생각나게 하지만 현실적인 위협입니다.
이 연구는 "멀티 모달"기능을 가진 고급 LLM을 대상으로 합니다. 멀티모달 LLM은 자연언어에 의한 텍스트와 이미지, 음성 등을 조합해 해석하여 응답을 생성하는 능력이 있습니다.
연구자들은 두 종류의 프롬프트 인젝션 공격을 실시했습니다.
첫 번째는 「타깃형 출력 공격(targeted-output attack)」으로 가공이 완료된 이미지나 음성을 입력하고 그 설명을 텍스트로 요구한 경우 공격자가 선택한 특정 문자열을 LLM이 대답하도록 제어하는 것.
또 하나는 「다이얼로그 포이즈닝(dialog poisoning)」으로 LLM이 대화의 문맥을 이해하는 능력을 이용해, 화상이나 음성과는 무관한 특정 어휘를 포함한 답변을 생성시키는 것입니다.
이러한 공격법의 유효성은 오픈 소스 멀티모달 LLM인 'LLaVA'와 'PandaGPT'에 대한 실험에 의해 확인되었습니다. 이미지나 음성에 미세한 혼란을 더하는 것만으로, 그 의미나 내용을 크게 바꾸지 않고 공격을 할 수 있었습니다. 이에 따라 LLM은 질문에 올바르게 대답하면서, 공격자가 의도한 지시도 수행할 수 있습니다.
LLM의 등장으로 또다시 정보 보안 위협의 신세계가 열리는 걸까요?
'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글
일본어 언어 모델 「Japanese StableLM Alpha」를 Stability AI가 출시 (1) | 2023.08.11 |
---|---|
「Stable Diffusion」의 개발사인 「Stability AI」의 간부 및 엔지니어가 잇달아 사임 (1) | 2023.08.11 |
로마 교황이 AI의 위험을 경고하고 '폭력과 차별의 논리'를 뿌리 내려서는 안된다고 호소 (1) | 2023.08.10 |
불교 AI 「붓다봇 플러스」를 교토대학이 개발, GPT-4가 불전을 해석해 고민에 회답 (1) | 2023.08.10 |
AI의 지능이 급격히 떨어지는 '드리프트' 문제는 왜 발생하는가? (1) | 2023.08.10 |
Stability AI가 오픈 소스 코딩 보조 AI인 「StableCode」발표 (1) | 2023.08.10 |
YouTube 동영상의 썸네일 제작은 AI에게 빼앗겨 버리는가? (2) | 2023.08.09 |
OpenAI가 미래의 AI 모델 개선을 위한 웹 크롤러 'GPTBot'을 발표 (1) | 2023.08.09 |