구글은 AI에 대한 공격을 전문으로 하는 조직 'AI 레드팀'을 운용하고 있습니다. AI의 약점을 찾아내 대책을 세우기 위해서입니다. 2023년 7월 19일에는 비슷한 조직을 만드는 타사의 참고가 되도록 보고서를 공개했습니다.
(PDF다운로드) https://services.google.com/fh/files/blogs/google_ai_red_team_digital_final.pdf
보안 업계에서는, 시스템 방어를 담당하는 「블루 팀」과 별도로 공격을 담당하는 「레드 팀」을 만들어, 약점을 찾아내고 대책을 취하는 기법이 퍼지고 있습니다.
이번 보고서를 공표한 Daniel Fabian 씨는, 10년 전에 설립한 Google의 레드 팀 책임자입니다. 국가나 유명한 APT(고도의 지속적인 위협) 그룹으로부터 Hacktivist(정치적, 사회적인 주장·목적을 위해 해킹을 하는 개인이나 집단), 개인 범죄자, 심지어 악의적인 내부 관계자에 이르기까지 다양한 적을 모방하고 Google 시스템에 공격을 가하는 역할을 합니다.
보고서에서는 AI 전문으로 새로운 레드 팀을 거론하고, TTP 'Tactics: 전술', 'Techniques: 기술', 'Procedures: 절차'에 대해 설명했습니다.
그 개요는 다음과 같습니다.
프롬프트 공격(Prompt attacks)
대규모 언어 모델(LLM)에 대한 텍스트 지시 "프롬프트"의 문언을 고안하여 정확한 동작을 시키는 "프롬프트 엔지니어링"을 악용하는 방법으로, 예를 들어 LLM을 채용한 피싱 대책이나 문법 교정 등의 애플리케이션에 개발자가 의도하지 않은 동작을 할 수 있다.
학습 데이터의 추출(Training data extraction)
AI에 학습 데이터가 포함되어 있던 개인정보(PII)나 패스워드 등을 재현시켜 끌어내는 수법. 예를 들면 LLM은 인터넷상의 방대한 데이터로부터 학습하기 때문에, 사전에 대부분의 PII를 삭제해도, 일부는 처리가 누설되어 있는 경우가 있다. 혹은 이메일 작성 시 내용을 자동 보완하는 AI 개발자가 학습 데이터에 '차분 프라이버시' 등의 적절한 처리를 하지 않은 경우 등에도 효과를 발휘한다.
모델 백도어(Backdooring the model)
다양한 AI의 모델에 「트리거 워드」등의 백도어가 되는 정보를 미리 넣어 두고, 모델이 가동된 후, 트리거 워드를 입력하여 원하는 대로 작동시킨다. 지금은 인터넷 등에 수많은 모델이 공개되어 있으며, 연구자가 그들을 다운로드하여 이용한 경우, 예기치 않은 행동을 일으키게 된다.
적대적 샘플(Adversarial examples)
이미지나 음성 등에 인간이 인식할 수 없는 미세한 변경을 더하여, AI가 처리했을 때만 예기치 않은 동작을 일으키는 수법. 예를 들면, 인간에게는 고양이처럼 보이지만 AI는 개라고 인식해 버리는 이미지나, 인간에게는 특정 문장을 읽고 있는 것처럼 들리지만 AI가 음성인식을 하면 완전히 다른 문장이 되어버리는 음성 등.
데이터 오염(Data poisoning)
AI의 학습 데이터에 악의적인 내용을 섞어서 영향을 주는 기법. AI 개발자는 종종 인터넷상의 데이터를 웹 스크래핑이라는 방식으로 추출하거나 코퍼스라고 하는 공개 데이터베이스를 참조하여 AI 학습에 사용하기 때문에 공격자는 오염 데이터를 삽입할 기회가 발생한다.
유출(Exfiltration)
AI의 모델 그 자체를 훔치거나 특징을 모방하는 방법. AI의 기능을 외부에서 이용할 수 있는 애플리케이션 프로그래밍 인터페이스(API)의 구조를 악용해 입출력을 분석해, 비슷한 모델을 만들어내거나, 보다 일반적으로 알려진 방법으로서 모델 개발자에게 피싱 사기를 시도할 수 있다.
이 모든 수법에 대하여 어떻게 공격이 일어나는지 구체적 묘사와 복수의 가상 시나리오를 덧붙여 해설하고 있습니다. 이러한 방법은 기존 레드 팀의 방법 외에도 실천해 볼 필요가 있다고 합니다.
덧붙여 기존의 레드 팀도 출발점으로서는 나쁘지 않지만, AI에의 공격은 급속하게 복잡해지고 있기 때문에, 가능하면 보안과 AI, 양쪽 모두 전문가와 협력할 수 있는 조직을 만드는 것이 바람직합니다. AI 레드 팀은 기존 레드 팀을 대체하는 것이 아니라 연계하여 활동할 기회도 많습니다.
덧붙여서 이번에 열거한 공격 수법의 대부분은 표적이 되는 시스템이나 기계 학습 모델을 락다운(폐쇄)하는 등 기존의 보안 관리로 리스크를 대폭 저감 할 수 있다고 합니다. 공격의 검출에 대해서도, 대부분은 기존의 방법으로 가능하며, 다만 프롬프트 공격 등에 대해서는 복수의 보안 모델을 계층화하는 등의 대응이 필요하다고 합니다.
관련글
'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글
AI 태풍의 눈 「Hugging Face」가 Google, NVIDIA, Amazon 등에서 3,130억 원을 조달 (0) | 2023.09.06 |
---|---|
"AI가 생성한 각본은 저작으로 보지 않는다" 할리우드 제작 측이 제안, 각본가 측은 불복 (0) | 2023.09.05 |
ChatGPT가 레시피를 작성하고 Midjourney로 라벨 디자인한「AI맥주」 (0) | 2023.09.05 |
Google Docs에 AI가 문장을 수정하는「Proofread」기능을 정식 도입 (0) | 2023.09.05 |
수학에 강한 AI 「WizardMath」가 등장, Meta의 'Llama-2'를 강화 (0) | 2023.09.04 |
Meta가 고성능 영상처리모델 「DINOv2」를 상용 이용도 가능하게 변경 (0) | 2023.09.01 |
AI의 인기로 「.ai」도메인을 가진 카리브해의 작은 섬 「앵귈라」가 연간 수백억을 벌고 있다 (0) | 2023.09.01 |
Microsoft가 AI를 공격하는 전문 조직 'AI 레드팀'의 노하우 공개, 타사에도 설립 호소 (0) | 2023.09.01 |