ChatGPT와 대규모 언어 모델에서 숨겨진 정보와 일부 기능을 훔치는 공격 기술이 등장

OpenAI의 채팅 AI인 ChatGPT나 Google이 개발하는 대규모 언어 모델(LLM), Palm-2 등에서 기밀 정보나 일부 기능을 훔칠 수 있는 '모델 절도 공격(model-stealing attack)'을 , AI 연구원이 발표했습니다.

[2403.06634] Stealing Part of a Production Language Model
https://arxiv.org/abs/2403.06634

「모델 절도 공격」이라고 불리는, AI나 LLM의 「본래는 숨겨진 상태의 기밀 정보」를 훔치는 기법을 고안한 것은, Google DeepMind의 니콜라스 칼리니 씨 등으로 이루어진 연구팀입니다. 그 밖에도 취리히 공과대학과 워싱턴대학, Google Research, 코넬대학, OpenAI의 개발자가 이 연구에 종사하고 있습니다.

연구팀이 "모델 절도 공격"의 존재를 처음 발견한 것은 2020년이지만, 2023년 10월에 실제로 가동하고 있는 언어 모델에서 사용되고 있는 API상에서 이 공격 기법이 유효하다고 밝혀질 때까지, 모델 절도 공격을 이용한 공격이 실현 가능할 것이라고는 생각되지 않았다고 합니다.

연구팀은 2023년 11월에 모델 절도 공격의 개념 실증을 실시하고, 같은 해 12월에 이 공격 기법에 취약한 것으로 확인된 복수의 서비스에 대한 정보를 공개하여, 각 서비스가 취약점을 수정할 수 있는 유예를 확보하고 있습니다. 또한 모델 절도 공격에 취약하지 않은 여러 인기 서비스에 대해서도 공격 세부정보를 공유했다고 합니다.

이 통지를 받고, Google은 취약성에 대응하기 위한 업데이트를 실시, OpenAI는 2024년 3월 3일에 공격에 대한 업데이트를 이미 실시했기 때문에, 현지 시간인 2024년 3월 11일에 모델 절도 공격에 관한 논문이 공개되기에 이른 모양입니다.

연구팀은 일부 화이트 박스 모델에 대해 모델 절도 공격을 하고 모델 절도 공격이 실제로 기능하다는 것을 검증. 그 후, OpenAI의 LLM인 GPT-3 중에서도 가장 빠른 모델인 Ada나, 단순한 태스크를 신속하고 저비용으로 실시할 수 있는 모델의 Babbage등에 대해서 모델 절도 공격을 실시해, 각 모델로부터 최종 레이어 전체를 훔치는 데 성공했습니다.

또한 'GPT-3.5-turbo-instruct'와 'GPT-3.5-turbo-chat'에 대해서도 모델 절도 공격이 유효하다는 것을 연구팀은 확인했습니다. 그러나 연구팀은 책임 있는 공개 협정의 일환으로 이러한 AI 모델의 크기에 대한 정보를 밝히지 않았습니다. 그러나 각 모델에서 훔친 숨겨진 레이어의 크기를 OpenAI에 확인하여 훔친 정보가 정확한 것으로 확인되었습니다.

지금까지 AI 전문가 사이에서도 모델 절도 공격은 실용적인 것이 아닌 것으로 여겨지고 있었습니다만, 이번 논문에 의해 모델 절도 공격을 이용하여 AI 모델에서 일부 기능을 훔치거나 모델의 일부를 훔칠 수 있다는 것이 밝혀졌습니다. 하지만 모델을 훔친다 해도, 독자적인 모델을 훈련하는 것보다 비용 효율적이지는 않으며, 모델을 거의 완전히 복원하는 모델 절도 공격은 하기도 어렵다고 연구팀은 지적했습니다.

연구팀은 모델 절도 공격이 성공한 이유에 대해 "소수의 모델 프로바이더가 Logit bias(로짓 바이어스) 파라미터를 이용 가능하게 했기 때문"이라고 지적하고 있으며, 이런 종류의 API를 제공하지 않는 모델 프로바이더로서는 Anthropic을 들 수 있습니다. API 설계에 있어서 아주 작은 선택에 의해, AI 모델에 대한 공격이 가능해져 버린다는 이번 사례로부터, 「보안을 염두에 둔 API 설계가 필요하다」라고 연구팀은 지적했습니다.

연구팀은 모델 절도 공격보다는 실용적인 AI 모델을 타깃으로 한 공격 수법이 향후 등장하게 될 것이라고 지적하고 있습니다.

흠... 아직 알려지지 않은 취약점이 더 있을 텐데...

저작자표시 비영리 변경금지

'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글

일론 머스크의「Grok」이 마침내 오픈 소스화, 다른 오픈 소스 모델보다 훨씬 뛰어나다는 지적 (66)	2024.03.19
OpenAI 등의 AI기업으로부터 독립하여 연구가능한 '세이프하버' 요구에 250명이 넘는 연구원들이 서명 (59)	2024.03.15
기계학습으로 성대 손상이나 마비가 있는 사람도 말할 수 있게 되는「목 패치」개발 (65)	2024.03.14
일론 머스크의 AI 'Grok' 오픈 소스화, OpenAI는 ClosedAI로 사명 변경? (63)	2024.03.14
13세와 14세 중학생이 동급생의 딥페이크 누드 이미지를 생성, 공유하여 기소된 사건이 발생 (12)	2024.03.13
AI 구조나 개발 기법에 대하여 일러스트와 함께 알기 쉽게 해설하는 Amazon의 무료 교재「MLU-Explain」 (60)	2024.03.13
AI 채팅봇이 생성할 수 없는 대답을 '아스키 아트'로 대답시킬 수 있다는 보고 (59)	2024.03.13
AI와 얼굴 인증을 통합한 '인간 사냥 AI 드론'이 불과 몇 시간만에 완성 (59)	2024.03.13

두우우부

ChatGPT와 대규모 언어 모델에서 숨겨진 정보와 일부 기능을 훔치는 공격 기술이 등장

'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글

티스토리툴바

ChatGPT와 대규모 언어 모델에서 숨겨진 정보와 일부 기능을 훔치는 공격 기술이 등장

'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글

관련글

티스토리툴바