본문 바로가기
AI · 인공지능/AI 뉴스

ChatGPT와 대규모 언어 모델에서 숨겨진 정보와 일부 기능을 훔치는 공격 기술이 등장

by 두우우부 2024. 3. 14.
반응형

 
 
OpenAI의 채팅 AI인 ChatGPT나 Google이 개발하는 대규모 언어 모델(LLM), Palm-2 등에서 기밀 정보나 일부 기능을 훔칠 수 있는 '모델 절도 공격(model-stealing attack)'을 , AI 연구원이 발표했습니다.

[2403.06634] Stealing Part of a Production Language Model
https://arxiv.org/abs/2403.06634



「모델 절도 공격」이라고 불리는, AI나 LLM의 「본래는 숨겨진 상태의 기밀 정보」를 훔치는 기법을 고안한 것은, Google DeepMind의 니콜라스 칼리니 씨 등으로 이루어진 연구팀입니다. 그 밖에도 취리히 공과대학과 워싱턴대학, Google Research, 코넬대학, OpenAI의 개발자가 이 연구에 종사하고 있습니다.

연구팀이 "모델 절도 공격"의 존재를 처음 발견한 것은 2020년이지만, 2023년 10월에 실제로 가동하고 있는 언어 모델에서 사용되고 있는 API상에서 이 공격 기법이 유효하다고 밝혀질 때까지, 모델 절도 공격을 이용한 공격이 실현 가능할 것이라고는 생각되지 않았다고 합니다.

연구팀은 2023년 11월에 모델 절도 공격의 개념 실증을 실시하고, 같은 해 12월에 이 공격 기법에 취약한 것으로 확인된 복수의 서비스에 대한 정보를 공개하여, 각 서비스가 취약점을 수정할 수 있는 유예를 확보하고 있습니다. 또한 모델 절도 공격에 취약하지 않은 여러 인기 서비스에 대해서도 공격 세부정보를 공유했다고 합니다.

이 통지를 받고, Google은 취약성에 대응하기 위한 업데이트를 실시, OpenAI는 2024년 3월 3일에 공격에 대한 업데이트를 이미 실시했기 때문에, 현지 시간인 2024년 3월 11일에 모델 절도 공격에 관한 논문이 공개되기에 이른 모양입니다.



연구팀은 일부 화이트 박스 모델에 대해 모델 절도 공격을 하고 모델 절도 공격이 실제로 기능하다는 것을 검증. 그 후, OpenAI의 LLM인 GPT-3 중에서도 가장 빠른 모델인 Ada나, 단순한 태스크를 신속하고 저비용으로 실시할 수 있는 모델의 Babbage등에 대해서 모델 절도 공격을 실시해, 각 모델로부터 최종 레이어 전체를 훔치는 데 성공했습니다.

또한 'GPT-3.5-turbo-instruct'와 'GPT-3.5-turbo-chat'에 대해서도 모델 절도 공격이 유효하다는 것을 연구팀은 확인했습니다. 그러나 연구팀은 책임 있는 공개 협정의 일환으로 이러한 AI 모델의 크기에 대한 정보를 밝히지 않았습니다. 그러나 각 모델에서 훔친 숨겨진 레이어의 크기를 OpenAI에 확인하여 훔친 정보가 정확한 것으로 확인되었습니다.

지금까지 AI 전문가 사이에서도 모델 절도 공격은 실용적인 것이 아닌 것으로 여겨지고 있었습니다만, 이번 논문에 의해 모델 절도 공격을 이용하여 AI 모델에서 일부 기능을 훔치거나 모델의 일부를 훔칠 수 있다는 것이 밝혀졌습니다. 하지만 모델을 훔친다 해도, 독자적인 모델을 훈련하는 것보다 비용 효율적이지는 않으며, 모델을 거의 완전히 복원하는 모델 절도 공격은 하기도 어렵다고 연구팀은 지적했습니다.



연구팀은 모델 절도 공격이 성공한 이유에 대해 "소수의 모델 프로바이더가 Logit bias(로짓 바이어스) 파라미터를 이용 가능하게 했기 때문"이라고 지적하고 있으며, 이런 종류의 API를 제공하지 않는 모델 프로바이더로서는 Anthropic을 들 수 있습니다. API 설계에 있어서 아주 작은 선택에 의해, AI 모델에 대한 공격이 가능해져 버린다는 이번 사례로부터, 「보안을 염두에 둔 API 설계가 필요하다」라고 연구팀은 지적했습니다.

연구팀은 모델 절도 공격보다는 실용적인 AI 모델을 타깃으로 한 공격 수법이 향후 등장하게 될 것이라고 지적하고 있습니다.

흠... 아직 알려지지 않은 취약점이 더 있을 텐데...

반응형