본문 바로가기
AI · 인공지능/AI 뉴스

ChatGPT에게 단어를 무한 반복시켜 교육에 사용된 방대한 텍스트를 탈취하는 공격 기법이 등장

by 두우우부 2023. 12. 1.
반응형

 
 
ChatGPT 교육에는 인터넷에서 얻은 데이터가 사용되지만 구체적인 데이터 내용은 비공개입니다. "같은 단어를 반복하라"라는 간단한 명령으로 ChatGPT의 트레이닝 데이터를 출력시키는 데 성공했다고 Google 연구원들이 발표했습니다.

Extracting Training Data from ChatGPT

Extracting Training Data from ChatGPT

and prepared and issued by Edison for publication globally. All information used in the publication of this report has been compiled from publicly available sources that are believed to be reliable, however we do not guarantee the accuracy or completeness

not-just-memorization.github.io


[2311.17035] Scalable Extraction of Training Data from (Production) Language Models
https://arxiv.org/abs/2311.17035

기계 학습 모델의 트레이닝에 사용한 데이터가 거의 그대로 출력되어 버리는 현상은 이전부터 있어, 예로 「Stable Diffusion」에서는 아래 그림과 같이 훈련 데이터에 포함된 그 사람의 사진을 거의 그대로 출력할 수 있었습니다.


그러나 이러한 기존의 공격 방법으로는 복원할 수 있는 트레이닝 데이터 수가 한정되어 있어, Stable Diffusion은 수백만의 이미지로 트레이닝되고 있는 것에 대해 추출할 수 있었던 것은 약 100건에 불과합니다. 그 외, 모델이 실제 제품이 아닌 연구용 데모이거나, 모델 전체가 로컬에 존재하고 있어 직접 입출력을 실시할 수 있거나, 데이터 추출에 대한 대책을 원래 실시하지 않았던 상황이었기 때문에, 훈련 데이터의 추출 공격이 성공해도 그다지 놀라운 일은 아니었습니다.

한편, ChatGPT는 OpenAI의 API 경유로만 액세스 할 수 있고, 데이터 추출 공격에 대한 대책도 이뤄지고 있는 것으로 보입니다만, 이번에 Google의 연구원들은 이러한 조치를 회피하고 교육 데이터를 출력하는 방법을 발견했습니다. 

이 공격은 "특정 단어를 반복해라"와 같이 ChatGPT에 명령하는 단순한 방법으로, 잠시 같은 단어를 반복한 후에 훈련에 사용된 데이터가 출력되게 된다는 것.



기존의 공격 기법을 Pythia나 LLAMA, InstructGPT 등의 모델에 대해 실시하면 이러한 모델이 트레이닝 데이터를 출력할 확률은 1% 미만으로, ChatGPT에 이르면 거의 0%입니다. 한편, 이번 공격 기법을 이용하면 3% 근처의 확률로 트레이닝 데이터를 출력시킬 수 있었습니다.


연구팀은 ChatGPT의 출력이 무작위로 생성된 것이 아니라 실제 교육 데이터임을 확인하기 위해 인터넷에서 수집한 약 10TB의 데이터와 비교했습니다. 아래 그림은 그 비교 결과의 일부로, ChatGPT의 출력 가운데 인터넷상의 데이터와 일치하는 곳이 붉게 표시되어 있어, 출력 속에 트레이닝 데이터가 들어있다는 것을 확인했습니다.


연구팀은 2023년 7월 11일에 "같은 단어를 반복함으로써 이상한 출력이 이루어진다"는 현상을 깨닫고 7월 31일부터 분석을 시작했습니다. 분석 결과, 트레이닝 데이터가 출력되고 있다는 것을 깨달은 연구원들은 8월 30일에 OpenAI에 논문의 초고를 송부해, 공격의 상세에 대해 논의했습니다. 그리고 90일의 유예를 거쳐 11월 28일에 논문 공개에 이르렀다는 것입니다.

반응형