본문 바로가기
AI · 인공지능/AI 뉴스

Microsoft의 AI 연구 부서가 Azure를 통해 38TB의 내부 기밀 데이터를 유출

by 두우우부 2023. 9. 20.
반응형

 
 
Microsoft의 AI 연구 부서가 2020년 7월에 오픈 소스 AI 학습 모델을 GitHub의 리포지토리에 공개했을 때, 38TB에 이르는 기밀 데이터를 유출하고 있었음을 클라우드 보안 기업인 Wiz가 공표했습니다. 민감 데이터로는 비밀번호, 개인 키, 30,000개가 넘는 Microsoft Teams의 내부 메시지도 포함되어 있었습니다.

38TB of data accidentally exposed by Microsoft AI researchers | Wiz Blog

38TB of data accidentally exposed by Microsoft AI researchers  | Wiz Blog

Wiz Research found a data exposure incident on Microsoft’s AI GitHub repository, including over 30,000 internal Microsoft Teams messages – all caused by one misconfigured SAS token

www.wiz.io


Wiz 조사팀은 클라우드에서 호스팅 되는 데이터로 유출이 없는지 조사하는 동안 Microsoft의 AI 연구 부서가 공개하는 오픈 소스 이미지 인식 AI 모델의 소스 코드를 공개하는 저장소를 발견했습니다.
 
파일 공유는 Microsoft Azure의 SAS(Shared Access Signature) 토큰이라는 기능을 사용하여 수행되었습니다. 그러나 이 토큰은 읽기 전용이 아닌 전체 제어 권한을 허용하도록 구성되었습니다. 즉, 악의적인 공격자가 액세스 하는 경우 Azure 스토리지 계정의 모든 파일을 탐색할 수 있을 뿐만 아니라 기존 파일을 삭제하거나 덮어쓸 수 있습니다.

그리고 발견된 리포지토리에 스토리지 계정에 대한 링크가 포함되어 있음을 확인했습니다. 이 Azure 스토리지는 AI 모델 소스 코드 외에도 Microsoft 직원이 소유한 PC 백업을 포함한 30TB 기밀 정보에 액세스 할 수 있음을 확인했습니다.

 

스토리지에 있던 백업에는 Microsoft 서비스에 대한 암호와 개인 키가 포함되었습니다.

 

게다가 Microsoft의 직원 359명으로부터의 3만 건이 넘는 Microsoft Teams 메시지도 포함되어 있는 것으로 판명되었습니다.

 

Wiz는 2023년 6월 22일에 조사 결과를 Microsoft Security Response Center에 보고하였고, 2023년 6월 24일에는 SAS 토큰이 취소됨으로써 Azure의 스토리지 계정에 대한 외부 액세스가 모두 차단되었습니다.
 
Microsoft는 "이번 사건으로 인해 고객 데이터가 유출된 기록은 없으며 다른 내부 서비스가 위험에 처하지 않았다."라고 보고했습니다.
 
AI 모델은 TensorFlow 라이브러리에 의해 생성된 ckpt 형식으로, Python의 Pickle 모듈로 포맷되어 있기 때문에 설계상 임의의 코드를 실행할 수 있습니다. 즉, 공격자가 이 스토리지 계정의 모든 AI 모델에 악성 코드를 삽입했을 수 있으며 Microsoft의 GitHub 저장소를 신뢰하는 모든 사용자가 해당 코드의 영향을 받을 수 있다고 Wiz는 지적했습니다.
 
Wiz는 "SAS 토큰은 모니터링과 거버넌스가 부족하기 때문에 보안 위험이 있으며, 그 사용은 가능한 한 제한되어야 합니다.  Microsoft는 Azure 포털 내에서 토큰을 중앙에서 관리하는 방법을 제공하지 않기 때문에 이러한 토큰을 추적하는 것은 매우 어렵습니다. 게다가 이러한 토큰은 유효기한이 제한되어 있지 않습니다. 따라서 SAS 토큰을 외부 공유에 사용하는 것은 안전하지 않으며 피해야 합니다."라고 말했습니다.


SAS 토큰을 통해 38TB의 개인 데이터가 실수로 누설 된 경위



Wiz의 공동 창립자이자이자 CTO(최고기술책임자)인 아미 루트웍은 보안 관련 뉴스 사이트인 BleepingComputer에서 "AI는 기술 기업에 큰 가능성을 가져다줍니다. 새로운 AI 솔루션을 프로덕션 환경에 도입하기 위해 경쟁하는 동안 대량의 데이터에는 추가적인 보안 검사와 보호 수단이 필요합니다. 오픈소스 프로젝트로 공개하여 공동작업을 할 필요가 있기 때문에 이번과 같은 사례를 감시하고 인시던트를 회피하는 것은 대단히 어려운 작업이 되고 있습니다."라고 코멘트했습니다.


AI 모델을 오픈소스로 공개하면 뭐다?

공격당하기 쉽다.

반응형