기업이 보유하고 있는 기밀성이 높은 비즈니스 데이터나 프라이버시 등 보호되어야 할 정보를, 직원들이 마음대로 ChatGPT 등의 대규모 언어 모델(LLM)에 입력한 케이스가 다수 발견되었다고, 데이터 보안 서비스 회사인 Cyberhaven이 지적했습니다.
3.1% of workers have pasted confidential company data into ChatGPT - Cyberhaven
ChatGPT 사용이 비즈니스 분야까지 침식하고 있다고 Cyberhaven은 지적합니다. Cyberhaven의 제품 데이터에 의하면 고객 기업의 8.2%의 직원이 ChatGPT를 직장에서 이용하고 있으며, 6.5%가 ChatGPT에 기업 데이터를 입력한 적이 있다고 합니다.
일부 지식 근로자는 ChatGPT와 같은 AI 도구를 사용하면 생산성이 10배 향상될 것이라고 말하지만, JP 모건과 Verizon과 같은 기업은 기밀 데이터의 유출을 우려하여 직원들의 ChatGPT 사용을 금지했습니다.
OpenAI는 사용자가 ChatGPT에 입력한 데이터를 AI 모델 교육에 사용합니다. 따라서 사용자가 ChatGPT에 개발 중인 소프트웨어의 소스 코드와 환자의 의료 기록 등을 입력하는 것에 대한 보안 우려가 커지고 있습니다. 실제로, Amazon의 변호사는 직원들에게 기밀 데이터를 ChatGPT에 입력하지 말라고 경고했습니다.
직원이 기밀 정보를 ChatGPT에 입력하면 다음과 같은 상황이 발생할 수 있습니다.
・한 기업의 간부가 2023년의 비즈니스 전략을 정리한 문서의 일부를 잘라, ChatGPT에 입력해 프레젠테이션용의 파워 포인트 작성을 의뢰했습니다. 그 후로 다른 사용자가, '기업의 올해 전략적 우선순위는 무엇인가요?'라고 물으면, ChatGPT가 전자의 비즈니스 전략을 기반으로 답할 수 있습니다.
・의사가 환자의 이름과 병리 등의 상세 내용을 입력해, ChatGPT를 통해 환자가 이용하고 있는 보험회사에 송부할 메일의 작성을 의뢰합니다. 그러면, 향후 ChatGPT가 다른 사용자에게 의사가 입력한 정보를 기반으로 답변할 가능성이 있습니다.
또한, ChatGPT는 2023년 3월에 타인의 채팅 이력이 노출되는 버그가 발생했습니다. Cyberhaven은 이러한 버그가 발생했을 때, 의도치 않은 형태로 기밀 정보가 유출될 가능성이 있다고 지적합니다.
기업이 데이터를 보호하는 데 사용하는 기존 보안 소프트웨어는 ChatGPT를 고려하여 설계되지 않았기 때문에 이를 방지할 수 없습니다. JP 모건은 ChatGPT 이용을 금지하고 있지만, "몇 명의 직원이 ChatGPT를 이용하고 있는지"는 확인할 수 없었다고 보도하고 있습니다.
보안 소프트웨어가 ChatGPT로 전송되는 데이터를 보호하기 매우 어려운 이유는 다음과 같습니다.
1: 파일 또는 앱에서 복사하여 붙여 넣기
직원이 회사 데이터를 ChatGPT에 입력할 때, 파일을 업로드하는 대신 콘텐츠를 복사하여 웹 브라우저에 붙여 넣는 형식으로 입력됩니다. 많은 보안 소프트웨어는 기밀 태그가 지정된 파일이 업로드되지 않도록 설계되었지만, 콘텐츠가 파일에서 복사된 후에는 추적할 수 없습니다.
2 : 기밀 데이터에는 인식 가능한 패턴이 포함되지 않음
ChatGPT로 전송되는 기업 데이터에는 보안 도구가 검출할 인식 가능한 패턴(신용 카드 번호 및 주민등록번호 등)이 포함되지 않은 경우가 자주 있습니다. 기존 보안 도구로는 문제 있는 콘텍스트를 인식할 수 없으므로 사용자가 점심 메뉴를 입력했는지, 기업 인수 계획에 대해 입력했는지 구별할 수 없습니다.
Cyberhaven은 자사 제품을 이용하는 클라이언트 기업에서 일하는 약 160만 명의 직원이 ChatGPT를 이용하고 있는지 분석했습니다. 그러자, 지식 근로자의 8.2%가 직장에서 적어도 1회 이상 ChatGPT를 이용하고 있었다는 것이 밝혀졌습니다. 또한 고객 기업 직원의 3.1%가 기밀 데이터를 ChatGPT에 입력했음을 알 수 있습니다. ChatGPT에 대한 액세스를 완전히 차단하는 기업은 증가하고 있지만, 그 사용량은 지수적으로 증가하고 있습니다.
이하의 그래프는 Cyberhaven 제품이 검출한 「직장에서 ChatGPT의 이용을 검출한 횟수」를, 직원 10만 명당 몇 회 검출했는지로 정리한 것.
2022.11.30 ~ 2023.30.17까지의 데이터가 정리되어 있으며, ChatGPT에 대한 이용 제한이 확대되고 있음에도 불구하고, 이용 횟수는 분명히 증가하는 경향이 있습니다.
덧붙여 그래프의 붉은 선은 「ChatGPT에 데이터를 입력한 횟수」이고, 보라색선은 「ChatGPT가 데이터를 출력한 횟수」입니다.
Cyberhaven에 따르면 "ChatGPT에 데이터를 입력한 비율"과 "ChatGPT가 출력한 데이터 활용 비율"은 거의 1 : 2라고 합니다. ChatGPT에 데이터를 입력할 때, 기업의 기밀 데이터를 입력하는 비율은 11% 정도. 그러나, ChatGPT의 이용량이 극적으로 증가하고 있다는 것을 감안하면, 기밀 데이터가 ChatGPT에 입력되는 양은 「제법 많다」고 Cyberhaven은 지적하고 있습니다.
2023.02.26 ~ 03.04까지 1주일 동안
Cyberhaven 제품을 사용하는 사용자 10만 명이 ChatGPT에
기밀 데이터를 입력한 횟수는 199회,
클라이언트 데이터를 입력한 횟수 173회,
소스코드를 입력한 횟수는 159회,
개인정보를 입력한 횟수는 102회,
건강 관련 데이터를 입력한 횟수는 94회,
기업 프로젝트 계획에 관한 데이터를 입력한 횟수는 57회입니다.
Cyberhaven의 하워드 틴 CEO는 ChatGPT와 같은 AI 기반 서비스를 생산성 향상을 위한 도구로 이용하는 직원이 늘어날수록 프라이버시 정보가 유출될 위험이 커진다고 지적합니다. 틴 CEO는 "데이터 보존의 스탠더드가 온프레미스(소프트웨어를 서버에 직접 설치해 쓰는 방식)에서 클라우드로 이행되던 시기가 있었습니다. 그에 이은 변화로 제네레이티브 AI로의 데이터 마이그레이션이 이뤄질 것이라 생각합니다. 그것이 어떻게 일어날지는 정확히 알 수 없지만, 우리는 아직 사전 단계에 있으며, 앞으로가 시작일 것이라고 생각합니다."라고 말하며, 앞으로 더 많은 데이터가 ChatGPT와 같은 제네라티브 AI에 의해 수집될 것이라고 코멘트하였습니다.
또한 법률 사무소인 Seyfarth Shaw의 Karla Grossenbacher 씨는 "애플리케이션을 ChatGPT에 연결하는 소프트웨어 기업이 늘어남에 따라, 대규모 언어 모델은 사용자 및 기업이 인식하는 것보다 훨씬 많은 정보를 수집할 수 있으며, 사용자는 법적 위험에 노출될 수 있습니다."라고 Bloomberg 칼럼에서 언급했습니다.
'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글
무료로 노트북도 실행 가능한 70억 파라미터 채팅봇 「GPT4ALL」 발표 (0) | 2023.04.02 |
---|---|
검열 없는 채팅 AI 「FreedomGPT」는 안전 필터가 없다 (0) | 2023.04.02 |
오픈 소스 ChatGPT 「YakGPT」등장, 음성 입력도 가능 (0) | 2023.04.01 |
이미지 생성 AI 「Midjourney」가 '악용'을 이유로 무료 평가판 정지 (0) | 2023.03.31 |
유로폴이 ChatGPT 등의 AI가 왜 범죄에 이용되기 쉬운지 정리 (0) | 2023.03.31 |
「컨트롤의 상실」을 우려로, GPT-4를 넘는 AI의 개발 정지를 즉각 요구하는 공개 서한 (0) | 2023.03.31 |
'ChatGPT' 등의 AI는 세계 GDP를 7% 증가시키고 3억 명의 고용에 영향을 미친다는 보고서 (0) | 2023.03.31 |
무료로 문장에서 동영상을 생성하는 AI 「Text2Video-Zero」리뷰 (0) | 2023.03.31 |