본문 바로가기
AI · 인공지능/AI 뉴스

「☆→@로 변경」등의 메일 주소 난독화 수법은 ChatGPT로 간단하게 돌파 가능

by 두우우부 2023. 11. 13.
반응형

 
 
SNS의 프로필란 등에 메일 주소를 그대로 노출시키면, 스크래핑에 의해 수집되어 스팸 메일을 받는 등의 피해를 입기 때문에, 「abc123☆mail.com」처럼 @마크를 다른 문자로 변경한 난독화가 자주 사용되고 있습니다. 그러나 이 기법은 ChatGPT로 쉽게 무력화될 수 있다고 AI 개발자가 지적했습니다.

Email Obfuscation Rendered (almost) Ineffective Against ChatGPT

Email Obfuscation Rendered (almost) Ineffective Against ChatGPT

Over the years, techniques for email obfuscation, like modifying characters (for instance, replacing '@' with '(at)'), have been utilized to prevent automated programs from easily collecting email addresses. While these methods were effective against basic

bulkninja.notion.site


AI 툴 「BulkNinja」를 개발하고 있는 아르노 노먼 씨는 소셜 뉴스 사이트 Hacker News의「 Ask HN: Who is hiring 」를 사용하면 메일 주소의 난독화를 무의미하게 할 수 있다는 것을 깨달았습니다.

「Ask HN: Who is hiring?」에서는, 다양한 기업이나 스타트업이 구인 광고를 내거나, 반대로 구직 중인 사람이 자신을 PR 하고 있어, 현시점에서 총 4만 8968건이 투고되고 있습니다만, 서식이 통일되지 않아, 방대한 정보의 정리는 엄청나게 힘든 작업입니다.

이러한 데이터를 Google Sheets에 모으려고 했던 노먼은 "난독화된 연락처를 추출하는 것은 어려울 것"이라고 예상했지만, ChatGPT는 이메일 주소의 문자가 다른 문자로 바뀌어도 문제없이 연락처를 수집했습니다.



「치환법」 이외에, 노먼 씨가 프로젝트 중에서 찾아 인상 깊다고 느낀 난독화 테크닉은 이하의 3개입니다.

◆ 1:정보의 분할
이것은, 메일 주소의 일부를 「john@회사명 도메인」이라고 표기하여, 투고에 기재된 사명과 조합하지 않으면 메일 주소를 모르게 한다는 것입니다. 이 방법은 상당히 효과적이었지만, "think step by step(단계적으로 생각해)"라는 프롬프트를 사용하는 것만으로도 무력화되었습니다.

◆ 2:간접적인 게재
이것은, 메일 주소를 직접 쓰지 않고, 「문의는 구인 정보 페이지의 메일 주소로 부탁합니다」라는 문장을 더해 해당 페이지에 액세스 하지 않으면 메일 주소를 얻을 수 없게 하는 것입니다. 노먼 씨의 코드는 브라우징 기능을 가지고 있지 않았기 때문에, 이 방법은 여전히 유효했다는 것.

◆ 3:간접적인 게재, 두 번째 방법
위의 방법과 비슷하게, 「메일 주소는 나의 프로필에 있습니다」라고 기재해, 사용자 프로필을 참조시키는 방법입니다. 앞에서 설명한 이유로 이 방법도 효과적이었습니다.

생성 AI를 사용하여 이메일 주소를 Google Sheets에 정리하는 데 성공한 노먼 씨입니다만, 최종적으로 난독화된 주소는 데이터베이스에서 제외하기로 했습니다. 일부러 난독화했다는 것은, 그 사람은 메일 주소를 수집되고 싶지 않다고 생각하고 있는 것이 분명하기 때문입니다.



이 경험에 대해 노먼은 "요약하면, ChatGPT와 같은 고급 언어 모델 앞에서 문자 대체와 같은 전통적인 전자 메일 난독화 기법은 전혀 효과가 없습니다. 이러한 AI 모델은 다양한 난독화 기술을 해독하는 뛰어난 능력을 가지고 있기 때문에, 자동 수집으로부터 전자 메일의 주소를 보호하기 원한다면 메일 주소를 여러 출처에 나누어 게재하여 더욱 견고하게 보호할 수 있을 것입니다."라고 코멘트.

노먼 씨의 기사를 다룬 Hacker News의 스레드는 "ChatGPT에서 이메일 주소를 추출하는 데 필요한 비용이 이메일을 스크래핑하여 얻는 수익을 웃돌고 있기 때문에 이 문제에 영향을 미치지 않습니다."라고 지적하는 투고나, "로컬 머신에서 움직이는 오픈 소스 모델도 있으므로 운용 코스트는 낮게 억제할 수 있기 때문에 역시 영향을 미칠 수 있다고" 반론하는 주장도 있었습니다.

반응형