본문 바로가기
AI · 인공지능/AI 뉴스

해커 및 범죄자들이 모이는 다크웹의 데이터로 트레이닝한 AI 'DarkBERT'

by 두우우부 2023. 5. 19.
반응형


한국의 연구자 팀이 크래커나 사이버 범죄자가 모이는 다크 웹의 데이터만으로 훈련한 다크 웹 특화 모델 「DarkBERT」를 개발했다고 밝혔습니다.

DarkBERT: A Language Model for the Dark Side of the Internet
https://doi.org/10.48550/arXiv.2305.08596

DarkBERT: A Language Model for the Dark Side of the Internet

Recent research has suggested that there are clear differences in the language used in the Dark Web compared to that of the Surface Web. As studies on the Dark Web commonly require textual analysis of the domain, language models specific to the Dark Web ma

arxiv.org


New DarkBert AI was trained using dark web data from hackers and cybercriminals | Tom's Guide

New DarkBert AI was trained using dark web data from hackers and cybercriminals

Researchers turned to the depths of the dark web to train this new language model

www.tomsguide.com



한국과학기술원의 진영진 씨 등은 다크웹 접속에 자주 사용되는 Tor 네트워크를 통해 다크웹을 16일 동안 크롤링하여 다크웹 데이터베이스를 만들었습니다. 진영진 씨는 구축한 데이터를 Meta의 자연언어처리 아키텍처 「RoBERTa」로 처리해, 다크웹 전문 AI 「DarkBERT」를 개발했다고 합니다.

다크웹 데이터로 교육함으로써, DarkBERT는 어두운 웹에서 사용되는 독특한 용어와 고도로 난독화된 메시지를 분석하고 그로부터 유용한 정보를 추출할 수 있다고 합니다. 영진 씨는 DarkBERT를 일반에 공개할 계획은 없다고 합니다만, 연구 목적으로의 사용 요청을 받아들이고 있다고 합니다.



DarkBERT는 제한된 데이터로 훈련되었음에도 불구하고 다른 대규모 언어 모델에 필적하는 능력을 자랑한다고 합니다. DarkBERT는 새로운 AI 모델입니다만, 베이스가 된 것은 2019년에 Facebook의 연구자들이 개발한 「RoBERTa」입니다. RoBERTa는 2018년에 Google이 공개한 자연언어처리모델 「BERT」를 바탕으로 작성된 것으로, 자연언어처리모델의 트레이닝 단계에서의 성능을 개량한 것입니다.

그러나 「RoBERTa」를 참고로 한 진영진 씨는 「RoBERTa」가 출시 당초에는 훈련 부족이었다고 지적, 이번 연구를 통해 "RoBERTa로 더 많은 것을 할 수 있다"는 것을 보여주었습니다.

테크놀로지 미디어 Tom's Guide는 "DarkBERT는 어느 특정 분야에서 훈련되고 보다 전문화된 AI 모델의 미래를 상징하는 걸지도 모릅니다. AI의 인기를 생각하면 앞으로 이러한 방식으로 개발된 비슷한 AI 모델들이 등장해도 이상하지 않을 것입니다."라고 적고 있습니다.

반응형