한국의 연구자 팀이 크래커나 사이버 범죄자가 모이는 다크 웹의 데이터만으로 훈련한 다크 웹 특화 모델 「DarkBERT」를 개발했다고 밝혔습니다.
DarkBERT: A Language Model for the Dark Side of the Internet
https://doi.org/10.48550/arXiv.2305.08596
New DarkBert AI was trained using dark web data from hackers and cybercriminals | Tom's Guide
한국과학기술원의 진영진 씨 등은 다크웹 접속에 자주 사용되는 Tor 네트워크를 통해 다크웹을 16일 동안 크롤링하여 다크웹 데이터베이스를 만들었습니다. 진영진 씨는 구축한 데이터를 Meta의 자연언어처리 아키텍처 「RoBERTa」로 처리해, 다크웹 전문 AI 「DarkBERT」를 개발했다고 합니다.
다크웹 데이터로 교육함으로써, DarkBERT는 어두운 웹에서 사용되는 독특한 용어와 고도로 난독화된 메시지를 분석하고 그로부터 유용한 정보를 추출할 수 있다고 합니다. 영진 씨는 DarkBERT를 일반에 공개할 계획은 없다고 합니다만, 연구 목적으로의 사용 요청을 받아들이고 있다고 합니다.
DarkBERT는 제한된 데이터로 훈련되었음에도 불구하고 다른 대규모 언어 모델에 필적하는 능력을 자랑한다고 합니다. DarkBERT는 새로운 AI 모델입니다만, 베이스가 된 것은 2019년에 Facebook의 연구자들이 개발한 「RoBERTa」입니다. RoBERTa는 2018년에 Google이 공개한 자연언어처리모델 「BERT」를 바탕으로 작성된 것으로, 자연언어처리모델의 트레이닝 단계에서의 성능을 개량한 것입니다.
그러나 「RoBERTa」를 참고로 한 진영진 씨는 「RoBERTa」가 출시 당초에는 훈련 부족이었다고 지적, 이번 연구를 통해 "RoBERTa로 더 많은 것을 할 수 있다"는 것을 보여주었습니다.
테크놀로지 미디어 Tom's Guide는 "DarkBERT는 어느 특정 분야에서 훈련되고 보다 전문화된 AI 모델의 미래를 상징하는 걸지도 모릅니다. AI의 인기를 생각하면 앞으로 이러한 방식으로 개발된 비슷한 AI 모델들이 등장해도 이상하지 않을 것입니다."라고 적고 있습니다.
'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글
지배자를 자처하며 사악한 대답을 돌려주는 대화형 AI 「BratGPT」 가 등장 (8) | 2023.05.22 |
---|---|
ChatGPT 등 대화형 AI의 기초가 되는 「Attention」을 가시화한 「Attention Viz」 (10) | 2023.05.22 |
Google이 대규모 언어 모델 'PaLM 2'의 기술 보고서를 공개했지만, 중요 정보는 기재되지 않음 (4) | 2023.05.22 |
ChatGPT는 고대 메소포타미아 문명에서 사용된 언어를 번역할 수 있는가? (4) | 2023.05.19 |
오픈인가, 폐쇄인가? Stability AI가 점치는 생성 AI의 미래 (4) | 2023.05.18 |
Amazon이 ChatGPT와 같은 AI를 탑재한 검색엔진 구축 중 (13) | 2023.05.17 |
테트리스를 이용한 실험에서 사람은 "AI에 의한 불공평한 결정"에 민감하게 반응한다고 (8) | 2023.05.17 |
'RedPajama' 개발사인 Together가 2000만 달러의 자금 조달에 성공 (9) | 2023.05.17 |