본문 바로가기
AI · 인공지능/AI 칼럼

AI는 트윗에서 사용자 위치를 특정할 수 있는가?

by 두우우부 2020. 1. 28.
반응형

3개의 요점

✔️ 트윗에서 사용자 위치를 예측

✔️ Twitter의 메타 데이터와 국가, 도시의 계층성을 고려한 모델을 제안

✔️ 기존 기술에 비해 높은 성능으로 사용자 위치를 예측

A Hierarchical Location Prediction Neural Network for Twitter User Geolocation
Binxuan Huang, Kathleen M. Carley. EMNLP 2019

A Hierarchical Location Prediction Neural Network for Twitter User.pdf
0.46MB

사용자가 어디에 있는지에 대한 정보, 즉 위치정보는 효과적인 마케팅과 재해시의 피해상황 확인 등 여러모로 중요한 정보입니다. 서울에 살고 있는 사용자라면 서울 부근의 트렌드를 고려한 마케팅을 실시하는 것으로, 효율적으로 사용자에게 어필할 수 있습니다. 또한 재해시 피해 지역의 사용자 화면에 피난 정보를 표시하는 방법으로 긴급정보의 전달을 원활하게 할 수 있습니다.

 

한편, 위치정보는 중요한 개인 정보이며, 이용자로서는 가능한 한 공개하고 싶지 않은 것이라 할 수 있습니다. 서비스 운영자라면, IP주소 등의 정보를 취득하고 대략적인 위치 정보를 확인할 수 있지만, 사용자의 위치 정보를 활용하고자 하는 사람들의 대부분은 이러한 민감정보에 액세스 할 수 없습니다. 따라서 사용자가 평소 SNS에 올리는 게시글로부터 위치를 예측하는 기술이 요구되고 있습니다.

 

사용자가 게시한 텍스트에서 사용자의 특성(여기서는 위치 정보)을 예측하는 연구는 자연 언어 처리 분야에서 널리 다루어지고 있습니다. 여기서는 자연 언어 처리의 유명한 국제 학회인 EMNLP2019에서 발표된 논문을 통해 Twitter 게시글로부터 사용자의 위치를 예측하는 경우를 소개합니다.

 

 

Twitter의 프로필은 별 도움이 안 된다

마케팅 등을 목적으로 Twitter 사용자의 위치 정보를 취하려고 할 때, 프로필의 위치 기입란을 이용하는 방법을 생각할 수 있습니다. Facebook 등의 실명 SNS의 경우 다른 사용자와 교류하기 위해 적극적으로 정확한 위치 정보를 공개하고 있습니다.

 

그러나 Twitter 같이 익명 문화가 뿌리내린 SNS 사용자는 개인을 특정할 수 있는 정보를 공개하지 않는 경향이 강합니다. 특히 Twitter의 프로필은 자유기술 방식이기 때문에 현실에서 지리 정보와는 전혀 관계가 없는 단어를 사용하는 사람이 많습니다. 따라서 단순히 Twitter의 프로필 정보만을 이용하여 사용자 위치 정보를 예측하는 것은 곤란하다고 할 수 있습니다.

 

Twitter의 게시글은 GPS 위치정보를 추가할 수 있지만, 익명성을 선호하는 사용자 대부분이 이 기능을 사용하지 않습니다. 그래서 Twitter에서 공개된 프로필 정보 및 게시물을 종합적으로 고려하여 사용자 위치를 예측하는 기술이 관심을 모으고 있습니다.

 

트윗에서 사용자의 위치를 예측

트윗과 사용자 정보를 활용하는 신경망

 

본 논문에서는 Twitter에서 이용 가능한 정보를 종합적으로 고려하여 사용자의 위치 정보를 예측하는 신경망을 제안하고 있습니다. 위 그림은 제안된 기법의 모습을 보여 주며 왼쪽에 Twitter에서 이용 가능한 정보의 입력, 오른쪽에 위치 정보(국가 및 도시)가 출력되고 있습니다.

 

제안된 방법은 최근 게시된 T라는 트윗에서 자기소개(Personal description), 위치(Profile Location), 사용자 이름(Name), 언어(Lang), 시간대(Time zone), 멘션 정보(Network)를 활용하여 사용자의 정확한 위치정보 예측을 시도합니다. 여기서 '위치'는 자유 기술 방식이기 때문에, 상술한 대로 많은 노이즈를 포함할 수 있습니다.

 

사용 언어 및 시간대는 유한한 개수의 라벨로 표현할 수 있으므로 각 요소에 대응하는 임베디드 표현을 학습할 수 있습니다. 예를 들어 언어라면, 한국어 · 영어 · 중국어 등을 지원하는 벡터를 제공하고 이를 학습함으로써 각각의 신원을 표현합니다.

 

멘션 정보는 사용자가 어떤 사용자에게 응답(멘션)했는가 하는 정보를 구축합니다. 이것은 단순히 팔로워들의 관계를 사용하는 것보다 유효하다고 되어 있습니다. 멘션 정보는 네트워크, 즉 그래프 구조로 되어있기 때문에 그래프를 끼워넣기 위한 방법인 LINE(Large-scale Information Network Embedding)을 사용하여 학습된 벡터를 이용합니다.

 

LINE | Proceedings of the 24th International Conference on World Wide Web

ABSTRACT This paper studies the problem of embedding very large information networks into low-dimensional vector spaces, which is useful in many tasks such as visualization, node classification, and link prediction. Most existing graph embedding methods do

dl.acm.org

트윗, 자기소개, 위치, 이름 등은 누구나 작성할 수 있지만, Twitter에서는 특수 문자나 외계어 표현이 많기 때문에 간단한 단어까지도 미지의 언어가 많아 정보가 누락되는 경우가 많습니다. 제안된 방법은 문자 정보에 대해 합성곱 신경망을 이용하여 이 문제에 대처하고, 외계어라 할지라도 정보를 잃지 않고 벡터로 인코딩합니다. 인코딩 된 정보에 대해 BiLSTM과 단어 레벨의 검사기구를 이용하여 신원정보를 보다 풍부하게 표현할 수 있도록 설계하고 있습니다.

 

 

마지막으로, 이 벡터로 표현된 7개의 신원정보를 정리해 Transformer로 인코딩하여 사용자의 위치정보인 국가와 도시를 예측합니다.

 

국가와 도시의 계층을 활용

국가와 도시의 예측은 분류 문제로 해결할 수 있습니다. 위 그림의 오른쪽 출력 부분에서 알 수 있듯이 제안된 방법은 국가와 도시를 개별적으로 예측하고 있습니다. 예를 들어 그림 오른쪽 아래 Transformer의 계산 결과는 '미국',  '한국'등 세계에 존재하는 국가에 대응하는 라벨에서 하나를 예측하고, 그림 오른쪽의 Transformer의 계산 결과는 "워싱턴 DC", "서울" 등 세계의 도시에 대응하는 라벨 하나를 예측합니다.

 

이 두 Transformer가 각각 독립적으로 라벨을 출력하는 구조이면, 국가 라벨로 '미국'이 예상되고 있음에도 불구하고, 도시 라벨은 '서울'이 예측되어 버릴 수 있습니다. 제안된 방법은 이를 방지하기 위해 국가와 도시의 계층성을 고려한 도시 라벨을 예측할 수 있는 연구를 더하고 있습니다.

 

구체적으로는 먼저 국가 라벨을 예측하고, 예측된 국가에 포함된 도시의 확률이 높아지도록 도시 라벨의 분포를 조정하는 것으로 계층을 고려한 예측을 제공합니다. 예를 들어 국가 라벨로 '한국'이 선정되었을 때, 도시 라벨의 분포 중 '서울', '부산' 등의 라벨 확률이 높아집니다. '워싱턴', '런던' 등의 라벨은 확률이 낮아지는 조정을 실시합니다.

 

 

실험 및 결과

제안된 방법을 평가하기 위해 실제 Twitter에서 생성된 3개의 데이터 세트로 실험을 실시합니다.

 

Twitter-US는 사용자의 위치가 북미에 한정된 데이터 세트이고, Twitter-World는 전 세계 사용자가 포함된 데이터 세트로 위에서 상술했듯이 위치정보 라벨 태그는 사용하지 않고 있습니다. WNUT는 전 세계 사용자를 대상으로 한 대규모 데이터 세트로 노이즈가 많은 텍스트를 대상으로 한 워크숍(2016 The 2nd Workshop on Noisy User-generated Text W-NUT)에서 사용한 것입니다.

 

COLING 2016 Workshop on Noisy User-generated Text (W-NUT)

2016 The 2nd Workshop on Noisy User-generated Text (W-NUT) December 11 2016, Osaka, Japan (last year at ACL) We have received 27 main workshop submissions! We look forward to seeing you at COLING! Best papers: Veracity Computing from Lexical Cues and Perce

noisy-text.github.io

아래 표는 각 데이터 세트의 실험 결과를 보여줍니다. 본 논문에서 제안된 방법은 'HLPNN'으로 표기되어 있으며, 트윗 정보(Text), 프로필 및 시간대의 메타 정보(Meta), 멘션 정보(Net) 등 각각의 신원에 대하여 모델별 비교를 보여주고 있습니다. 평가는 Acc@166 지표가 이용되고 있으며, 이는 예측한 라벨이 정답 도시의 반경 161km(100 마일) 이내이면 정답으로 간주하는 지표입니다.

 

표에서 제안된 방법은 기존 연구에 비해 높은 정밀도로 사용자의 위치 정보를 예측할 수 있습니다. 또한 어떤 방법도 멘션 정보(+Net)를 이용하면 성능이 크게 향상하는 것을 알 수 있습니다. 따라서 사용자의 위치 정보를 예측하는 데 있어서 '누구와 연결되어 있는지'가 중요한 단서가 된다는 것을 제시합니다.

 

 

정리

이번에는 Twitter의 정보에서 사용자의 위치 정보를 예측하는 연구에 대해 소개했습니다. 게시 내용이나 프로필 등 공개되어있는 한정된 정보로부터 사용자의 위치 정보를 예측하는 시도는 도전적이라고 할 수 있습니다. 실험 결과 사용자가 누구와 연결되어 있는지 나타내는 멘션 정보가 위치 정보 특정에 있어서 중요한 신원정보가 되는 것으로 나타났습니다.

 

현재의 기술로는 100마일의 오차를 허용하는 경우 70% 정도의 정밀도로 사용자 위치를 특정할 수 있습니다. 신경망을 이용한 SNS에 관한 연구는 활발하게 이루어지고 있으며, 앞으로 더 예측 성능이 올라갈 것으로 기대됩니다. 또한 수작업으로 사용자 위치를 특정하는 경우에는 게시된 사진이나 동영상이 중요한 정보가 되기 때문에, 이미지 처리 분야의 진전에 따라 위치 정보 예측 성능도 향상될 것으로 생각됩니다.

 

무심코 올린 트윗이 자신의 중요한 신원정보가 되고, 자세한 위치 정보가 AI에게 들켜 버리는 날도 멀지 않은 것으로 보입니다.

 

반응형