본문 바로가기
AI · 인공지능/AI 칼럼

'모르겠다'를 아는 AI, 적은 자원의 환경에서 미학습 도메인을 감지!

by 두우우부 2020. 4. 20.
반응형

 

3개의 요점

✔️ 문서 분류 작업에서 학습 데이터에 없는 도메인을 감지하는 방법을 제안
✔️ 미지의 도메인을 검출하기 위한 학습 데이터의 준비 없이도 학습이 가능

✔️ 대화 데이터 등 실질적인 데이터 세트에서 제대로 알려지지 않은 도메인을 검색할 수 있는지 확인

Out-of-Domain Detection for Low-Resource Text Classification Tasks
written by Ming Tan Yang Yu Haoyu Wang Dakuo Wang Saloni Potdar Shiyu Chang Mo Yu
(Submitted on  31 Aug 2019 )

Comments : Published by  EMNLP 2019
Subjects :  Computation and Language (cs.CL) ; Machine Learning (cs.LG); Machine Learning (stat.ML)

Out-of-Domain Detection for Low-Resource Text Classification Tasks.pdf
0.32MB

요약

실질적인 채팅 봇이나 문서 분류 등의 시스템에 자연 언어 처리를 포함하여 모델 학습이 안된 도메인(미지의 도메인)을 어떻게 처리할지는 고민스러운 문제입니다. 사용자가 미지의 도메인에 대한 입력을 실시할 경우, 모델은 그 내용을 잘 알지 못한 채 강제로 답을 냅니다. 그 결과, 응답의 품질 저하 문제가 발생합니다.

 

아래 표는 스케줄 조정을 목적으로 한 채팅 봇 운용에 있어서 입력 문장의 분류 예를 보여줍니다. 입력에 따른 분류가 라벨로 부여되어 있으며, 사용자 입력 문장을 채팅 봇이 제대로 처리할 수 ​​있도록, 그 입력 문장의 의도를 라벨로 텍스트 분류를 실시하고 있습니다.

 

 

이러한 응답 모델을 만들기 위해, 스케줄 설정 및 TODO 목록의 관리 등 사무적 발화를 대상으로 한 도메인의 데이터 세트를 준비하고 학습합니다. 한편 사용자는 자유롭게 텍스트를 입력할 수 있기 때문에 표 하단과 같이 "생일이 가깝다"등의 사무적인 내용과는 관련 없는 내용이 모델에 입력될 수 있습니다. 이 모델은 이러한 대화의 도메인 지식을 학습할 수 없습니다.

 

이러한 미지의 도메인에 대한 입력은 예외 처리될 것으로 예상됩니다. 그러나 일반적인 신경망을 이용한 문서 분류 모델은 억지로 응답을 출력해 버리기 때문에, 서비스 품질 저하로 이어지게 됩니다. 따라서 학습 데이터에 포함되지 않은 입력을 자동으로 감지하는 기술이 필요합니다. 본 기사에서는 학습할 도메인의 데이터(알려진 도메인)만을 이용하여 미 학습 도메인을 검출할 수 있는 방법에 대한 연구를 소개합니다.

 

미지의 도메인 검출의 어려움

규칙 기반에서 구축한 문서 분류 모델이라면 어떤 조건에도 맞지 않는 입력을 예외로 처리할 수 있습니다. 한편, 요즘은 더 분류 성능이 높은 신경망 모델을 작성하는 경우가 많아지고 있습니다. 신경망을 이용한 일반적인 텍스트 분류기는 어떤 입력에 대해서도 뭐든지 간에 출력을 돌려줍니다. 즉, "생일이 가깝다"는 입력에 대해 도움말 목록을 표시해 버리는 일이 발생하고 맙니다.

 

이러한 미지의 도메인 입력을 감지하는 방법으로 입력 문장 학습 데이터에 포함되어 있는 도메인인지 아닌지 여부를 결정하는 분류기를 새로 만드는 방법을 생각할 수 있습니다. 그러나 단순히 분류기를 학습하려고 하면 미지의 도메인에 대한 데이터를 대량으로 준비할 필요가 있고, 많은 수작업이 필요합니다. 또한 미지의 도메인의 범위는 매우 넓고, 그 모두에 대한 데이터를 작성하는 것은 불가능하다고 할 수 있습니다. 위의 채팅 봇의 예라면, 사무적인 발화를 제외한 모든 도메인을 미지의 도메인으로 채록한 데이터 세트를 작성해야 하지만, 이는 도저히 불가능한 일입니다.

 

또한 기존 도메인에 대해 너무 많은 데이터를 사용할 수 없다는 것이 머신러닝 분야의 현상이라고 할 수 있습니다. 그래서 준비 가능한 데이터만을 이용하여 미지의 도메인을 검출하는 방법의 연구가 요구되고 있습니다.

 

 

가상의 미지 도메인을 이용한 학습

본 연구에서는 "미지의 도메인에 대한 라벨 데이터" 없이도 미지의 도메인의 검출을 가능하게 하는 방법을 제시하고 있습니다. 제안된 방법은 여러 도메인으로 구성된 문서 분류 작업을 상정하고 있습니다. 여러 도메인을 제공함으로써 여러 도메인을 가상의 미지 도메인으로 샘플링하여 학습에 사용할 수 있습니다. 본 연구는 Prototypical Networks라는 기법을 응용하여 각 도메인에 포함된 데이터가 소량이라도 학습이 가능한 방법입니다.

 

 

이러한 데이터를 이용하여, 제안된 방법에서는 다음과 같은 순서로 학습을 실시합니다. 또한 아래의 단계는 위 그림과 대응하고 있습니다.

 

  1. 데이터 집합 에서, 어느 도메인 Ti와 그 이외의 도메인 Tj를 각각 샘플링합니다.
    예를 들어, Amazon 리뷰에서 Ti는 도서 도메인, Tj는 응용 프로그램 도메인으로 샘플링합니다.
  2. 알려진 도메인 Ti에서 하나의 샘플 Xn, 미지의 도메인 Tj에서 샘플 Xout을 각각 샘플링합니다.
    예를 들어, 알려진 도메인은 도서, 미지의 도메인은 앱으로 상품 리뷰를 각각 1개씩 샘플링합니다.
  3. 알려진 도메인 라벨을 학습하기 위해 Xin과는 다른 N개의 라벨을 샘플링하여 각 라벨에 대하여 K개의 샘플을 샘플링합니다.
    예를 들어, Xin이 긍정 라벨인 경우 부정 라벨을 선택하고, 긍정 · 부정 라벨에서 각각 K개의 리뷰를 샘플링합니다.
  4. 각 라벨에 대해 샘플링된 K개의 샘플 을 CNN 등을 이용하여 인코딩하여 평균 풀링을 채택하는 것으로 각 라벨을 나타내는 벡터(Prototypical Vector)를 계산합니다.
    예를 들어, 도서 도메인의 긍정 라벨, 부정 라벨을 나타내는 벡터를 각각의 라벨에서 샘플링한 리뷰의 인코딩 결과로부터 계산합니다. 또한, Xin, Xj out도 동일하게 CNN 등으로 인코딩하여 벡터합니다.
  5. 마지막으로, Xin과 정답 라벨의 벡터가 근접하여 Xj out이 결국 라벨 벡터로부터 멀어질수록 매개 변수를 갱신합니다.
    예를 들어, 도서 도메인 리뷰 Xin의 벡터는 정답 라벨인 긍정 라벨 벡터와 가깝도록 학습하고 앱의 도메인의 리뷰 Xj out은 도서 도메인의 어떤 라벨에서도 멀어지는 학습을 실시합니다.

 

이 수순을 반복하여 도메인이 동일한 샘플과 라벨 벡터는 가까워지고 도메인이 다른 샘플과 라벨 벡터는 멀어지는 학습이 가능합니다. 또한 벡터의 근접 계산에는 코사인 유사도를 이용하고 있습니다.

 

추론시에는 데이터 세트에 포함된 모든 데이터를 이용하여 각 라벨을 나타내는 벡터를 계산하고, 입력된 샘플과의 유사도를 계산하는 것으로, 그 샘플이 미지의 도메인인지 그 신뢰도를 계산하는 것이 가능해집니다.

 

실질적인 데이터로 미지의 도메인 검출 성능을 향상

제안된 방법의 평가를 위해 Amazon 리뷰 데이터 세트와 위의 이미지로 나타낸 채팅 봇에 대한 입력 텍스트 분류 데이터 세트(Conversation)를 이용한 실험을 실시합니다.

 

아래 표는 실험 결과를 나타내고 있습니다. 본 연구를 통해 제안된 방법은 O-Proto로 표기되어 있습니다. 성능을 나타내는 지표로서 미지 도메인의 감지 오류 비율을 나타내는 EER 및 알려진 도메인의 분류 오류 비율을 나타내는 CER, 그리고 그 두 가지를 종합적으로 평가하는 오류 비율 지표를 Comb로 표기하고 있습니다. 오류의 비율을 나타내는 지표이기 때문에 수치가 낮을수록 성능이 좋은 것을 나타냅니다.

 

 

결과에서 보면, 제안된 방법인 O-Proto는 상단에 작성된 간단한 베이스라인에 비해 성능이 높은 것으로 나타났습니다. 또한 제안된 방법에 있어서도 다양한 손실 함수를 함께 사용하여 성능을 향상하는 것을 확인할 수 있습니다. 또한 글을 벡터로 변환하는 데 사용하는 인코더를 CNN 대신 BiLSTM로 변경하여 크게 성능을 향상시켰습니다.

 

이러한 결과로부터 제안된 방법은 미지의 도메인에 대한 데이터 세트를 준비하지 않고도 미지 도메인의 검출이 가능하다는 것을 보여줍니다.

 

아래 표는 학습 도중 라벨의 벡터를 계산하기 위해 사용하는 샘플수 K에 대한 성능의 차이를 보여줍니다. Amazon 리뷰 데이터의 평가를 실시하고 그 결과로부터 K가 클수록 성능이 높아지는 경향이 확인됩니다. 또한 제안된 방법을 이용하면 K값이 작아도 미지 도메인의 감지 오류 비율이 낮은 상태로 확인됩니다. 이는 각 라벨에 포함된 데이터 양이 적은 경우에도 높은 성능으로 미지의 도메인 검출이 가능하다는 것을 보여줍니다.

 

 

정리

본 연구에서는 기존의 도메인 데이터만을 이용하여 미지의 도메인을 감지하는 방법을 소개했습니다. 미지의 도메인 검출은 실제 응용에 있어서 매우 중요한 기술임에도 불구하고, 그다지 연구되지 않은 분야라고 할 수 있습니다. 특히 소량의 알려진 도메인만을 이용하여 미지의 도메인을 검출하는 연구는 부족하며, 본 연구의 공헌은 크다고 할 수 있습니다.

 

누구나 작성할 수 있는 입력 형식을 갖는 채팅 봇 등의 운용에 있어 예상치 못한 입력을 적절히 예외 처리하는 방법으로 이 논문의 연구 내용을 소개해 보시는 것은 어떻겠습니까.

반응형