본문 바로가기
AI · 인공지능/AI 칼럼

모든 딥페이크를 간파하는 'Face X-ray', Microsoft가 해결한 SOTA기술이란?

by 두우우부 2020. 2. 15.
반응형

 

3개의 요점

✔️ 합성된 얼굴 이미지의 흔적에 주목한 범용적인 딥 페이크 탐지 모델을 제안

✔️ 합성된 흔적을 효율적으로 찾는 Face X-ray라는 특징정보를 도입

✔️ 학습 시 딥 페이크 데이터를 필요로 하지 않는 자기 지도 학습을 실현

 

Face X-ray for More General Face Forgery Detection

written by Lingzhi Li, Jianmin Bao, Ting Zhang, Hao Yang, Dong Chen, Fang Wen, Baining Guo

(Submitted on 31 Dec 2019)

subjects : Computer Vision and Pattern Recognition (cs.CV)

Face X-ray for More General Face Forgery Detection.pdf
1.47MB

 

최근 특정인의 얼굴을 다른 사람의 것으로 대체한 얼굴 위조 기술이 화제가 되고 있습니다.

 

최초로 주목받은 것은 2017년에 Raddit에서 Deepfakes라는 익명 사용자가 게시한 얼굴이 위조된 포르노 동영상으로 알려져 있습니다. 이후 악의적인 가짜 이미지가 많이 게시되어 있습니다.

시기 콘텐츠
2018년 4월 오바마 대통령의 연설 동영상 (youtube.com)
2019년 5월 민주당의 낸시 펠로시 하원 의장의 연설 (youtube.com)
2019년 6월 Facebook CEO 주커버그의 가짜 동영상 (youtube.com)

가짜와 구별이 어렵고, 착각하는 사람도 많습니다. 정보의 정확성이나 개인 정보의 안전성에 대한 불안이 확산되고 있습니다.

 

따라서 얼굴 위조를 감지하는 기술의 연구 개발이 활발하게 이루어지고 있습니다. 이러한 상황에서 2019년 가을에는 Facebook이 중심이 되어, AWS, Microsoft 등과 얼굴 위조 탐지기술을 겨루는 Deepfake Detection Challenge를 기획했습니다.

 

이번에는 지금 주목분야인 얼굴 위조 검출에 있어서 Microsoft Research Asia가 보고한 최신 논문을 소개합니다.

 

다양한 딥 페이크를 감지하는 범용성 높은 모델을 제안

이 논문에서는 두 인물의 이미지를 혼합하여 만든 얼굴의 위조를 감지하기 위해 새롭게 Face X-ray라는 특징정보를 도입하여 위조 흔적(테두리)을 감지합니다.

일반적인 얼굴 위조 기술은 위의 그림과 같이 3단계로 구성되어 있습니다.

1. 얼굴 감지 (Detect)
2. 얼굴 합성 (Manipulate)
3. 합성한 얼굴을 원본 이미지에 혼합 (Blend)

기존의 딥 페이크를 감지하는 기술은 2단계에 주목하고 있습니다. 이미지가 어떻게 편집되고 있는지, 그 패턴을 학습시킴으로써, 딥 페이크를 감지합니다. 이 방법은 딥 페이크로 만들어진 가짜 이미지를 학습 데이터로 사용합니다.

 

이는 높은 정밀도로 딥 페이크를 검출할 수 있지만 학습하지 않은 새로운 기법의 딥 페이크에 대해서는 정확도가 현저히 떨어집니다.

 

이 논문에서는 3단계에 주목하여 혼합(Blend)의 흔적을 찾아내는 것으로, 2단계의 합성기법에 관계없이 다용도로 검출이 가능한 모델을 만들었습니다.

 

사람의 눈으로는 알수없는 이미지에 숨겨진 차이

딥 페이크 기술의 향상으로 사람의 눈으로 직접 보고도 그 진위여부를 분간하기 어렵게 되었습니다. 어디서 이미지가 접합되어 있는지 한눈에 알 수 없습니다.

 

그러나 사실은 색상과 모양이 똑같아 보이는 이미지도 촬영 장비(센서, 렌즈 등) 및 이미지 처리(압축 처리) 등에 따라 이미지 데이터에 약간씩 차이가 생깁니다. 사람의 눈에는 보이지 않지만, 화상 취득 과정에서 생기는 근본적인 차이가 드러납니다.

 

 

이 논문에서는 Face X-ray라는 특징정보에 따라 합성으로 인해 생기는 화상 내 차이점의 경계선과 위치를 검출합니다.

 

 

 

Face X-ray의 정체는? 자기 지도 학습 방법은?

이번 모델은 혼합 부분의 검출에 초점을 맞추고 있습니다. 따라서 혼합 이미지를 생성하고 거기에 대응하는 Face X ray를 자동 생성할 수 있다면, 특별한 딥 페이크 이미지를 모을 필요도 없이 자기 지도 학습이 가능합니다.

 

이 논문은 구체적으로 3단계로 혼합 이미지와 Face X-ray를 생성합니다.

 

  1. 기반이 되는 이미지 (B)가 주어지면, I B 와의 혼합에 사용되는 이미지 (F)를 미리 준비한 데이터베이스에서 찾습니다. 이때 얼굴을 찾는 기준은, 랜드마크 사이의 유클리드 거리가 일치하는 근접한 것으로 합니다. 또한 데이터의 임의성을 높이기 위해 유사도가 높은 상위 100개 중에서 무작위로 F 를 선택합니다. 
  2. 혼합 영역의 결정과 Face X-ray의 기반이 되는 마스크 (M)을 생성합니다. 우선 B 에서 얻은 랜드마크가 내포되도록 마스크를 정의하고 혼합하기 쉬운 형태로 변형 및 Blur(흐림) 처리를 합니다.
  3. BF, M 이 주어진다면, 식 (1)에서 혼합된 이미지 (M)가 생성됩니다.
    여기서 M 픽셀 값은 0.0 ~ 1.0의 그레이 스케일로 표시됩니다. 또한, 혼합 시에는 I B 의 색상과 일치하도록 I F 에 대해 색보정을 적용하고 있습니다. 또한 식 (2)에서 Face X ray (B)가 생성됩니다.
    입력 이미지가 혼합되어 있지 않으면 B 는 모든 픽셀에서 0이 되도록 정의됩니다.

 

Face X-Ray를 사용한 딥 페이크 검출 모델

학습 데이터 세트로 이미지 ( I ), 그 이미지에 대응하는 Face X-ray ( B ), 이미지 ( I )의 혼합 유무 ( c ) 세트를 제공합니다.

D = { I , B , c }

 

네트워크에서 입력된 이미지 ( I )에 대해 Face X-ray ( B )를 출력하고, 이 Face X-ray ( B )에 따라 혼합되어 있는 확률을 계산합니다.

 

기존 모델과 비교해도 간단하면서도 높은 정밀도를 보여주는 SOTA 모델

범용성을 검증하기 위해, 학습 데이터에 포함되지 않은 데이터 세트에 대한 정밀도 감소폭을 조사하고 있습니다. 실험모델은 HRNet / Xception을 사용하고 있습니다.

 

다음 표에서는 각 학습 데이터에 대한 딥 페이크의 AUC를 산출하고 있습니다.

 

실험 결과 두 모델에서 학습 데이터와 같은 데이터 세트에 대해서는 99% 이상의 정확도를 얻을 수 있지만, 학습 데이터에 포함되지 않은 데이터 세트에 대해서는 10% 이상 정확도가 떨어지고 있습니다.

 

이것은 학습 데이터로 사용된 딥 페이크 기법에 대해 오버핏 되어 있다고 생각됩니다.

 

그러나 이번에 제안된 모델은 학습 데이터에 포함되지 않은 데이터 세트에 대해서도 거의 동등한 정밀도가 나오고 있습니다. 또한 자기 지도 학습 데이터를 사용한 경우에도 높은 정밀도를 달성할 수 있음을 보여줍니다.

 

범용화라는 관점에서, 지금까지 계속 연구가 되어오고 있었습니다만, 각각의 딥 페이크 기법에 대응하는 학습 데이터를 사용하는 기존의 방법에서는 매우 큰 노력이 필요했습니다. 새로운 딥 페이크 기술이 개발될 때마다 모델을 다시 기억시키지 않으면 안 됩니다. 따라서 최근에는 새로운 다양한 딥 페이크 수법에도 범용성이 높은 검출 모델이 나오고 있습니다(아래 표).

Face X-ray를 이용한 모델이 가장 범용성이 높게 나타남

 

향후의 과제

실험에서는 일반적인 검색에서 만족스러운 성능을 입증했지만, 이 방법에는 2가지 기술적 한계가 있다고 합니다.

1. 딥 페이크 중 이미지가 혼합(Blend)되어 있는 경우에만 유효한 점
2. Adversarial Samples에 대한 취약점이 존재하는 점

이 밖에 다른 검출 모델들과 동일한 문제를 품고 있습니다. 예를 들어, 낮은 해상도의 이미지는 충분한 특징량을 얻을 수 없기 때문에, 검출 정밀도가 떨어집니다. FF++에 있어서 High Quality(낮은 압축률)의 이미지와 Low Qualiry(높은 압축률)의 이미지에서 검출 정밀도를 비교하면 다음과 같이 됩니다.

Datasets AUC
FF++ / High Quality (낮은 압축률) 87.35 %
FF++ / Low Quality (높은 압축률) 61.6 %

이에 대해서는 Data Augumentation 등으로 어느 정도 줄일 수 있지만, 근본적인 해결책은 딥러닝에 대한 보다 이론적인 검증이 요구됩니다.

 

정리

이 논문에서는 대부분의 딥 페이크 기법에 발생하는 혼합(Blend)에 의한 차이에 주목하여 딥 페이크 수법에 의존하지 않는 범용성 높은 검출 모델을 실현하고 있습니다.

 

또한 이 혼합에 의한 차이를 표현하는 Face X-ray라는 심플한 그레이 스케일 이미지를 도입하여, 학습 데이터를 생성하기 쉽게 만들었습니다. 따라서 기존처럼 딥 페이크 기법에 맞는 학습 데이터를 준비할 필요없이 자기 지도 학습이 가능하게 되었습니다.

반응형