본문 바로가기
AI · 인공지능/AI 칼럼

GAN이 생성한 데이터는 무엇?

by 두우우부 2020. 3. 1.
반응형

3개의 요점

✔️ GAN은 bias를 유지할 뿐만 아니라 악화시킨다

✔️ GAN은 학습 데이터의 분포를 학습하지 않았다

✔️ 사람과 AI 양쪽에서 평가해도 같은 결과를 도출

Imperfect ImaGANation : Implications of GANs Exacerbating Biases on Facial Data Augmentation and Snapchat Selfie Lenses

written by Niharika Jain ,  Alberto Olmo ,  Sailik Sengupta ,  Lydia Manikonda ,  Subbarao Kambhampati
(Submitted on 26 Jan 2020)
Subjects : Machine Learning (cs.LG) ; Computer Vision and Pattern Recognition (cs.CV); Image and Video Processing (eess. IV); Machine Learning (stat.ML)

Imperfect ImaGANation.pdf
3.44MB

시작

이번에 소개하는 논문은 기술적인 내용이 아니라 지금 활발히 진행되고 있는 Generative Adversarial Networks(GAN)의 사용에 대한 기초적인 내용입니다.

 

이것은 한때 SNS에서 많은 분들이 논의한 내용입니다. 결국 GAN이 생성한 데이터는 뭔가요? 그거 Data augmentation(이하 DA)에 사용할 수 있나요?라는 의문에 대해 사람과 AI를 사용하여 GAN의 생성 데이터를 평가한 내용입니다.

 

참고로, GAN은 아직 개발 중이며, 결론은 아직 더 뒤에 있다고 생각합니다. 이 논문의 결과가 전부는 아닙니다.

 

소개

Deep learning의 이미지 인식은 컴퓨터 비전 분야에 큰 발전을 가져왔습니다. 연구자들은 AI가 데이터에 overfitting하지 않고 실세계에 일반화할 수 있도록 항상 연구를 해왔습니다. 실 세계에 일반화시키기 위해서도 학습 샘플 크기를 늘려 테스트의 정밀도를 높이는 것이 중요합니다. 따라서 DA수법이 등장했습니다. 고전적인 방법으로는 회전 및 평행이동 등의 학습 샘플에 대해 아핀 변환(affine transformation : n차원 공간이 1차식으로 나타내어지는 점대응)을 수행하는 것이 원래의 출발점이라고 봅니다. 변환된 샘플은 원래 train 및 test와 같은 실세계의 분포를 나타낼 필요가 있어, 이러한 방식으로 train 샘플을 늘려서 분류기가 실세계의 분포를 학습할 가능성이 높아지는 것을 기대할 수 있습니다.


그러나 train 샘플 자체가 희소한 경우나 개인 정보를 포함한 것은 원래의 샘플 사이즈가 작거나, 권리의 관계에서 DA수법을 잘 적용하지 못하는 경우가 있습니다. 이 해결 방법으로 GAN이 고려되고 있습니다. 특히 최근에는 소량의 데이터에 대하여 GAN을 사용하여 문제를 해결하는 것이 검토되고 있습니다.

 

그러나 저자는 GAN의 사용에 대해 하나의 위기감을 느끼고 있습니다. 그것은 GAN이 완벽하게 학습 데이터의 분포를 모방하여, 학습 데이터에는 있지만 지금까지 볼 수 없었던 데이터를 우리에게 보여준다는 것입니다. 또한 지금까지 없었던 데이터의 연금술을 하고 있다고 착각하게 하는 것은 아닌가?라는 것입니다. 따라서 쉽게 GAN으로 DA를 하고 있는 것은 아닐까요.

 

GAN은 의외로 학습 데이터의 분포를 학습하지 못한다는 내용이 ICLR2018에서 발표되었습니다. 그것은 생일 패러독스를 응용한 GAN의 다양성 평가에 채택되어 ICLR에서 높은 점수를 획득하고 있습니다(2017년 논문 발표)

 

저자들이 말하고 싶은 것은 간단하게, GAN 자체의 학습 데이터에 대한 고려가 부족한 것은 아닐까?라는 것입니다.

 

그래서 저자들은 GAN이 생성한 이미지를 사람과 AI에 의해 조사하는 연구를 시작했습니다.

 

검토

Best Engineering Schools에 랭킹 되어 있는 미국 대학 47개 대학의 공학 교수들의 얼굴을 수집하고 GAN에 의해 ​​얼굴을 생성합니다. 생성된 얼굴 이미지가 어떤 경향을 가질지 사람과 AI가 각각 1장씩 확인해 가는 내용입니다.

 

수집 방법

수집 방법은 매우 간단합니다.

1. 선출된 대학의 공학 교수의 얼굴 사진을 수집한다. 
2. 로고와 아이콘 등이 포함된 것은 삭제한다.
3. 배경 정보에 GAN이 영향을 받지 않도록 배경이 단색인 것으로 통일한다.
4. 얼굴의 위치가 같아지도록 잘라서 이미지 크기를 64 × 64로 통일한다.
5. 수집된 이미지는 사람에 의해 최종 점검을 실시한다.

최종적으로 17,245 장의 얼굴 사진을 수집하였습니다.

 

평가

원래의 데이터 세트와 GAN 생성 이미지에 대해 성별과 피부색에 대한 평가를 실시합니다. 사전 정보로 원래의 데이터 세트는 "백인 남성"에 편향되어 있습니다. 따라서 GAN에 의한 생성도 동일한 정도의 편향이 일어나는 것이 예상됩니다.

 

이번에는 DCGAN을 사용하여 이미지 생성을 검토하고 있습니다. 시드 값을 바꾸고 3번 검토를 반복하여 각각의 이미지를 생성합니다. 학습 횟수는 50 epoch로 고정되어 있습니다.


생성된 이미지는 다음과 같은 세트로 피험자들에게 제공됩니다.

 

그리고 표시된 이미지에 대하여 피험자가 다음의 설문에 대답합니다.

 

성별에 관한 검토는 아래의 설문을 이미지마다 조사합니다.

  1. 실제 이미지에 비해 이 얼굴은
    a. 남성의 특징을 가진다
    b. 여성의 특징을 가진다
    c. 어느 쪽에도 속하지 않는다
  2. 생성 이미지에 비해 이 얼굴은
    a. 남성의 특징을 가진다
    b. 여성의 특징을 가진다
    c. 어느 쪽에도 속하지 않는다

피부색에 관해서도 마찬가지로 아래의 설문을 이미지마다 조사합니다.

  1. 실제 이미지에 비해 이 얼굴은
    a. 하얗다
    b. 하얗지 않다
    c. 어느 쪽에도 속하지 않는다
  2. 생성 이미지에 대해이 얼굴은
    a. 하얗다
    b. 하얗지 않다
    c. 어느 쪽에도 속하지 않는다

이러한 검증에서는 피험자의 질에도 영향이 있습니다.

 

 

예를 들어, 모든 이미지에 랜덤으로 답변하고, 같은 대답을 연속하는 등 피험자의 질이 높지 않으면 이러한 검증 결과가 이상해집니다.

 

그래서 Amazon's MTurk3을 활용합니다. 이전에도 여러 작업을 완료하고 높은 평가를 얻고 있는 마스터 자격을 갖춘 MTurk 근로자를 132명(7분/1.2$) 채용합니다. 각 작업자는 52장의 이미지 세트(50매는 실제 이미지와 생성 이미지로 나머지 2개는 유명인의 고화질 사진)를 평가합니다. 고화질의 유명인 사진은 아무렇게나 대답하는 작업자나 Bot에 의한 답변을 판단하는 데 활용되고 있습니다. 여기까지의 평가는 사람에 의한 인해 전술로 이루어집니다.

 

다음은 지금까지의 평가를 AI로 시행합니다.

사용한 AI는 Microsoft Azure Cognitive Services' Face API4입니다. 이 AI를 이용한 이유는 성별과 피부색에 관한 3개의 얼굴 데이터에서 SOTA를 획득했기 때문입니다.

 

결과

생성된 데이터와 원본 데이터에서 성별과 피부색에 대하여 아래와 같은 결과가 나왔습니다.

 

 

왼쪽 도표는 얼굴 특징이 여성인 비율을 주황색으로 표시합니다(회색은 남성). 오른쪽은 피부색이 흰색이 아닌 비율이 파란색으로 표시하고 있습니다.

 

위에서 확인할 수 있듯이 GAN이 생성한 데이터에서 편향이 강화되고 있습니다. 본래라면 학습 데이터의 분포를 확인할 수 있기 때문에 편향을 유지하는 것은 올바른 학습이라고 할 수 있지만, 이 결과는 분명히 편향이 악화되고 있습니다. 이 결과에서도 의외로 GAN이 학습 데이터의 분포를 학습하지 못한 것을 알 수 있습니다.

 

또한 15명의 피험자의 신뢰성 평가를 나타낸 아래 그림에서 왼쪽의 실제 이미지의 그래프에서는 각 피험자가 같은 정도의 신뢰도로 남성과 여성을 판단하고 있습니다. 그러나 오른쪽의 합성 이미지는 품질이 낮아 정확성이 나빠질 가능성이 있음에도 불구하고 남성 성별의 판단에는 신뢰도가 크게 달라지지 않았습니다. 즉 자신 있게 남성이라고 판단할 수 있다는 것입니다. 이것은 피부색에서도 유사한 결과를 보여줍니다.

 

또한 AI도 같은 결과를 내고 있습니다.

 

실제 사례

저자는 삽화에 Snapchat을 올리고 있습니다. 이 응용 프로그램에 GAN 기술이 응용되고 있으며, 그 예로 얼굴을 더 남성적으로, 또는 여성적으로 변환하는 이미지 필터 기능이 있습니다. 여기까지의 내용을 읽은 분이라면 왠지 짐작이 가겠지요.


여성적이란? 피부가 하얗다 라는 편견을 이 필터에서도 볼 수 있습니다. 실제 사례에 대해서는 이 정도로만 해 두겠습니다. 자세하게 알고 싶으신 분은 논문을 읽어보세요.

 

정리

이러한 결과는 사용법을 고려하는 것이 중요하다는 것을 알려줍니다. 예를 들어, 남성과 여성의 비율을 반반으로 했다면 이렇게까지 악영향을 끼치지 않았을 것으로 생각됩니다. 그러나 이러한 생각은 확실히 성별이라는 차를 알기 때문에 말할 수 있는 것입니다. 또한, 이 합성 데이터를 학습에 사용하면 테스트 데이터에 대한 답변도 편향될 것으로 예상할 수 있습니다. 남성이라고 말해 두면 80% 분류 가능할 것 같고, 또한 머리가 길 때만 여성이라고 대답하는 것으로 아주 쉽게 분류 정확도가 오른 것처럼 보이게 할 수 있을 것 같습니다.


실례로 Snapchat을 들고 있지만, 단순한 놀이 도구로서는 좋다고 생각합니다. 하지만 이러한 기술이 사람의 신뢰를 예측하는 AI에 응용된다면 무섭지 않습니까?


예를 들어, 데이터에 따라서는 남성보다 여성이 더 신뢰할 수 있다. 반대의 경우도 마찬가지입니다. 이러한 AI가 너무도 쉽게 만들어집니다.

 

또한 저자도 논문에서 언급하는 것처럼 의료 데이터에 적용하는 것은 꽤 영향이 있다고 합니다. 예를 들어, 소량의 정보로 DA를 합니다. 그 생성 데이터를 사용하여 분류 및 검색 모델을 구축해도, 테스트 데이터가 많지 않기 때문에 편향이 나타납니다. 따라서 테스트 데이터의 분리 및 평가 방법 하나만으로도 얼마든지 성능을 올린 것처럼 보이게 할 수 있습니다.


앞으로 더 GAN의 성질이나 특성을 알 수 있도록 이러한 연구는 계속되었으면 합니다. 그러나 GAN은 계속 개발 중이며, 이 논문의 결과가 전부는 아닙니다.


조건부라면 어느 정도의 영향을 억제하는 것은 가능하며, 논문 중 인용된 참고 문헌도 특정 GAN에 대한 연구입니다. 모든 GAN이 평가된 것은 아닙니다. GAN의 종류에 따라 변화할지도 모릅니다. 이러한 문제를 해결하기 위해 분류하는 것에 최적화시키는 3-player GAN도 있습니다. 즉 사용법에 주의해야 할 것은 사람이며, AI에도 잘하는 부분과 서툰 부분이 있다는 것을 아는 것이 중요합니다.

반응형