이미지 생성 AI는 프롬프트를 입력하는 것만으로 꽤 리얼한 인물이나 높은 퀄리티인 캐릭터 일러스트를 생성할 수 있습니다만, AI가 서툰 부분도 있어, 그중에서도 「인간의 손」을 그리는 데 실패하는 케이스가 많습니다. 왜 AI는 손을 바르게 그리는 것이 어려운지, 그 이유를 온라인 미디어 Vox가 해설하고 있습니다.
Why AI art struggles with hands - YouTube
이미지 생성 AI에 의한 인물이나 캐릭터는 꽤 높은 퀄리티가 되어 있어 얼굴 사진이 「실재하는 진짜 인간」인가 「AI가 생성한 가짜」인지를 맞히는 「Which Face is Real?」라는 사이트나, 일러스트의 작자가 인간인지 AI인지 맞는 퀴즈 「Human or AI」등도 공개되고 있습니다. 인간 얼굴의 딥페이크는 눈에 보이는「동공의 형태」로 구별할 수 있다는 연구 결과나, AI의 일러스트는 전후 관계 외에 디포르메 묘사가 약하다는 지적도 있습니다만, 인간의 이미지와 일러스트의 캐릭터에서 공통적으로 AI는 「 손을 그리는 것이 약하다」고 종종 지적받고 있습니다.
Vox에 의하면, 이미지 생성 AI가 손의 표현에 실패하는 현상은, AI 아트가 어떻게 기능하는지 잘 보여준다고 합니다.
아티스트이면서 미술 교사도 맡고 있는 스탠 프로코펜코 씨는 아티스트가 되기 위한 훈련으로서 「패턴 인식」이 중요하다고 지적하고 있습니다. 많은 손 모양과 움직임을 관찰하는 것뿐만 아니라, 우리는 자신과 누군가의 손을 인식하며 살아왔기에, 손이 무엇인지 이해할 수 있습니다.
패턴을 학습한다는 의미에서 AI도 마찬가지입니다만, AI의 트레이닝을 말하자면 「박물관에 갇혀, 사진 혹은 그림과 거기에 붙은 제목만 보고 있다」와 같은 상태입니다.
예를 들어 사과를 자세히 관찰하고 싶다면 손에 들고 천천히 만져보는 것이 바람직합니다.
그러나 AI가 보는 것은 사과의 사진과 "갈색 테이블 위에 있는 사과"라는 설명뿐입니다.
또한, 관찰한 것을 배우는 방법도 인간과 AI는 크게 다릅니다. 인간 아티스트는 일반적으로 훈련을 시작할 때, 어떤 규칙을 이해하려고 시도하며 손과 같은 복잡한 것을 그릴 때 기본적인 형태로 단순화하는 경향이 있습니다.
손바닥과 손등을 두꺼운 사각형처럼 생각하고, 거기에 손 모양과 손가락의 위치를 배치하는 등 모양을 단순화하여 파악한 후 질감과 디테일을 추가해 고품질의 그림으로 완성해 갑니다.
한편, AI는 아래 그림과 같이 기본적인 형태를 꽤 이상하게 만들어 버립니다. 그러나, 확대해 보았을 때 빛과 그림자, 피부의 질감등은 제법 세세하게 그려져 있습니다.
인공 지능은 픽셀 단위의 패턴을 이해하기 쉽기 때문에 색감과 질감 같은 요소를 상당히 재현할 수 있지만, 보이는 물체가 어떻게 작동하는지 이해하지 못하기 때문에 "손가락은 그렇게는 구부러지지 않는다"는 것을 배울 수 없습니다.
요컨대, AI는 캔버스 속의 손을 계속 관찰하고 있기 때문에, 손의 픽셀 단위의 배치는 이해할 수 있어도, 손이 어떻게 움직이는지는 이해할 수 없다는 것.
그렇다면, "AI는 인간이 아니기 때문에 손을 그릴 수 없다"라고 쉽게 결론지을 수 있지만, AI는 건축에 대해 아무것도 몰라도 훌륭한 고층 빌딩을 세울 수 있습니다."
이미지 생성 AI의 학습 모델에 대해 더 잘 이해하기 위해, Vox는 매사추세츠 공과 대학(MIT)에서 로봇 공학을 연구하는 대학원생인 이룬 두 씨와 MIT의 주석 연구원이며 2018년부터 제네레티브 아트에 대해 가르치는 로이 실크로트 씨에게 이야기를 듣고 있습니다. 결과적으로 이미지 생성 AI가 손을 그리기 어려운 '세 가지 이유'를 발견했다고 Vox는 말합니다.
Vox는 AI가 갖고 있는 3가지 문제점으로
'데이터의 크기와 품질'
'사람 손의 움직임'
'오류 허용치의 낮음'을 꼽았습니다.
"데이터의 크기와 품질"은 단순히 '사람의 얼굴'보다 '손'이 더 학습할 사진과 그림의 양이 많지 않다는 점에 있습니다.
또, 스케치의 참고등을 목적으로 한 손의 데이터 세트를 공개하고 있는 사이트도 있습니다만, 이들은 이미지 생성 AI를 트레이닝하기 위해서 만들어져 있지 않기 때문에, 손의 사진이나 그림에 「어떤 형태로, 어떤 움직임을 하는 손인가」라는 주석이 붙어 있지 않은 경우가 많습니다.
실크로트 씨에 의하면, 「우산을 가지고 있는 사람」을 학습할 때, 「사람이 우산을 가지고 있다」라는 단순한 정보 이상의 단서를 AI에게 주는 경우는 거의 없다고 합니다. 그러나 실제로는 "엄지손가락이 우산의 손잡이의 한쪽에서 나온다", "손잡이를 가진 손가락은 접혀있다", "엄지가 검지 손가락을 덮고 있다"라는 세세한 움직임이 있습니다.
사람이라면 누구나 자연스럽게 이해하고 있는 우산 잡는 법을, 대략적인 정보로 밖에 이해할 수 없는 결과, AI는 우산과 손이 결합된 것 같은 이미지를 생성해 버립니다.
두 번째, "사람의 손의 움직임"은 손이 얼굴보다 훨씬 복잡한 움직임을 일으키기 때문입니다. 인물 사진에 있어서의 얼굴의 경우는 「일반적인 상태」인 것이 대략적으로 있어, 어느 근처에 눈이 있고, 각각의 파트가 어떠한 간격으로 배치되고 있다는 어느 정도의 룰도 정해져 있습니다. 그러나 손은 앞면과 뒷면, 각각의 손가락의 움직임 등 간단한 규칙이 없다는 점을 지적하고 있습니다.
손의 움직임이나 방향에 따라서는 「손가락이 몇 개 보이는가」라는 것이 변화합니다만, AI는 「손의 손가락은 5개 있다」라는 것을 이해하지 못하기 때문에, 본 그대로의 개수를 학습해 버립니다. 이와 같은 현상은 "달리는 말의 다리"와 같은 케이스에서도 일어나고 있어, 빠른 움직임에 의해 5개 이상으로 보이고 있거나, 겹쳐서 3개 이하로 보이는 등의 이유로, AI는 말의 다리의 수를 오해해 버립니다.
AI가 본 상태 그대로 인식해 버리는 것을 두고, 이룬 두 씨는 "AI는 우리만큼 편견을 가지고 있지 않습니다"라고 표현하고 있습니다. 이는 인공 지능이 손을 싫어하는 세 번째 이유인 "오류 허용 오차"와 관련이 있습니다. 아래의 이미지는 "사과를 가진 남자"를 Midjourney에서 만든 것으로, 4 개의 이미지는 각각 남성의 입가와 입고 있는 옷, 사과의 외형이 다릅니다. 이때 남성의 얼굴의 인상이나 옷, 사과의 질감이 상정하고 있는 것이 일치하지 않더라도, 어느 정도는 위화감 없이 허용됩니다. 그러나, 손의 외형이 약간 다른 경우, 우리는 그것을 "절대 있을 수 없는 형태"로 인식해 버린다고 Vox는 지적하고 있습니다.
이러한 AI의 부족함을 해결하기 위해 크게 나누어 두 종류의 훈련을 생각할 수 있습니다. 실크로트 씨는 보다 많은 양의 사진을 AI에게 학습시켜 어느 정도의 해결책을 기대할 수 있다고 말하고 있는데, 이를 위해서는 대량의 이미지 처리와 모델의 재교육에 사용하는 방대한 자원이 필요하다고 합니다. 또한 이룬 두 씨는 "사용자가 AI에 의한 답변의 양호함을 평가한다"라는 피드백으로, ChatGPT가 실시하고 있는 것처럼 AI에 의해 생성된 이미지를 대량의 사용자가 계속 순위를 매기는 것으로 학습 데이터에 라벨을 붙여 갈 수 있다고 말하고 있습니다.
'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글
Meta가 개발한 음성 생성 AI 「Voicebox」는 타인의 목소리로 문장을 읽는 것이 가능 (4) | 2023.06.21 |
---|---|
구글이 생성 AI와 검색 기능을 융합시켜 새로운 쇼핑 체험을 제공 (3) | 2023.06.20 |
그래미상의 주최 단체가 음악에서의 AI 이용에 대한 견해를 발표, AI 사용은 가능하지만 완전 AI 생성곡은 금지 (3) | 2023.06.20 |
'비틀즈의 신곡' 제작을 폴 메카트니가 발표, AI로 존 레논의 목소리를 추출해 미완의 'Now and Then'을 제작할까 (3) | 2023.06.20 |
AI에 의한 인류존망 가능성, 기업 CEO의 약 절반이 위기라고(예일대 조사) (2) | 2023.06.19 |
AI가 가짜 연구를 양산하는 '페이퍼 밀(논문 공장)'과의 싸움이 격화되고 있다 (3) | 2023.06.19 |
Xbox에서 Stable Diffusion을 동작시킨 용자가 등장 (2) | 2023.06.19 |
Meta의 수석 AI 과학자, 얀 르쿤이 "생성 AI는 구식"이라고 지적 (2) | 2023.06.19 |