본문 바로가기
AI · 인공지능/이미지 생성 AI

NVIDIA의 이미지 생성 AI「eDiffi」의 paint with words를 "Stable Diffusion"으로 실현한「paint-with-words-sd」가 등장

by 두우우부 2022. 11. 11.
반응형

 

NVIDIA가 발표한 eDiffi는 기존보다 높은 정밀도로 고품질의 이미지를 자동 생성하는 AI 모델입니다. 이 eDiffi의 단어와 밑그림에서 이미지를 생성하는 기능 "paint-with-words"를 Stable Diffusion에 구현한 paint-with-words-sd가 등장했습니다.

GitHub - cloneofsimo/paint-with-words-sd: Implementation of Paint-with-words with Stable Diffusion : method from eDiffi that let you generate image from text-labeled segmentation map.

 

GitHub - cloneofsimo/paint-with-words-sd: Implementation of Paint-with-words with Stable Diffusion : method from eDiffi that let

Implementation of Paint-with-words with Stable Diffusion : method from eDiffi that let you generate image from text-labeled segmentation map. - GitHub - cloneofsimo/paint-with-words-sd: Implementat...

github.com

 


eDiffi가 어떤 모델인지는 아래의 글을 읽으면 잘 알 수 있습니다.

NVIDIA가 고정밀도의 이미지 생성 AI「eDiffi」를 발표,「Stable diffusion」이나「DALL・E2」보다 텍스트에 충실한 이미지
 

NVIDIA가 고정밀도의 이미지 생성 AI「eDiffi」를 발표,「Stable diffusion」이나「DALL・E2」보다 텍스트

대기업 반도체 메이커이자 AI 연구에도 힘을 쏟고 있는 NVIDIA 가 새로운 이미지 생성 AI인 'eDiffi'를 발표했습니다. NVIDIA는 eDiffi가 전 세계에서 화제가 되고 있는 「Stable Diffusion」이나 OpenAI의 「DALL

doooob.tistory.com

 


eDiffi의 논문과 수법은 오픈 소스가 아니고, 모델도 일반에 공개되어 있지 않기 때문에 그대로 사용할 수 없습니다만, 프롬프트의 내용으로부터 노이즈 제거의 단순 결합에 낑겨넣는 「Cross-attension」 부분은 Stable Diffusion과 동일하기 때문에, paint-with-words는 구현할 수 있었다는 것.

 



아래에서 이미지의 왼쪽에 쓰여 있는 것이 "A highly detailed digital art of a rabbit image standing on clouds casting a fire ball(구름 위에 서서 파이어볼을 캐스팅하고 있는 토끼의 고정밀 디지털 아트)"라는 프롬프트입니다.

 

세 개의 이미지 중 가장 왼쪽에 있는 것은 이미지의 구도를 지시하는 밑그림입니다. 이 프롬프트와 밑그림 이미지로 지시를 보내, Stable Diffusion으로 생성한 이미지가 중간 이미지. 그리고, 프롬프트에 의해 노이즈 제거의 방향을 실시하는 「Attension」의 가중치를 도중에 조정하는 eDiffi와 같은 처리를 도입한 것이 오른쪽의 이미지입니다.


"A dramatic oil painting of a road from a magical portal to an abandoned city with purple trees and grass in a starry night"로 생성한 이미지가 아래.


다음은 밑그림 이미지(왼쪽)만 바꾸어 같은 프롬프트에서 생성한 이미지(오른쪽)를 나열한 것입니다. 밑그림 이미지에서 바뀌는 것은 달의 위치뿐입니다. 달과 오로라는 약간씩 다릅니다만, 그 아래에 그려진 산과 보트는 거의 차이가 없습니다.


Attension의 가중치 조정이 강할수록 원본 프롬프트와 구도에 충실한 이미지를 생성할 수 있습니다. 그러나 그만큼 이미지의 품질은 떨어집니다. 아래의 이미지는 오른쪽으로 갈수록 가중치 조정이 강해지고 있어, 구도는 밑그림 이미지에 충실해져 갑니다만, 생성되는 토끼의 노이즈가 증가해 버리고 있습니다.


다음은 위 이미지와 같은 프롬프트 밑그림 이미지에 가중치 조정 함수나 강도에 해당하는 변수를 바꾸어 생성한 경우.


또한 paint-with-words-sd의 소유자인 Simo Ryu 씨는 AUTOMATIC1111판 Stable Diffusion web UI의 확장 기능으로서 개발하는 것에도 의욕을 보이고 있습니다.

Extensions for Automatic1111 version? · Issue #1 · cloneofsimo/paint-with-words-sd · GitHub

 

Extensions for Automatic1111 version? · Issue #1 · cloneofsimo/paint-with-words-sd

It's a great utility! I would be very happy if you could make this as an extension for the Automatic1111 version too! Thank you very much in advance!

github.com

반응형