NVIDIA가 발표한 eDiffi는 기존보다 높은 정밀도로 고품질의 이미지를 자동 생성하는 AI 모델입니다. 이 eDiffi의 단어와 밑그림에서 이미지를 생성하는 기능 "paint-with-words"를 Stable Diffusion에 구현한 paint-with-words-sd가 등장했습니다.
GitHub - cloneofsimo/paint-with-words-sd: Implementation of Paint-with-words with Stable Diffusion : method from eDiffi that let you generate image from text-labeled segmentation map.
eDiffi가 어떤 모델인지는 아래의 글을 읽으면 잘 알 수 있습니다.
eDiffi의 논문과 수법은 오픈 소스가 아니고, 모델도 일반에 공개되어 있지 않기 때문에 그대로 사용할 수 없습니다만, 프롬프트의 내용으로부터 노이즈 제거의 단순 결합에 낑겨넣는 「Cross-attension」 부분은 Stable Diffusion과 동일하기 때문에, paint-with-words는 구현할 수 있었다는 것.
아래에서 이미지의 왼쪽에 쓰여 있는 것이 "A highly detailed digital art of a rabbit image standing on clouds casting a fire ball(구름 위에 서서 파이어볼을 캐스팅하고 있는 토끼의 고정밀 디지털 아트)"라는 프롬프트입니다.
세 개의 이미지 중 가장 왼쪽에 있는 것은 이미지의 구도를 지시하는 밑그림입니다. 이 프롬프트와 밑그림 이미지로 지시를 보내, Stable Diffusion으로 생성한 이미지가 중간 이미지. 그리고, 프롬프트에 의해 노이즈 제거의 방향을 실시하는 「Attension」의 가중치를 도중에 조정하는 eDiffi와 같은 처리를 도입한 것이 오른쪽의 이미지입니다.
"A dramatic oil painting of a road from a magical portal to an abandoned city with purple trees and grass in a starry night"로 생성한 이미지가 아래.
다음은 밑그림 이미지(왼쪽)만 바꾸어 같은 프롬프트에서 생성한 이미지(오른쪽)를 나열한 것입니다. 밑그림 이미지에서 바뀌는 것은 달의 위치뿐입니다. 달과 오로라는 약간씩 다릅니다만, 그 아래에 그려진 산과 보트는 거의 차이가 없습니다.
Attension의 가중치 조정이 강할수록 원본 프롬프트와 구도에 충실한 이미지를 생성할 수 있습니다. 그러나 그만큼 이미지의 품질은 떨어집니다. 아래의 이미지는 오른쪽으로 갈수록 가중치 조정이 강해지고 있어, 구도는 밑그림 이미지에 충실해져 갑니다만, 생성되는 토끼의 노이즈가 증가해 버리고 있습니다.
다음은 위 이미지와 같은 프롬프트 밑그림 이미지에 가중치 조정 함수나 강도에 해당하는 변수를 바꾸어 생성한 경우.
또한 paint-with-words-sd의 소유자인 Simo Ryu 씨는 AUTOMATIC1111판 Stable Diffusion web UI의 확장 기능으로서 개발하는 것에도 의욕을 보이고 있습니다.
Extensions for Automatic1111 version? · Issue #1 · cloneofsimo/paint-with-words-sd · GitHub
'AI · 인공지능 > 이미지 생성 AI' 카테고리의 다른 글
이미지 생성 AI 유저의 지식을 결집시킨 고품질 주문사전「마포백과 사전」을 사용해 보았다 (0) | 2022.11.16 |
---|---|
「Midjourney」를 애니메이션풍 일러스트로 특화시킨 모델「niji·journey(니지 저니)」가 베타 테스터를 모집중 (0) | 2022.11.16 |
이미지에 "보이지 않는 변경"을 추가하여 AI에 의한 위변조를 방지하는「PhotoGuard」가 개발된다 (0) | 2022.11.16 |
「Stable Diffusion」에서 무작위 이미지를 생성하는 확장 기능「UnivAICharGen」의 사용법 정리 (0) | 2022.11.16 |
이미지 생성 AI「Midjourney」의 버전 4 공개, 아름다운 이미지의 생성이 너무 쉬워 (0) | 2022.11.10 |
이미지 생성 AI「NovelAI」가 512×512 이외의 해상도로 트레이닝하는「Aspect Ratio Bucketing」공개 (0) | 2022.11.10 |
NVIDIA가 고정밀도의 이미지 생성 AI「eDiffi」를 발표,「Stable diffusion」이나「DALL・E2」보다 텍스트에 충실한 이미지 (0) | 2022.11.10 |
「Stable Diffusion」에서「CFG(classifier-free guidance)」란 도대체 무엇인가? (0) | 2022.11.06 |