본문 바로가기
AI · 인공지능/이미지 생성 AI

「Stable Diffusion 2.0」 VS 「Stable Diffusion 1.4」비교

by 두우우부 2022. 11. 28.
반응형


문장(프롬프트)을 입력하는 것만으로 이미지를 생성해 주는 AI「Stable Diffusion」의 버전 2.0이 2022년 11월 24일에 정식 릴리즈 되었습니다. 그런 Stable Diffusion 2.0을 쉽게 시험할 수 있는 웹사이트가 공개되었으므로, 실제로 이미지를 생성해 기존의 Stable Diffusion 1.4와 비교해 보았습니다.

Stable Diffusion 2 | Baseten

Baseten | MLOps platform for startups

Baseten is the MLOps platform for startups to rapidly develop, deploy, and test models in production.

app.baseten.co:443


위의 링크에 액세스 하면 다음과 같은 화면이 표시됩니다.


이미지를 생성하려면 하단의 입력 영역에 프롬프트를 입력한 후 오른쪽의 "Generate"를 클릭하면 OK.
이번에는 위의 입력 예에 기재되어 있는 프롬프트「A lion wearing a cowboy hat」를 입력해 보았습니다.


생성 결과는 이런 느낌. 약 30초 만에「카우보이 모자를 쓴 사자」의 이미지를 출력할 수 있었습니다. 동일한 프롬프트로 재생성하려면 Generate를 다시 클릭합니다.


생성 결과는 이런 느낌. 이번에는 흑백 라이온의 이미지가 나왔습니다.


동일한 프롬프트를 사용하여 Stable Diffusion 1.4에서 이미지를 6장 생성한 결과가 아래이고, Stable Diffusion 1.4에서 생성한 이미지에는 카우보이 모자를 쓰지 않았거나, 여러 문제가 확인되어 Stable Diffusion 2.0과의 확연한 품질 차이를 느낄 수 있습니다.


다음으로,
「girl with long pink hair, instagram photo, kodak, portra, by wlop, ilya kuvshinov, krenz, cushart, pixiv, zbrush sculpt, octane render, houdini, vfx, cinematic atmosphere, 8 k, 4 k 6 0 fps , unreal engine 5, ultra detailed, ultra realistic」이라는 프롬프트를 입력하여 Stable Diffusion 2.0에서 생성한 이미지가 아래입니다.

Stable Diffusion 1.4에서는 "인간의 머리(정수리)가 잘린다"라는 문제가 빈발하지만, Stable Diffusion 2.0에서는 프레임 내에 피사체가 확실히 들어가 있습니다.


같은 프롬프트를 입력하여 Stable Diffusion 1.4에서 생성한 이미지가 아래입니다. Stable Diffusion 2.0에서 생성한 이미지에 비해 윤곽이 흐려진다는 것을 알 수 있습니다.


「1girl, solo, smile, bow, jacket, :d, controller, hairband, holding, bowtie, bangs, blazer, shirt, purple eyes, open mouth, school uniform, looking at viewer, game controller, purple hair, upper body, blue jacket, holding controller, long sleeves, short hair, holding game controller」라는 프롬프트를 입력하여 Stable Diffusion 2.0에서 이미지를 생성하면 이렇습니다. 손가락 모양과 게임 컨트롤러 모양이 부자연스럽습니다.


Stable Diffusion 1.4에서의 생성 결과는 이런 느낌.
얼굴이 프레임 안에 들어가면서 「컨트롤러를 가진 보라색 머리카락의 소녀」라는 지시를 지킨 것은 오른쪽 하단의 1장뿐.


다음에, 일러스트풍의 화상을 생성하기 위해서 위의 프롬프트에「anime style」라는 어구를 더해 Stable Diffusion 2.0으로 생성한 결과가 아래입니다. 등신대 보드판에 조명을 비춘 것 같은 신기한 이미지가 되었습니다만, 프롬프트의 지시는 거의 지켜지고 있고 윤곽도 깨끗합니다.


Stable Diffusion 1.4에서의 생성 결과는 아래. 역시 Stable Diffusion 1.4에서는 얼굴을 프레임에 올바르게 넣는 것이 서투르고, 윤곽도 뭉개는 경향이 있는 것 같습니다.


Stable Diffusion 1.4에서 프롬프트에 맞는 고품질 이미지를 생성하려면 "여러 개의 시드 값으로 이미지를 생성하여 고품질 이미지를 생성할 수 있는 시드 값을 선택하고, 그 시드 값으로 수백 장을 생성하여 선별"하는 작업이 필요합니다만, Stable Diffusion 2.0에서는 랜덤한 시드치에서도 프롬프트의 지시대로 고품질 이미지를 쉽게 생성 가능했습니다.

반응형