본문 바로가기
AI · 인공지능/이미지 생성 AI

「스테이블 디퓨전(Stable Diffusion)」이 실은 꽤 우수한 이미지 압축을 실현할 수 있다는 것이 판명

by 두우우부 2022. 9. 21.
반응형

2022년 8월에 공개된 Stable Diffusion은 입력한 단어에 따라 이미지를 자동으로 생성해주는 AI입니다. 그런 Stable Diffusion을 이미지 생성 AI뿐만 아니라 강력한 비가역 이미지 압축 코덱으로 사용하는 방법에 대해 소프트웨어 엔지니어 매튜 뷰르만 씨가 해설하고 있습니다. 

 

Stable Diffusion based Image Compression | by Matthias

 

Stable Diffusion based Image Compresssion

Stable Diffusion makes for a very powerful lossy image compression codec

matthias-buehlmann.medium.com

 


아래는 압축된 이미지로 샌프란시스코 시가지를 촬영한 것입니다.

 

1장째가 JPEG 형식,

2장째가 WebP 형식,

3장째가 Stable Diffusion에 의한 압축입니다.


그다음은 과자 가게 진열장 사진입니다. 

1장째가 JPEG 형식,

2장째가 WebP 형식,

3장째가 Stable Diffusion에 의한 압축입니다.


아래는 알파카의 얼굴 사진.

1장째가 JPEG 형식,

2장째가 WebP 형식,

3장째가 Stable Diffusion에 의한 압축입니다.

 


모두 Stable Diffusion을 사용한 압축이 가장 노이즈가 적고, 압축 후 파일의 크기가 가장 작습니다.

Stable Diffusion으로 이미지를 생성할 때 이미지를 이미지 공간에서 어떤 잠재 공간으로 인코딩 및 디코딩하는 것이 Variational Auto Encoder(VAE)입니다. 잠재 공간 표현이란 임의의 소스 이미지(3×8 또는 4×8비트로 512×512픽셀)를 저해상도(64×64픽셀) · 고정밀도(4x32비트)로 표현한 것입니다.

예를 들면 이하의 512×512픽셀 · 24bpp의 화상을...


VAE로 64 × 64 픽셀 · 128bpp의 이미지로 인코딩하면 이런 느낌.


그리고 인코딩한 이미지를 512×512픽셀 · 24bpp의 이미지로 디코드 한 것이 아래입니다. 언뜻 보면 원래대로 돌아온 것처럼 보이지만, 실은 알파카의 목줄에 쓰인 문자가 다소 읽기 어려워지는 등, 약간의 손실이 발생하고 있습니다.


Bullman은 Stable Diffusion을 이미지 압축 코덱으로 활용하기 위해 VAE에서 생성된 잠재 화상 표현을 어디까지 효율적으로 압축할 수 있는지 검토했습니다. 잠재 화상을 다운 샘플링하거나 기존의 비가역 화상 압축방식을 적용하거나 하면, 재구성된 화상이 크게 열화 되어 버렸다고 합니다. 한편, VAE의 디코딩은 잠재 이미지의 양자화에 매우 강한 것으로 나타났습니다.

VAE에서 잠재 화상을 8bit로 양자화함으로써, 화상 표현의 데이터 사이즈는 64 × 64 × 4 × 8bit = 13만 1072bit = 약 16.4kB가 됩니다. 게다가 플로이드-스타인버그 디더링을 사용해 256개의 팔레트 화한 표현을 사용하는 것으로, 데이터 사이즈는 64 × 64 × 8비트+256 × 4 × 8비트=4만 960bit=약 5.12kB가 됩니다.

잠재 팔레트에는 플로이드-스타인버그 디더링에 의해 노이즈가 발생하기 때문에 디코드 결과에는 왜곡이 발생합니다. 그러나 Stable Diffusion은 잠재 이미지에서 노이즈를 제거하는 메커니즘이므로 여러 번 반복하여 디코딩 결과가 원본 이미지에 가깝습니다.

그러나 Stable Diffusion은 이미지 품질보다 이미지 콘텐츠 자체에 영향을 미친다는 특성이 있습니다. Stable Diffusion의 버전 1.4로 잠재 공간에 작은 문자나 얼굴을 유지할 수 없기 때문에, 언뜻 화질이 깨끗한 것처럼 보이더라도, 실제로는 완전히 다른 이미지가 되어 버리는 일도 있다고 합니다. Bullman은 "버전 1.5에서 이 문제가 해결되면 Stable Diffusion의 이미지 압축 알고리즘으로 유용성을 더욱 높일 것"이라고 코멘트하고 있습니다.

 

 

관련글

 

스테이블 디퓨전 결정판「Google Colab + Stable Diffusion Web UI AUTOMATIC1111판」설치 정리(GPU 불필요)

이미지 생성 AI 「Stable Diffusion」을 간단하게 이용하기 위한 환경 중 하나인 「Stable Diffusion web UI」의 개발 기여자 중 한 명인 AUTOMATIC1111씨가 「기능 총집판 Stable Diffusion web UI」를 배포했습..

doooob.tistory.com

 

반응형