이미지 생성 AI「Stable Diffusion」의 버전 2.0이 등장, 해상도 확대&디지털 워터마크 기능도
영국의 스타트업 · Stability AI가, 이미지 생성 AI · Stable Diffusion의 버전 2.0에 해당하는「Stable Diffusion 2.0-v」를 릴리스했다고 발표했습니다.
Stable Diffusion 2.0-v는 LAION-5B에서 생성된 서브셋으로 학습되었으며, 기본 출력 이미지 해상도로 768 × 768픽셀도 선택 가능하게 되었습니다. 또한 이미지 해상도를 4배로 높이는 Upscaler Diffusion 모델도 포함되어 있어, 2048x2048 픽셀 혹은 그 이상의 해상도로 이미지를 생성할 수 있게 되었습니다.
Stable Diffusion 2.0 Release — Stability.Ai
https://stability.ai/blog/stable-diffusion-v2-release
GitHub - Stability-AI/stablediffusion: High-Resolution Image Synthesis with Latent Diffusion Models
https://github.com/Stability-AI/stablediffusion
오픈 소스로 공개된 이미지 생성 AI Stable Diffusion은 지금까지 버전 1.1 ~ 1.4가 공개되었습니다. 또한 버전 1.5에 대해서는 오픈 소스로는 공개되지 않지만 Stablitiy AI가 운영하는 유료 이미지 생성 서비스 DreamStudio에서 사용 가능했습니다. 또한 Stability AI와 공동으로 Stable Diffusion을 개발하고 있던 Runway ML이 Stablity AI와는 별도로 버전 1.5 모델을 공개하고 있습니다.
이번에 공개된 버전 2.0은 U-Net의 파라미터 수는 버전 1.5와 같지만, 텍스트 인코더에 OpenAI의 OpenCLIP-ViT/H를 처음부터 사용하여 학습하고 있다는 것. 또, Stable Diffusion 2.0-v는 디폴트 해상도가 512 ×512 픽셀의 노이즈 예측 모델로서 트레이닝된「Stable Diffusion 2.0-base」로부터 미세 조정되고 있으며, 해상도를 4배로 업 컨버트 하는 모델도 추가되어 있어, 2048 ×2048픽셀의 화상도 출력할 수 있게 되어 있다고 합니다.
또한 텍스트뿐만 아니라 이미지도 프롬프트로 입력할 수 있는 img2img 기능을 강화하기 위해 이미지를 분석하여 카메라와 피사체의 거리를 추정하는 '외눈 심도 추정(Monocular Depth Estimation)' 모델 MiDas 를 통합한 'depth2img'라는 기능도 추가되었습니다. 동시에 이미지 내의 임의의 장소를 AI로 그려서 자동 수정하는 Inpainting 도 쇄신되어 그 성능과 속도가 향상되었다고 합니다.
또한 Stable Diffusion 2.0-v는 참조 샘플링 스크립트도 지원합니다.
이것은 이미지가 AI에 의해 생성되었다는 것을 나타내는 "디지털 워터마크"를 이미지에 통합하는 것입니다.
Stable Diffusion 2.0-v의 모델은 오픈 소스로 공개되지는 않지만 DreamStudio에서 사용할 수 있습니다. 또, AI 플랫폼의 Hugging Face에서는 Stable Diffusion 2.0-v의 데모를 체험할 수 있습니다. 하지만 현재 액세스가 집중되고 있는 것 같아, "This application is too busy."라고 표시되며 이미지를 생성할 수 없었습니다.
Stable Diffusion 2 - a Hugging Face Space by stabilityai
https://huggingface.co/spaces/stabilityai/stable-diffusion