본문 바로가기
AI · 인공지능/AI 뉴스

Stable Diffusion 3 Medium이 오픈 릴리스

by 두우우부 2024. 6. 17.
반응형

 

이미지 생성 AI "Stable Diffusion"을 개발하는 Stability AI가 "Stable Diffusion 3 Medium"의 모델을 공개한다고 발표했습니다.

Stable Diffusion 3 Medium의 오픈 릴리스 발표 — Stability AI

Stable Diffusion 3 Medium — Stability AI

We are excited to announce the launch of Stable Diffusion 3 Medium, the latest and most advanced text-to-image AI model in our Stable Diffusion 3 series.

stability.ai


stabilityai/stable-diffusion-3-medium · Hugging Face
https://huggingface.co/stabilityai/stable-diffusion-3-medium

stabilityai/stable-diffusion-3-medium · Hugging Face

Stable Diffusion 3 Medium Model Stable Diffusion 3 Medium is a Multimodal Diffusion Transformer (MMDiT) text-to-image model that features greatly improved performance in image quality, typography, complex prompt understanding, and resource-efficiency. For

huggingface.co



Stable Diffusion 3은 2024년 2월에 발표된 모델로, 지정한 문자를 이미지 속에 위화감 없이 묘사하거나 여러 피사체를 고화질로 묘사하는 등의 특징으로 화제가 되었습니다.

Stability AI가 고화질 이미지 생성 AI 「Stable Diffusion 3」를 발표

Stability AI가 이미지 생성 AI 「Stable Diffusion 3」을 2024년 2월 23일에 발표했습니다. Stable Diffusion 3에서는 기존의 이미지 생성 AI에서는 어려웠던 「지정한 문자를 생성하고 위화감 없이 묘사」, 「복

doooob.tistory.com



Stable Diffusion 3 Medium은 파라미터 수 20억의 비교적 작은 사이즈 모델로, 개인용 시스템이나 기업용 GPU로 동작시키기에 최적이라고 합니다.


Stability AI가 든 Stable Diffusion 3 Medium의 특징은 다음과 같습니다.


・ 전체적인 품질과 포토 리얼리즘
디테일, 칼라, 라이팅이 뛰어나고, 포토 리얼리틱한 출력과, 유연한 스타일로 고품질 출력을 가능하게 합니다. 16 채널 VAE 등의 연구에 의해, 손이나 얼굴의 리얼함, 다른 모델에서는 흔한 문제점에 대응했습니다.

· 프롬프트 이해
공간 추론, 구성 요소, 액션 및 스타일을 포함하여 길고 복잡한 프롬프트를 이해합니다. 세 가지 텍스트 인코더를 조합 사용하여 성능과 효율성을 절충할 수 있습니다.

· 텍스트 생성
Diffusion Transformer architecture는 맞춤법, 커닝, 글자체, 스페이싱의 실수를 줄여, 지금까지 없었던 텍스트 품질을 실현합니다.

· 리소스 효율
낮은 VRAM 풋 프린트를 통해 표준 소비자 GPU에서도 성능의 저하 없이 실행할 수 있습니다.

・ 파인 튜닝
작은 데이터 세트로부터 미묘한 디테일을 이해할 수 있어 커스터마이징에 최적화되어 있습니다.


또한, Stability AI는 NVIDIA나 AMD와의 컬래버레이션을 발표, NVIDIA RTX GPU와 TensorRT를 활용하여 Stable Diffusion 3 Medium을 포함한 모든 Stable Diffusion 모델의 성능이 향상되었습니다. 특히, TensorRT에 최적화된 버전은 기존에 비해 성능이 50% 향상된다고 합니다.

또한, AMD제의 APU나 컨슈머용 GPU, MI-300X엔터프라이즈 GPU 등 다양한 AMD 디바이스용으로, Stable Diffusion 3 Medium의 추론을 최적화하고 있다고 Stability AI는 발표했습니다.

Stable Diffusion 3 Medium의 모델 데이터는 온라인 AI 플랫폼인 Hugging Face에서 공개되며, 개방된 비상업용 라이선스와 저비용 제작자 라이선스하에 사용할 수 있습니다.

또한, Stable Diffusion 3 Medium의 오픈 릴리즈와 동시에, Stable Diffusion 3 Medium의 API도 이용 가능하게 되어 있어, 챗봇의 「Stable Assistant」 나, Discord상에서 동작하는 「Stable Artisan」 으로 이용할 수 있습니다. 둘 다 이용하려면 월간 유료 구독 플랜에 등록해야 하지만, 3일간 무료 평가판 이용이 가능합니다.

반응형