「Stable Diffusion」개발사가 문자 표현도 자연스러운 이미지를 생성 AI「DeepFloyd IF」발표

문장(프롬프트)에서 이미지를 생성하는 AI "Stable Diffusion"을 개발한 Stability AI가 새로운 이미지 생성 AI 「DeepFloyd IF」를 발표했습니다. 이미지 속 문자를 어색함 없이 반영하는 등의 처리가 향상되었습니다.

DeepFloyd IF — DeepFloyd
https://deepfloyd.ai/deepfloyd-if

DeepFloyd IF — DeepFloyd

Words fill the air: IF has a special affection for the text — and can embroider it on fabric, insert it into a stained-glass window, include it in a collage, light it up on a neon sign. Most text-to-image models you can try have struggled with these use

deepfloyd.ai

Stability AI가 대규모 언어 모델을 도입한 고성능 텍스트에서 이미지로의 변환 모델 "DeepFloyd IF" 발표
https://stability.ai/blog/deepfloyd-if-text-to-image-model

Stability AI releases DeepFloyd IF, a powerful text-to-image model that can smartly integrate text into images — Stability AI

Optimize your search engine ranking with DeepFloyd IF - a cutting-edge text-to-image model available under a non-commercial, research-permissible license. Explore advanced text-to-image generation approaches and experiment with the model to unlock new poss

stability.ai

DeepFloyd IF 데모 페이지가 공개되었으므로 실제로 사용해 보았습니다.

먼저 프롬프트를 입력하고 Generate를 클릭합니다. 이번 프롬프트로 "복부에 '잘 자'라는 문자가 적힌 옷을 입은 코알라"라고 한국어로 입력하고, Negative Prompt(적용하고 싶지 않은 프롬프트)는 공백으로 했습니다.

그러자 별 관련도 없는 이미지가 생성되었습니다.

어떤 프롬프트든 한국어로 입력하면 이런 느낌의 이미지가 나와 버리므로, 아직 한국어에는 대응하고 있지 않는 것 같습니다.

요번에는 영어로 프롬프트를 입력해 본 결과입니다. 이미지가 4개 표시되지만, 모두 저해상도로 출력되고 있으므로, 다음에 업스케일 처리를 실시할 필요가 있습니다.

좋아하는 이미지를 1장 선택해 「Upscale」을 클릭.

그러면 이런 식으로 업스케일 된 이미지가 표시됩니다.

DeepFloyd IF의 생성 순서를 간단히 나타낸 것이 아래의 그림입니다. 입력된 프롬프트는 frozen T5-XXL 언어 모델을 통해 질적 텍스트 표현으로 변환되며, IF-I 400M, IF-I 900M, IF-I 4.3B의 세 가지 기본 모델로 64x64 이미지로 변환됩니다.

두 번째 단계에서는 IF-II 450M 또는 IF-II 1.2B에서 훈련한 "Efficient U-Net"을 기본 모델의 출력에 적용합니다. 그중 하나는 64x64 이미지를 256x256 이미지로 업 스케일링하는 것입니다. 세 번째 단계에서는 두 번째 단계에서 적용되지 않은 모델이 적용되어 1024x1024의 선명한 이미지가 생성됩니다.

DeepFloyd IF는 LAION-A 데이터 세트로 학습되었습니다. LAION-A는 LAION-5B 데이터 세트에서 유사한 해시를 기반으로 중복 제거, 클리닝 및 원본 데이터 세트에 대한 기타 수정을 통해 얻은 것으로 DeepFloyd의 사용자 지정 필터를 사용하여 워터 마크, NSFW 및 기타 부적절한 콘텐츠가 제거되었습니다.

DeepFloyd AI는 다른 모델들은 서투른 "깨끗한 문자의 반영"을 어필하고 있으며, 이미지 내에 문자를 올바르게 반영시킬 수 있습니다. 노래 가사를 DeepFloyd AI로 생성하여 이미지에 반영하고 동영상으로 만든 샘플을 아래에서 확인할 수 있습니다. 여러 장면에서 가사 그대로의 문자가 이미지에 반영되어 있음을 알 수 있습니다.

Lyric video, but it's AI Generated (The Smiths - There Is a Light That Never Goes Out) - YouTube

같은 프롬프트를 바탕으로 Stable Diffusion 2.1과 DeepFloyd AI로 이미지를 생성하여 나란히 비교한 것이 아래 이미지입니다.

이번에는 Imagen 과의 비교 이미지.

Muse

eDiff-I

Parti

DALL·E2 와의 비교입니다.

'AI · 인공지능 > 이미지 생성 AI' 카테고리의 다른 글

프롬프트를 입력하면 이미지의 객체를 변환해주는 'Edit Anything' 리뷰 (4)	2023.05.16
「Stale Diffusion」개발사가 텍스트로 애니를 생성할 수 있는 「Stable Animation SDK」릴리즈 (5)	2023.05.15
OpenAI가 텍스트와 이미지로 3D 모델을 생성하는 오픈 소스 AI 「Shap-E」를 발표 (0)	2023.05.10
업 스케일링 API를 「Stable Diffusion」개발사인 Stability AI가 발표 (0)	2023.05.03
NVIDIA가 텍스트로 고해상도 영상을 생성하는 AI 모델 「VideoLDM」 발표 (0)	2023.04.21
손그림을 애니로 변환하는 오픈 소스 프로젝트「Animated Drawings」를 Meta AI가 릴리즈 (0)	2023.04.14
「Stable Diffusion + Multi ControlNet」으로 실사같은 애니메이션을 생성 (0)	2023.04.13
이미지 생성 프롬프트를 사진이나 일러스트로 검색할 수 있는 「unprompt.ai」 (0)	2023.04.05

두우우부

「Stable Diffusion」개발사가 문자 표현도 자연스러운 이미지를 생성 AI「DeepFloyd IF」발표

'AI · 인공지능 > 이미지 생성 AI' 카테고리의 다른 글

티스토리툴바

「Stable Diffusion」개발사가 문자 표현도 자연스러운 이미지를 생성 AI「DeepFloyd IF」발표

'AI · 인공지능 > 이미지 생성 AI' 카테고리의 다른 글

관련글

티스토리툴바