텍스트를 기반으로 이미지를 생성하는 몇 가지 AI 모델이 있지만 고품질 이미지를 생성하는 주요 모델은 수십억 개의 매개 변수를 처리하므로 기본적으로 고사양의 단말이 필요합니다. 2024년 1월 31일 구글 엔지니어들이 「MobileDiffusion」이라는 어프로치를 발표하고 스마트폰과 같은 모바일 기기에서도 효율적으로 이미지를 생성하는 법을 소개했습니다.
MobileDiffusion: Rapid text-to-image generation on-device – Google Research Blog
Stable Diffusion이나 DALL-E 등의 모델이 진화하는 한편, 모바일 디바이스로 이미지를 고속 생성하는 것은 그 진행이 더뎠습니다. 특히 노이즈 제거를 반복하여 고품질의 이미지를 생성하는 "샘플링" 등의 시도(스텝) 횟수가 늘어나면 모바일 디바이스의 스펙에서는 처리할 수 없는 경우도 있습니다. 선행 연구에서는 이 샘플링 스텝을 줄이는 것에 초점이 맞춰졌습니다만, 샘플링 스텝을 줄여도 모델의 아키텍처가 복잡하기 때문에 생성에 시간이 걸릴 수 있다는 것입니다.
그래서 Google이 개발한 것이 "MobileDiffusion"입니다. Google은 이를 '모바일 기기용으로 설계된 효율적인 잠재 확산 모델'로 자리매김하고 있으며 512 ×512픽셀의 고화질 이미지를 Android 및 iOS 기기에서 0.5초 만에 생성하는 등 모바일 기기 전문 이미지 생성 모델로 완성하고 있다는 것입니다.
아래 이미지는 모바일 장치에서 실시간으로 이미지를 생성하는 모습입니다.
Google은 아키텍처의 복잡성을 해소하기 위해 DiffusionGAN을 채용하여 원스텝 샘플링을 실현, 텍스트에서 이미지로의 확산 모델에서 매우 중요한 역할을 하는 변환 블록의 효율성을 개선하기 위해, 병목에서 자원 집약이 적은 UViT 아키텍처의 아이디어를 채용하여 UNet 아키텍처를 구축했다는 것.
MobileDiffusion의 UNet과 다른 여러 확산 모델의 UNet을 비교하면 다음 이미지와 같이, MobileDiffusion은 FLOPs(부동 소수점 연산)과 파라미터 수에서 뛰어난 효율을 보여줍니다. 또한 Google은 UNet 외에도 이미지 디코더도 최적화하고 있어 성능을 대폭 향상해 대기 시간을 50% 가까이 단축했다고 설명하고 있습니다.
DiffusionGAN의 원스텝 샘플링에 의해 실현된 MobileDiffusion으로 만들어진 이미지입니다. 최종적으로 모델은 5억 2000만의 콤팩트한 파라미터 수가 되어, 모바일 디바이스에서도 고품질이면서도 다양한 이미지를 생성할 수 있다고 합니다.
'AI · 인공지능 > 이미지 생성 AI' 카테고리의 다른 글
사진이나 일러스트가 노래하도록 하거나 말하게 하는 AI 시스템 「EMO」가 등장 (76) | 2024.03.04 |
---|---|
Stable Diffusion XL이 「SDXL-Lightning」의 데모를 공개 (75) | 2024.02.28 |
Stability AI가 고화질 이미지 생성 AI 「Stable Diffusion 3」를 발표 (85) | 2024.02.26 |
스테이블 디퓨전의 제작사 Stability AI가「Stable Cascade」를 발표 (85) | 2024.02.22 |
고해상도 이미지를 0.5초 만에 생성하는 오픈 소스 AI 이미지 생성 모델 「PixArt-δ」가 등장 (91) | 2024.01.30 |
Google이 초 고품질의 동영상 생성 AI 「Lumiere」를 발표 (108) | 2024.01.26 |
TikTok의 모회사 ByteDance가 텍스트로 고품질 동영상을 생성하는 AI「MagicVideo-V2」발표 (91) | 2024.01.22 |
초당 100장 이상의 화상을 생성할 수 있는 고속 화상 생성 파이프라인 「StreamDiffusion」이 등장 (2) | 2023.12.26 |