본문 바로가기
AI · 인공지능/이미지 생성 AI

스마트폰에서도 단 2초 만에 이미지를 생성할 수 있는 「SnapFusion」

by 두우우부 2023. 6. 15.
반응형

 

이미지 생성 AI의 Stable Diffusion은 문장을 입력하는 것만으로 일러스트와 사진을 자동으로 생성해 줍니다. 그러나 이 이미지 생성 프로세스는 복잡한 처리를 여러 번 수행하기 때문에 고사양 GPU가 장착된 머신이 필요합니다. 그런 Stable Diffusion을 스마트폰상에서 1장당 2초 미만이라는 속도로 이미지 생성할 수 있도록 한 "SnapFusion"을 개발했다고 노스 이스턴 대학과 사진 공유 앱 Snapchat의 개발 기업인 Snap 의 연구원이 발표했습니다.

AI 이미지 생성의 새로운 확산 모델을 미국 Snap과 노스 이스턴 대학이 제안

AI 이미지 생성의 새로운 확산 모델을 미국 Snap과 노스 이스턴 대학이 제안

SnapFusion: Text-to-Image Diffusion Model on Mobile Devices within Two Seconds https://arxiv.org/abs/2306.00980 SnapFusion: Text-to-Image Diffusion Model on Mobile Devices within Two SecondsText-to-image diffusion models can create stunning images from nat

doooob.tistory.com


SnapFusion
https://snap-research.github.io/SnapFusion/

SnapFusion

snap-research.github.io


SnapFusion이 고속으로 이미지를 생성하는 모습은 다음 영상에서 볼 수 있습니다.

On-Device Demo for SnapFusion - YouTube



iPhone에서 SnapFusion을 실행하는 모습입니다. dog head drawing 을 입력하여 생성합니다.



서버에 프롬프트를 보내면 처리가 진행됩니다.



처리가 시작되고 몇 초 안에 강아지 그림이 표시되었습니다.



이번에는 "in oil painting(유화로 그려달라)"라고 추가 기입하여 생성.



초고속으로 처리가 진행됩니다.



강아지 그림이 유화 같은 터치로 완성되었습니다.



다시 Generate를 누르면 시드 값이 바뀌었는지 또 다른 강아지 그림이 생성되었습니다.



연구팀은 독창적인 Stable Diffusion의 중복성을 식별하고 계산량을 줄임으로써, 보다 효율적인 UNet(Fully Convolution Network의 하나이며 디코더측에서 특징 맵을 확대해 처리할 때, 엔코더측의 특징 맵을 같은 사이즈가 되도록 잘라내어 이용하는 모델)을 제안합니다. 위 영상에서 보시면 이미지 생성 스텝 수가 겨우 8 입니다. Stable Diffusion 버전 1.5에서는 스텝 수가 50에 달하며, 연구팀은 8 스텝으로 생성한 이미지가 응답성 및 프롬프트 간의 연관성에서 더 뛰어났다고 주장합니다.

실제로, SnapFusion에 의한 8 스텝 설정에서의 생성(붉은색)과 Stable Diffusion 버전 1.5의 50 스텝 설정에서의 생성(파란색)을 비교한 그래프가 아래입니다.

FID(응답성)이 세로축으로, 프롬프트와의 관련성(CLIP Score)은 SnapFusion 쪽이 높은 것을 알 수 있습니다. Stable Diffusion 버전 1.5에서는 이미지 1장의 생성에 1분 24초 걸렸던 것이 SnapFusion이라고 1.84초밖에 걸리지 않았다는 것.
 

 

연구팀은 "텍스트로 이미지를 생성하는 강력한 확산 모델을 사용자에게 제공하여 콘텐츠 제작을 대중화하는 것이 우리의 역할"이라고 말했습니다.

반응형