본문 바로가기
AI · 인공지능/AI 뉴스

AI 이미지 생성의 새로운 확산 모델을 미국 Snap과 노스 이스턴 대학이 제안

by 두우우부 2023. 6. 14.
반응형

 


SnapFusion: Text-to-Image Diffusion Model on Mobile Devices within Two Seconds
https://arxiv.org/abs/2306.00980

SnapFusion: Text-to-Image Diffusion Model on Mobile Devices within Two Seconds

Text-to-image diffusion models can create stunning images from natural language descriptions that rival the work of professional artists and photographers. However, these models are large, with complex network architectures and tens of denoising iterations

arxiv.org



미국의 Snap(스냅챗으로 유명한 메타버스 관련 기업)과 노스 이스턴 대학의 연구자 팀은 논문을 발표하고, 모바일 장치에서 텍스트로 2초 이내에 이미지를 생성하는 새로운 확산 모델 'SnapFusion'을 제안했습니다.

텍스트 프롬프트를 이용한 사진같이 리얼한 이미지 생성 기술은 최근 엄청난 발전을 이루고 있지만, 이러한 모델은 복잡한 대규모 네트워크 아키텍처와 많은 노이즈 제거 단계를 필요로 하며, 높은 컴퓨팅 비용과 오랜 시간을 필요로 합니다.

연구팀은 이러한 문제를 해결하기 위해 모바일 기기에서 2초 이내에 이미지를 생성할 수 있는 새로운 확산 모델을 제안했습니다. 구체적으로 연구팀은 확산 모델 "Stable Diffusion v1.5"의 중복성을 분석하고 UNet 모델의 성능을 유지하면서 효율성을 향상시키는 아키텍처 진화형 기법을 채용하고 있다고 합니다.

또한 연구자들은 UNet 모델의 노이즈 제거 단계 수를 줄이는 방안을 모색했습니다. 스텝 증류(step distillation)라고 하는 이 접근법은 예를 들어 32스텝의 지도학습을 16스텝으로 실행하는 학생에게 증류함으로써 스텝 수를 줄여 학생이 교사에 비해 2배의 속도를 달성할 수 있게 했습니다. 50번의 노이즈 제거 스텝을 실시하는 Stable Diffusion v1.5와 비교해, 제안된 기법에서는 8번의 노이즈 제거 스텝으로 삭감할 수 있었다고 합니다.

제안된 방법의 실험에서는, 시판중인 스마트폰(iPhone 14 Pro)을 이용하여 이미지 생성 시간을 계측하였습니다. 그 결과, Stable Diffusion v1.5와 동등한 화질을 유지한 채, 텍스트로부터 512 x 512의 이미지를 1.84초 만에 생성할 수 있다는 것이 밝혀졌습니다. 다만, 이 실험은 높은 계산 능력을 가진 특정 스마트폰으로 행해진 것으로, 모든 스마트폰에 있어서 유사한 결과가 얻어지는 것은 아니라고 연구자들은 지적하고 있습니다.

이제, 바야흐로 생성 AI의 춘추전국시대에 들어선 느낌이네요~

반응형