SnapFusion: Text-to-Image Diffusion Model on Mobile Devices within Two Seconds
https://arxiv.org/abs/2306.00980
미국의 Snap(스냅챗으로 유명한 메타버스 관련 기업)과 노스 이스턴 대학의 연구자 팀은 논문을 발표하고, 모바일 장치에서 텍스트로 2초 이내에 이미지를 생성하는 새로운 확산 모델 'SnapFusion'을 제안했습니다.
텍스트 프롬프트를 이용한 사진같이 리얼한 이미지 생성 기술은 최근 엄청난 발전을 이루고 있지만, 이러한 모델은 복잡한 대규모 네트워크 아키텍처와 많은 노이즈 제거 단계를 필요로 하며, 높은 컴퓨팅 비용과 오랜 시간을 필요로 합니다.
연구팀은 이러한 문제를 해결하기 위해 모바일 기기에서 2초 이내에 이미지를 생성할 수 있는 새로운 확산 모델을 제안했습니다. 구체적으로 연구팀은 확산 모델 "Stable Diffusion v1.5"의 중복성을 분석하고 UNet 모델의 성능을 유지하면서 효율성을 향상시키는 아키텍처 진화형 기법을 채용하고 있다고 합니다.
또한 연구자들은 UNet 모델의 노이즈 제거 단계 수를 줄이는 방안을 모색했습니다. 스텝 증류(step distillation)라고 하는 이 접근법은 예를 들어 32스텝의 지도학습을 16스텝으로 실행하는 학생에게 증류함으로써 스텝 수를 줄여 학생이 교사에 비해 2배의 속도를 달성할 수 있게 했습니다. 50번의 노이즈 제거 스텝을 실시하는 Stable Diffusion v1.5와 비교해, 제안된 기법에서는 8번의 노이즈 제거 스텝으로 삭감할 수 있었다고 합니다.
제안된 방법의 실험에서는, 시판중인 스마트폰(iPhone 14 Pro)을 이용하여 이미지 생성 시간을 계측하였습니다. 그 결과, Stable Diffusion v1.5와 동등한 화질을 유지한 채, 텍스트로부터 512 x 512의 이미지를 1.84초 만에 생성할 수 있다는 것이 밝혀졌습니다. 다만, 이 실험은 높은 계산 능력을 가진 특정 스마트폰으로 행해진 것으로, 모든 스마트폰에 있어서 유사한 결과가 얻어지는 것은 아니라고 연구자들은 지적하고 있습니다.
이제, 바야흐로 생성 AI의 춘추전국시대에 들어선 느낌이네요~
'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글
화웨이, 개발자 대회에서 ChatGPT에 필적하는 대규모 모델 '반고 Chat'을 발표 예정 (3) | 2023.06.15 |
---|---|
OpenAI가 GPT-4의 개량, 비용 절감 등 API의 대폭적인 업데이트를 발표 (3) | 2023.06.15 |
'일본은 나에게 소중한 나라' OpenAI의 CEO가, 게이오대에서 학생들과 대담 (3) | 2023.06.14 |
분위기를 지정하여 AI가 이미지 배색을 조정해 주는 「Generative recolor」 (3) | 2023.06.14 |
AI를 과시하지 않는 애플, WWDC23에서 신제품 및 업데이트 기능을 발표 (3) | 2023.06.14 |
OpenAI의 CEO가 소프트뱅크의 손정의를 만나 공동 사업을 찾고 있습니다. (3) | 2023.06.14 |
OpenAI, 100만 달러 규모의 사이버 보안 보조금 프로그램 시작 (3) | 2023.06.14 |
Stable Diffusion이 배경을 자동 생성하는 2D 액션 게임 「Dimension Hopper」가 등장 (3) | 2023.06.14 |