본문 바로가기
AI · 인공지능/이미지 생성 AI

채팅으로 이미지 생성이 가능한「Visual ChatGPT」를 Microsoft가 개발

by 두우우부 2023. 3. 16.
반응형

 
마이크로소프트 리서치 아시아의 첸페이 우 씨의 연구팀이 ChatGPT에 화상 생성 기능을 탑재한「Visual ChatGPT」를 발표했습니다.

Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models
(PDF 파일) https://arxiv.org/pdf/2303.04671.pdf


Microsoft Research Introduces Visual ChatGPT That Incorporates Different Visual Foundation Models Enabling Users To Interact With ChatGPT - MarkTechPost

Microsoft Research Introduces Visual ChatGPT That Incorporates Different Visual Foundation Models Enabling Users To Interact Wit

Recent years have seen remarkable advances in developing large language models (LLMs), including T5, BLOOM, and GPT-3. ChatGPT, based on InstructGPT, is a major advancement because it is taught to hold on to conversational context, respond appropriately to

www.marktechpost.com



Stable Diffusion 같은 이미지 생성 AI를 다루기 위해서는 여러모로 번거로운 작업을 수행해야 합니다.



그래서 우 씨의 연구팀은 기존의 ChatGPT를 기반으로 하는「Visual ChatGPT」라는 대화형 AI를 개발했습니다. Visulal ChatGPT는 입력된 텍스트나 프롬프트를 통해 상호작용하여 이미지를 생성할 수 있습니다.

우 씨의 연구팀은 ChatGPT에 Stable Diffusion이나 InstructPix2Pix 등의 VFM(시각 기반 모델)을 추가했습니다. 



Visual ChatGPT의 데모가 이런 느낌. 

"고양이 좀 생성해 줄래?"라고 입력하면 즉시 생성해 줍니다.


"고양이를 개로 바꾸고 책을 없애줘"라고 명령하니 바로 적용되는 편안함...



"이 이미지에서 케니 엣지 따줄래?"

Canny Edge detector는 John F.Canny에 의해 1986년에 개발됨.

최적의 디텍터로 많이 알려져 있으며 아래 3가지 주요한 요인을 목표로 함

- 낮은 에러율 : 엣지들만 존재하는 좋은 검출

- 좋은 localization : 엣지가 검출된 픽셀과 실제 엣지 픽셀의 거리를 최소화

- 응답 최소화 : 엣지당 하나의 디텍터만 응답



그런 다음 "엣지 검출된 이미지를 기반으로 노란 개를 생성해 봐"라고 입력하니 즉시 생성 완료.



우 씨가 개발한 Visual ChatGPT의 소스 코드는 GitHub에 공개되어 있으며, Visual ChatGPT를 사용하려면 ChatGPT의 API가 필요합니다.

GitHub - microsoft/visual-chatgpt: Official repo for the paper: Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models
https://github.com/microsoft/visual-chatgpt

GitHub - microsoft/visual-chatgpt: Official repo for the paper: Visual ChatGPT: Talking, Drawing and Editing with Visual Foundat

Official repo for the paper: Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models - GitHub - microsoft/visual-chatgpt: Official repo for the paper: Visual ChatGPT: Talking, Dr...

github.com

 

반응형