채팅으로 이미지 생성이 가능한「Visual ChatGPT」를 Microsoft가 개발

마이크로소프트 리서치 아시아의 첸페이 우 씨의 연구팀이 ChatGPT에 화상 생성 기능을 탑재한「Visual ChatGPT」를 발표했습니다.

Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models
(PDF 파일) https://arxiv.org/pdf/2303.04671.pdf

Microsoft Research Introduces Visual ChatGPT That Incorporates Different Visual Foundation Models Enabling Users To Interact With ChatGPT - MarkTechPost

Microsoft Research Introduces Visual ChatGPT That Incorporates Different Visual Foundation Models Enabling Users To Interact Wit

Recent years have seen remarkable advances in developing large language models (LLMs), including T5, BLOOM, and GPT-3. ChatGPT, based on InstructGPT, is a major advancement because it is taught to hold on to conversational context, respond appropriately to

www.marktechpost.com

Stable Diffusion 같은 이미지 생성 AI를 다루기 위해서는 여러모로 번거로운 작업을 수행해야 합니다.

그래서 우 씨의 연구팀은 기존의 ChatGPT를 기반으로 하는「Visual ChatGPT」라는 대화형 AI를 개발했습니다. Visulal ChatGPT는 입력된 텍스트나 프롬프트를 통해 상호작용하여 이미지를 생성할 수 있습니다.

우 씨의 연구팀은 ChatGPT에 Stable Diffusion이나 InstructPix2Pix 등의 VFM(시각 기반 모델)을 추가했습니다.

Visual ChatGPT의 데모가 이런 느낌.

"고양이 좀 생성해 줄래?"라고 입력하면 즉시 생성해 줍니다.

"고양이를 개로 바꾸고 책을 없애줘"라고 명령하니 바로 적용되는 편안함...

"이 이미지에서 케니 엣지 따줄래?"

Canny Edge detector는 John F.Canny에 의해 1986년에 개발됨.

최적의 디텍터로 많이 알려져 있으며 아래 3가지 주요한 요인을 목표로 함

- 낮은 에러율 : 엣지들만 존재하는 좋은 검출

- 좋은 localization : 엣지가 검출된 픽셀과 실제 엣지 픽셀의 거리를 최소화

- 응답 최소화 : 엣지당 하나의 디텍터만 응답

그런 다음 "엣지 검출된 이미지를 기반으로 노란 개를 생성해 봐"라고 입력하니 즉시 생성 완료.

우 씨가 개발한 Visual ChatGPT의 소스 코드는 GitHub에 공개되어 있으며, Visual ChatGPT를 사용하려면 ChatGPT의 API가 필요합니다.

GitHub - microsoft/visual-chatgpt: Official repo for the paper: Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models
https://github.com/microsoft/visual-chatgpt

GitHub - microsoft/visual-chatgpt: Official repo for the paper: Visual ChatGPT: Talking, Drawing and Editing with Visual Foundat

Official repo for the paper: Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models - GitHub - microsoft/visual-chatgpt: Official repo for the paper: Visual ChatGPT: Talking, Dr...

github.com

'AI · 인공지능 > 이미지 생성 AI' 카테고리의 다른 글

'닮은 이미지'를 무한 생성하는「Stable diffusion reimagine」사용법 (0)	2023.03.21
Stable Diffusion 설치없이 브라우저에서 동작 가능한「Web Stable Difusion」등장 (0)	2023.03.18
「Blender + ControlNet」을 사용하여 애니메이션을 만드는 방법 (3)	2023.03.18
「Midjourney V5」등장, 취약했던 '손'도 깨끗하고 실사와의 구별은 거의 불가능 (0)	2023.03.17
「Stable Diffusion」으로 fMRI에 의한 뇌 활동 데이터로부터 이미지를 생성하는 연구 (0)	2023.03.08
「Stable Diffusion」을 활용하여 RPG게임 배경 제작 (0)	2023.03.06
Stable Diffusion 개발사가 3D 애니메이션 생성 AI「Stability For Blender」를 발표 (0)	2023.03.06
「Stable Diffusion」에서 단 1장의 이미지로부터「~ 같은 ○○」를 불과 수십초만에 생성하는 방법 (0)	2023.03.02

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

두우우부

채팅으로 이미지 생성이 가능한「Visual ChatGPT」를 Microsoft가 개발

'AI · 인공지능 > 이미지 생성 AI' 카테고리의 다른 글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역

채팅으로 이미지 생성이 가능한「Visual ChatGPT」를 Microsoft가 개발

'AI · 인공지능 > 이미지 생성 AI' 카테고리의 다른 글

관련글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역