마이크로소프트 리서치 아시아의 첸페이 우 씨의 연구팀이 ChatGPT에 화상 생성 기능을 탑재한「Visual ChatGPT」를 발표했습니다.
Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models
(PDF 파일) https://arxiv.org/pdf/2303.04671.pdf
Microsoft Research Introduces Visual ChatGPT That Incorporates Different Visual Foundation Models Enabling Users To Interact With ChatGPT - MarkTechPost
Stable Diffusion 같은 이미지 생성 AI를 다루기 위해서는 여러모로 번거로운 작업을 수행해야 합니다.
그래서 우 씨의 연구팀은 기존의 ChatGPT를 기반으로 하는「Visual ChatGPT」라는 대화형 AI를 개발했습니다. Visulal ChatGPT는 입력된 텍스트나 프롬프트를 통해 상호작용하여 이미지를 생성할 수 있습니다.
우 씨의 연구팀은 ChatGPT에 Stable Diffusion이나 InstructPix2Pix 등의 VFM(시각 기반 모델)을 추가했습니다.
Visual ChatGPT의 데모가 이런 느낌.
"고양이 좀 생성해 줄래?"라고 입력하면 즉시 생성해 줍니다.
"고양이를 개로 바꾸고 책을 없애줘"라고 명령하니 바로 적용되는 편안함...
"이 이미지에서 케니 엣지 따줄래?"
Canny Edge detector는 John F.Canny에 의해 1986년에 개발됨.
최적의 디텍터로 많이 알려져 있으며 아래 3가지 주요한 요인을 목표로 함
- 낮은 에러율 : 엣지들만 존재하는 좋은 검출
- 좋은 localization : 엣지가 검출된 픽셀과 실제 엣지 픽셀의 거리를 최소화
- 응답 최소화 : 엣지당 하나의 디텍터만 응답
그런 다음 "엣지 검출된 이미지를 기반으로 노란 개를 생성해 봐"라고 입력하니 즉시 생성 완료.
우 씨가 개발한 Visual ChatGPT의 소스 코드는 GitHub에 공개되어 있으며, Visual ChatGPT를 사용하려면 ChatGPT의 API가 필요합니다.
GitHub - microsoft/visual-chatgpt: Official repo for the paper: Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models
https://github.com/microsoft/visual-chatgpt
'AI · 인공지능 > 이미지 생성 AI' 카테고리의 다른 글
'닮은 이미지'를 무한 생성하는「Stable diffusion reimagine」사용법 (0) | 2023.03.21 |
---|---|
Stable Diffusion 설치없이 브라우저에서 동작 가능한「Web Stable Difusion」등장 (0) | 2023.03.18 |
「Blender + ControlNet」을 사용하여 애니메이션을 만드는 방법 (3) | 2023.03.18 |
「Midjourney V5」등장, 취약했던 '손'도 깨끗하고 실사와의 구별은 거의 불가능 (0) | 2023.03.17 |
「Stable Diffusion」으로 fMRI에 의한 뇌 활동 데이터로부터 이미지를 생성하는 연구 (0) | 2023.03.08 |
「Stable Diffusion」을 활용하여 RPG게임 배경 제작 (0) | 2023.03.06 |
Stable Diffusion 개발사가 3D 애니메이션 생성 AI「Stability For Blender」를 발표 (0) | 2023.03.06 |
「Stable Diffusion」에서 단 1장의 이미지로부터「~ 같은 ○○」를 불과 수십초만에 생성하는 방법 (0) | 2023.03.02 |