본문 바로가기
반응형

AI · 인공지능/이미지 생성 AI143

구글이 한 장의 사진과 음성으로 리얼한 동영상을 생성하는 AI 「VLOGGER」발표 Google 연구팀이, 사진 1장과 음성을 입력하여 「음성에 맞추어 몸짓을 섞어 말하는 리얼한 동영상」 을 생성할 수 있는 AI 프레임워크 「VLOGGER」 를 발표했습니다. VLOGGER https://enriccorona.github.io/vlogger/ VLOGGER We propose VLOGGER, a method for text and audio-driven talking human video generation from a single input image of a person, which builds on the success of recent generative diffusion models. Our method consists of 1) a stochastic human-to-3d-mo.. 2024. 3. 20.
그래픽카드 변경 없이도 이미지 생성 속도를 높여주는「Stable Diffusion WebUI Forge」설치 과정 「Stable Diffusion WebUI Forge」는 ControlNet의 개발자인 Lvmin Zhang 씨가 개발한 유저 인터페이스로, 널리 사용되고 있는 「Stable Diffusion web UI(AUTOMATIC1111판)」대비 이미지를 고속으로 생성할 수 있다고 합니다. GitHub - lllyasviel/stable-diffusion-webui-forge https://github.com/lllyasviel/stable-diffusion-webui-forge GitHub - lllyasviel/stable-diffusion-webui-forgeContribute to lllyasviel/stable-diffusion-webui-forge development by creating an ac.. 2024. 3. 8.
배경이 투명한 이미지를 쉽게 생성할 수 있는 이미지 생성 AI「Layer Diffusion」리뷰 ControlNet 개발자로 알려진 Lvmin Zhang이 배경이 투명한 이미지를 생성할 수 있는 「Layer Diffusion」을 개발했습니다. 이미 Layer Diffusion을 간단하게 사용할 수 있는 툴이 공개되어 있으므로, 실제로 PC에 인스톨하여 배경 없는 이미지를 생성해 보겠습니다. [2402.17113] Transparent Image Layer Diffusion using Latent Transparency https://arxiv.org/abs/2402.17113 2024. 3. 7.
Stability AI가 이미지에서 3D 모델을 생성할 수 있는「TripoSR」을 발표 2024년 3월 5일, 이미지 생성 AI「Stable Diffusion」등의 개발을 실시하는 Stablity AI가, 3D 모델 생성 AI 툴 「Tripo AI」를 개발하는 Tripo와 제휴해, 화상을 입력하는 것만으로 고품질의 3D 모델을 생성할 수 있는 AI 툴「TripoSR」을 발표했습니다. TripoSR 소개 : 단일 이미지에서 고속 3D 객체 생성 — Stability AI https://stability.ai/news/triposr-3d-generation Introducing TripoSR: Fast 3D Object Generation from Single Images — Stability AIWe have partnered with Tripo AI to develop TripoSR, a .. 2024. 3. 6.
사진이나 일러스트가 노래하도록 하거나 말하게 하는 AI 시스템 「EMO」가 등장 중국의 기술 기업 Alibaba의 인텔리전트 컴퓨팅 연구소의 팀이 사진과 이미지를 애니메이션 화하여 리얼하게 말하거나 노래를 부르는 것처럼 움직이는 영상을 생성할 수 있는 AI 시스템 「Emote Portrait Alive(EMO)」를 발표했습니다. EMO https://humanaigc.github.io/emote-portrait-alive/ EMOEMO: Emote Portrait Alive - Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditionshumanaigc.github.io Alibaba's new AI system 'EMO' creates realistic talking and s.. 2024. 3. 4.
Stable Diffusion XL이 「SDXL-Lightning」의 데모를 공개 ByteDance가 개발한 고속 이미지 생성 모델「SDXL-Lightning」의 데모 앱이 AI 엔지니어 알렉스 볼코프 씨에 의해 작성되었습니다. 데모 앱에는 「fal.ai」가 호스팅 하는 이미지 생성 AI 고속 처리 API가 사용되고 있으며, 「Groq」가 제공하는 대규모 언어 모델 「Mixtral」의 고속 실행 API를 결합하여 간단한 문장만 입력하여도 이미지 생성 AI에 최적화된 프롬프트를 고속으로 생성하여 빠르게 고품질의 이미지를 생성할 수 있도록 하고 있습니다. ThursdAI Feb 22nd - Groq near instant LLM calls, SDXL Lightning near instant SDXL, Google gives us GEMMA open weights and refuses to.. 2024. 2. 28.
Stability AI가 고화질 이미지 생성 AI 「Stable Diffusion 3」를 발표 Stability AI가 이미지 생성 AI 「Stable Diffusion 3」을 2024년 2월 23일에 발표했습니다. Stable Diffusion 3에서는 기존의 이미지 생성 AI에서는 어려웠던 「지정한 문자를 생성하고 위화감 없이 묘사」, 「복수의 피사체를 고화질로 묘사」라는 조작이 가능해졌습니다. Stable Diffusion 3 — Stability AI https://stability.ai/news/stable-diffusion-3 Stable Diffusion 3 — Stability AIAnnouncing Stable Diffusion 3 in early preview, our most capable text-to-image model with greatly improved perform.. 2024. 2. 26.
스테이블 디퓨전의 제작사 Stability AI가「Stable Cascade」를 발표 2023년 2월 13일, Stability AI가 텍스트로부터 이미지를 생성하는 새로운 모델「Stable Cascade」를 발표했습니다. 이 모델은 비상용 라이센스로 출시되었습니다. 고품질의 이미지를 고속으로 생성하는 이 모델은 3가지 다른 모델(스테이지 A, B, C)로 구성된 파이프라인으로 구축됩니다. 이 3단계의 접근법으로 인하여 일반 소비자용의 저사양 하드웨어에서도 트레이닝과 파인 튜닝이 가능해지고 있습니다. Stable Cascade의 기초 역할을 하는「Würstchen」아키텍처는 이미지의 계층적 압축을 가능하게 하고, 고도로 압축된 잠재 영역을 이용하면서 효율적인 추론과 저비용 트레이닝을 가능하게 합니다. 3단계 모델의 각 스테이지는 다른 파라미터 사이즈를 가지며, 이미지 생성의 정밀도 및 세.. 2024. 2. 22.
Google이 스마트폰을 사용해 0.5초만에 이미지를 생성하는「MobileDiffusion」을 발표 텍스트를 기반으로 이미지를 생성하는 몇 가지 AI 모델이 있지만 고품질 이미지를 생성하는 주요 모델은 수십억 개의 매개 변수를 처리하므로 기본적으로 고사양의 단말이 필요합니다. 2024년 1월 31일 구글 엔지니어들이 「MobileDiffusion」이라는 어프로치를 발표하고 스마트폰과 같은 모바일 기기에서도 효율적으로 이미지를 생성하는 법을 소개했습니다. MobileDiffusion: Rapid text-to-image generation on-device – Google Research Blog MobileDiffusion: Rapid text-to-image generation on-device Posted by Yang Zhao, Senior Software Engineer, and Tingbo H.. 2024. 2. 2.
고해상도 이미지를 0.5초 만에 생성하는 오픈 소스 AI 이미지 생성 모델 「PixArt-δ」가 등장 Huawei Noah's Ark Lab과 대련이공대학(중국), Hugging Face 등의 연구원들이 텍스트에서 이미지를 생성하는 프레임워크「PixArt-δ(델타)」를 발표했습니다. [2401.05252] PIXART-δ: Fast and Controllable Image Generation with Latent Consistency Models https://arxiv.org/abs/2401.05252 Meet PIXART-δ: The Next-Generation AI Framework in Text-to-Image Synthesis with Unparalleled Speed and Quality - QAT Global Meet PIXART-δ: The Next-Generation AI Framewor.. 2024. 1. 30.
반응형