본문 바로가기
AI · 인공지능/AI 뉴스

구글 딥마인드가 GPT-4를 넘는 성능의 멀티모달 AI「Gemini」를 릴리즈

by 두우우부 2023. 12. 8.
반응형



Google DeepMind가 멀티모달 AI 「Gemini」를 출시했습니다.

문자 · 음성 · 이미지를 동시에 처리하는 것이 가능하고, 최상위 모델에서는 GPT-4를 넘는 성능을 달성하고 있습니다.

Gemini - Google DeepMind

Gemini - Google DeepMind

Gemini is built from the ground up for multimodality — reasoning seamlessly across image, video, audio, and code.

deepmind.google


Introducing Gemini: Google의 most capable AI model yet

Introducing Gemini: our largest and most capable AI model

Gemini is our most capable and general model, built to be multimodal and optimized for three different sizes: Ultra, Pro and Nano.

blog.google



Gemini는 "Ultra, Pro, Nano"라는 세 가지 모델로 출시되었습니다.



각 모델은 아래와 같습니다.

· Gemini Ultra
매우 복잡한 작업을 지원하는 가장 크고 유능한 모델, 2024년 이후에나 이용 가능 예정.

· Gemini Pro
다양한 작업에 대응하기 위한 최상의 모델. 발표와 동시에 Google의 채팅 AI인 'Bard'가 Gemini Pro 기반으로 업그레이드되어 이미 사용 중.

· Gemini Nano
장치에서 작업을 위한 가장 효율적인 모델. 발표와 동시에 Pixel 8 Pro에서 사용 중.

이 중 최상위 모델인 "Gemini Ultra"의 성능은 아래 그림과 같습니다. 일반적인 성능을 측정하는 벤치마크 ' MMLU '에서 GPT-4뿐만 아니라 인간 전문가를 뛰어넘는 점수를 내고 있으며, 많은 지표에서 GPT-4를 웃돌았습니다.



Gemini는 멀티 모달 AI로 문자뿐만 아니라 이미지, 영상, 음성을 동시에 처리할 수 있습니다. 멀티모달 관련 벤치마크에서는 모든 지표에서 GPT-4V를 웃돌았습니다.



실제로 Gemini를 사용하여 성능을 확인하는 핸즈 온 무비가 공개되어 있습니다.

Hands-on with Gemini: Interacting with multimodal AI - YouTube



Gemini는 이미 Pro 모델이 Bard에 탑재되어 있으며, Pixel 8 Pro에서 Nano 모델을 사용할 수 있습니다. 개발자를 위한 Gemini API는 2023년 12월 13일부터 제공 예정으로, API 경유로 Gemini Pro에 액세스 할 수 있다는 것. Gemini Ultra에 대해서는 2024년 이후 제공 예정이라고 합니다.

반응형