일론 머스크의 xAI가 이미지를 이해할 수 있는 멀티모달 AI 「Grok-1.5」 를 발표

일론 머스크 씨가 설립한 AI 기업 'xAI'가 멀티 모달 AI 모델 'Grok-1.5'를 발표했습니다. Grok-1.5는 화상의 이해가 가능하고, 「순서도를 인식해 코드 작성」, 「영양 성분 표시를 보고 칼로리를 계산」 하는 등의 조작이 가능합니다.

Grok-1.5 Vision Preview
https://x.ai/blog/grok-1.5v

Grok-1.5 Vision Preview

April 12, 2024 Grok-1.5 Vision Preview April 12, 2024 Connecting the digital and physical worlds with our first multimodal model.

x.ai

Grok-1.5는 하나의 모델로 "문장 생성"과 "이미지 인식"에 대응하는 멀티 모달 AI 모델입니다. Grok-1.5는 기존 Grok 사용자와 일부 테스터를 대상으로 곧 테스트를 시작할 예정입니다.

xAI는 Grok-1.5의 성능을 보여주는 예를 공개했습니다. 예를 들어, 순서도를 보여주면서 "이 순서도를 Python 코드로 변환하라"고 요청하면 Python 코드를 출력해 줍니다.

또한, 영양성분 표시를 보여주고 '이거 5장이면 몇 칼로리?'라고 물으면, 해설과 함께 올바른 칼로리를 대답해 줍니다.

또한 표 형식의 이미지를 CSV 형식으로 변환할 수 있습니다.

xAI는 Grok-1.5의 발표에 맞춰 멀티모달 AI용 벤치마크 'RealWorldQA'도 발표했습니다. RealWorldQA의 초기 버전에는 765장의 이미지와 이미지에 따른 질문문이 포함되어 있어 멀티 모달 AI의 현실 세계에서의 공간 인식 능력을 측정할 수 있다는 것.

「Grok-1.5V」, 「GPT-4V」, 「Claude 3 Sonnet」, 「Claude 3 Opus」, 「Gemini Pro 1.5」의 각종 벤치마크 결과를 나열한 표입니다. Grok-1.5V는 여러 벤치마크에서 GPT-4V와 Gemini Pro 1.5보다 높은 점수를 기록했습니다. 또한 일부 테스트에서는 가장 높은 점수를 기록했습니다.

벤치마크Grok-1.5VGPT-4VClaude 3 SonnetClaude 3 OpusGemini Pro 1.5

MMMU	53.6%	56.8%	53.1%	59.4%	58.5%
Mathvista	52.8%	49.9%	47.9%	50.5%	52.1%
AI2D	88.3%	78.2%	88.7%	88.1%	80.3%
TextVQA	78.1%	78.0%	-	-	73.5%
ChartQA	76.1%	78.5%	81.1%	80.8%	81.3%
DocVQA	85.6%	88.4%	89.5%	89.3%	86.5%
RealWorldQA	68.7%	61.4%	51.9%	49.8%	67.5%

RealWorldQA의 데이터는 Grok-1.5V의 릴리즈 기사 내의 「here (677MB)」 를 클릭하면 다운로드할 수 있습니다.

'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글

Baidu의 채팅 AI 「Ernie Bot(어니봇)」 이용자가 2억 명을 돌파 (65)	2024.04.18
일상 회화를 녹음하고 요약할 수 있는 펜던트형 AI 가젯 「Pendant」가 등장 (67)	2024.04.17
스탠퍼드 대학의 2024 AI 리포트 「AI Index Report 2024」 (67)	2024.04.17
Google이 AI로 무한 길이의 텍스트 처리 능력을 제공하는 기술 발표 (67)	2024.04.16
GPU와 AI를 활용해 기존 칩 제조 공장보다 비용은 100분의 1, 크기는 10분의 1, 제조 시간은 5분의 1로 단축 (67)	2024.04.16
2025~2026년에는 AI 모델 학습 비용이 14조 원에 달해 인류를 위협하는 AI가 등장? (67)	2024.04.16
Apple이 스마트폰 화면을 인식할 수 있는 멀티모달 LLM 「Ferret-UI」 를 발표 (55)	2024.04.12
무료로 1개월에 1200곡까지 AI 작곡이 가능한 「Udio」 퍼블릭 베타판이 공개 (52)	2024.04.12

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

두우우부

일론 머스크의 xAI가 이미지를 이해할 수 있는 멀티모달 AI 「Grok-1.5」 를 발표

'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역

일론 머스크의 xAI가 이미지를 이해할 수 있는 멀티모달 AI 「Grok-1.5」 를 발표

'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글

관련글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역