본문 바로가기
AI · 인공지능/AI 뉴스

일론 머스크의 xAI가 이미지를 이해할 수 있는 멀티모달 AI 「Grok-1.5」 를 발표

by 두우우부 2024. 4. 16.
반응형

 
 
일론 머스크 씨가 설립한 AI 기업 'xAI'가 멀티 모달 AI 모델 'Grok-1.5'를 발표했습니다. Grok-1.5는 화상의 이해가 가능하고,  「순서도를 인식해 코드 작성」, 「영양 성분 표시를 보고 칼로리를 계산」 하는 등의 조작이 가능합니다.

Grok-1.5 Vision Preview
https://x.ai/blog/grok-1.5v

 

Grok-1.5 Vision Preview

April 12, 2024 Grok-1.5 Vision Preview April 12, 2024 Connecting the digital and physical worlds with our first multimodal model.

x.ai



Grok-1.5는 하나의 모델로 "문장 생성"과 "이미지 인식"에 대응하는 멀티 모달 AI 모델입니다. Grok-1.5는 기존 Grok 사용자와 일부 테스터를 대상으로 곧 테스트를 시작할 예정입니다.

xAI는 Grok-1.5의 성능을 보여주는 예를 공개했습니다. 예를 들어, 순서도를 보여주면서 "이 순서도를 Python 코드로 변환하라"고 요청하면 Python 코드를 출력해 줍니다.



또한, 영양성분 표시를 보여주고 '이거 5장이면 몇 칼로리?'라고 물으면, 해설과 함께 올바른 칼로리를 대답해 줍니다.

 

반응형


또한 표 형식의 이미지를 CSV 형식으로 변환할 수 있습니다.



xAI는 Grok-1.5의 발표에 맞춰 멀티모달 AI용 벤치마크 'RealWorldQA'도 발표했습니다. RealWorldQA의 초기 버전에는 765장의 이미지와 이미지에 따른 질문문이 포함되어 있어 멀티 모달 AI의 현실 세계에서의 공간 인식 능력을 측정할 수 있다는 것.



「Grok-1.5V」,  「GPT-4V」,  「Claude 3 Sonnet」,  「Claude 3 Opus」,  「Gemini Pro 1.5」의 각종 벤치마크 결과를 나열한 표입니다. Grok-1.5V는 여러 벤치마크에서 GPT-4V와 Gemini Pro 1.5보다 높은 점수를 기록했습니다. 또한 일부 테스트에서는 가장 높은 점수를 기록했습니다.

벤치마크Grok-1.5VGPT-4VClaude 3 SonnetClaude 3 OpusGemini Pro 1.5
MMMU 53.6% 56.8% 53.1% 59.4% 58.5%
Mathvista 52.8% 49.9% 47.9% 50.5% 52.1%
AI2D 88.3% 78.2% 88.7% 88.1% 80.3%
TextVQA 78.1% 78.0% - - 73.5%
ChartQA 76.1% 78.5% 81.1% 80.8% 81.3%
DocVQA 85.6% 88.4% 89.5% 89.3% 86.5%
RealWorldQA 68.7% 61.4% 51.9% 49.8% 67.5%



RealWorldQA의 데이터는 Grok-1.5V의 릴리즈 기사 내의 「here (677MB)」 를 클릭하면 다운로드할 수 있습니다.

 

반응형