일론 머스크 씨가 설립한 AI 기업 'xAI'가 멀티 모달 AI 모델 'Grok-1.5'를 발표했습니다. Grok-1.5는 화상의 이해가 가능하고, 「순서도를 인식해 코드 작성」, 「영양 성분 표시를 보고 칼로리를 계산」 하는 등의 조작이 가능합니다.
Grok-1.5 Vision Preview
https://x.ai/blog/grok-1.5v
Grok-1.5는 하나의 모델로 "문장 생성"과 "이미지 인식"에 대응하는 멀티 모달 AI 모델입니다. Grok-1.5는 기존 Grok 사용자와 일부 테스터를 대상으로 곧 테스트를 시작할 예정입니다.
xAI는 Grok-1.5의 성능을 보여주는 예를 공개했습니다. 예를 들어, 순서도를 보여주면서 "이 순서도를 Python 코드로 변환하라"고 요청하면 Python 코드를 출력해 줍니다.
또한, 영양성분 표시를 보여주고 '이거 5장이면 몇 칼로리?'라고 물으면, 해설과 함께 올바른 칼로리를 대답해 줍니다.
또한 표 형식의 이미지를 CSV 형식으로 변환할 수 있습니다.
xAI는 Grok-1.5의 발표에 맞춰 멀티모달 AI용 벤치마크 'RealWorldQA'도 발표했습니다. RealWorldQA의 초기 버전에는 765장의 이미지와 이미지에 따른 질문문이 포함되어 있어 멀티 모달 AI의 현실 세계에서의 공간 인식 능력을 측정할 수 있다는 것.
「Grok-1.5V」, 「GPT-4V」, 「Claude 3 Sonnet」, 「Claude 3 Opus」, 「Gemini Pro 1.5」의 각종 벤치마크 결과를 나열한 표입니다. Grok-1.5V는 여러 벤치마크에서 GPT-4V와 Gemini Pro 1.5보다 높은 점수를 기록했습니다. 또한 일부 테스트에서는 가장 높은 점수를 기록했습니다.
MMMU | 53.6% | 56.8% | 53.1% | 59.4% | 58.5% |
Mathvista | 52.8% | 49.9% | 47.9% | 50.5% | 52.1% |
AI2D | 88.3% | 78.2% | 88.7% | 88.1% | 80.3% |
TextVQA | 78.1% | 78.0% | - | - | 73.5% |
ChartQA | 76.1% | 78.5% | 81.1% | 80.8% | 81.3% |
DocVQA | 85.6% | 88.4% | 89.5% | 89.3% | 86.5% |
RealWorldQA | 68.7% | 61.4% | 51.9% | 49.8% | 67.5% |
RealWorldQA의 데이터는 Grok-1.5V의 릴리즈 기사 내의 「here (677MB)」 를 클릭하면 다운로드할 수 있습니다.
'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글
Baidu의 채팅 AI 「Ernie Bot(어니봇)」 이용자가 2억 명을 돌파 (65) | 2024.04.18 |
---|---|
일상 회화를 녹음하고 요약할 수 있는 펜던트형 AI 가젯 「Pendant」가 등장 (67) | 2024.04.17 |
스탠퍼드 대학의 2024 AI 리포트 「AI Index Report 2024」 (67) | 2024.04.17 |
Google이 AI로 무한 길이의 텍스트 처리 능력을 제공하는 기술 발표 (67) | 2024.04.16 |
GPU와 AI를 활용해 기존 칩 제조 공장보다 비용은 100분의 1, 크기는 10분의 1, 제조 시간은 5분의 1로 단축 (67) | 2024.04.16 |
2025~2026년에는 AI 모델 학습 비용이 14조 원에 달해 인류를 위협하는 AI가 등장? (67) | 2024.04.16 |
Apple이 스마트폰 화면을 인식할 수 있는 멀티모달 LLM 「Ferret-UI」 를 발표 (55) | 2024.04.12 |
무료로 1개월에 1200곡까지 AI 작곡이 가능한 「Udio」 퍼블릭 베타판이 공개 (52) | 2024.04.12 |