본문 바로가기
AI · 인공지능/AI 뉴스

OpenAI가 「GPT-4o(옴니: omni)」 를 발표

by 두우우부 2024. 5. 17.
반응형

 
 
OpenAI가 2024년 5월 14일(화)에 AI 모델  「GPT-4o」 를 발표했습니다. GPT-4o는 단일 모델로 텍스트, 음성, 시각 입력을 매우 고속으로 처리 가능하며, 실시간으로 대화하면서 "계산 문제 해결", "이미지 생성", "주위 영상에서 상황을 판단"하는 작업을 실행할 수 있습니다.

Hello GPT-4o | OpenAI
https://openai.com/index/hello-gpt-4o/

GPT-4o는 텍스트, 음성, 시각 입력을 빠르게 처리할 수 있는 멀티모달 AI 모델입니다. GPT-4o의 응답 시간은 평균 320ms이며 음성 입력은 232ms 정도로 사람과 동등한 속도로 응답할 수 있습니다. 또한 GPT-4o의 "o"는 "모든", "전체의"등을 의미하는 "omni"를 줄여서 표시한 것이랍니다.

GPT-4나 GPT-3.5를 탑재한 ChatGPT의 음성 대화 모드는 「음성을 텍스트로 변환하는 모델」,  「입력 텍스트를 바탕으로 응답 텍스트를 생성하는 모델」,  「응답 텍스트를 음성으로 변환하는 모델」 의 복수 모델을 사용하여 실현되었습니다. 이에 대해 GPT-4o는 단일 모델로 "음성, 이미지, 영상 등의 입력을 받고 나서 응답한다"라는 처리가 실행 가능합니다.

GPT-4o를 발표할 때 수많은 실시간 응답 데모가 실시되었습니다. 예를 들어, 아래의 데모에서는 스마트폰으로 주위를 촬영하면서 "내가 여기서 무엇을 할 것인지 추측해 보라"는 질문에 대해 "조명이나 삼각대를 보니 어떤 촬영이나 라방을 준비하는 것 같습니다. 이 발표는 OpenAI와 관련되어 있을지도 모릅니다. 게다가 "이것은 너에 대한 발표입니다"라고 전하자, "나!?"라고 놀란 듯한 목소리로 대답했습니다.

Say hello to GPT-4o - YouTube

 
 
일반적인 채팅 AI가 취약한 부분인 수학에 대한 데모도 있습니다. 아래의 데모에서는 수학 문제를 보여주면서 "아들에게 대답은 가르쳐주지 않고 문제를 해결하는 방법을 가르쳐 줘"라는 지시에 대해 GPT-4o는 문제가 삼각 함수에 관한 것이라고 인식한 후 "사변이 어느 변인지 알겠어?"라고 운을 띄우며 문제를 푸는 방법을 한 걸음씩 가르칩니다.

Math problems with GPT-4o - YouTube

 

아래는, 「카메라 입력을 유효화한 GPT-4o」 와  「카메라 입력을 무효화한 GPT-4o」 를 준비해, 서로를 대화시키면서 주위의 상황을 파악시키고 있습니다. 게다가 동영상의 4분 27초경부터는  「지금 일어난 일에 대해 노래를 부르라」 는 지시에 따라 GPT-4o가 노래하는 모습을 확인할 수 있습니다.

Two GPT-4os interacting and singing - YouTube



또한 GPT-4o는 "이미지를 지시에 따라 가공"하는 처리도 가능합니다. 아래 예에서는 GPT-4o가 입력된 얼굴 사진을 일러스트로 변환합니다.



GPT-4o의 텍스트 처리 성능을 복수의 벤치마크를 사용하여 측정한 결과입니다. GPT-4o 점수는 대부분의 테스트에서 GPT-4 Turbo와 Gemini Ultra와 같은 모델을 능가합니다.


GPT-4o와 Whisper로 음성을 처리했을 때의 오인식률을 비교하면 GPT-4o가 오인식률이 낮고 성능이 높은 것을 알 수 있습니다.


시각 처리 성능에서도 GPT-4 Turbo나 Gemini Ultra 등의 모델을 웃도는 스코어를 기록하고 있습니다.


GPT-4o는 이미 ChatGPT Plus 가입자를 위해 공개되었으며 GPT-4o와의 텍스트 대화를 경험할 수 있습니다.

또한 무료 사용자에게도 텍스트 및 시각 처리 기능이 2024년 5월 14일부터 순차적으로 전개되고 있으며, 몇 주 이내에 GPT-4o를 사용한 음성 모드도 제공될 예정입니다.

덧붙여 2024년 4월 말 경부터 AI의 성능 비교 사이트  「Chatbot Arena」 에  「gpt2-chatbot」 나  「im-also-a-good-gpt2-chatbot」 이라고 자칭하는 수수께끼의 모델이 등장해 「OpenAI의 신형 모델인가?」 라고 소문이 났었습니다만, 아니나 다를까 OpenAI 연구원인 William Fedus 씨가 im-also-a-good-gpt2-chatbot 의 정체가 GPT-4o라고 밝혔습니다.

반응형