GPT-4o가 AI 벤치마크 ARC-AGI에서 50%의 점수에 도달, 지금까지 최고 기록인 34%를 대폭 업데이트

AI 연구원 라이언 그린 브라트 씨가 AI의 일반적인 추론 능력을 평가하는 지표인 ARC-AGI에서 GPT-4o를 사용함으로써 50%라는 정답률을 달성할 수 있었다고 발표했습니다.

Getting 50% (SoTA) on ARC-AGI with GPT-4o

Getting 50% (SoTA) on ARC-AGI with GPT-4o

You can just draw more samples

redwoodresearch.substack.com

ARC-AGI는 아래 그림과 같이 몇 가지 예와 문제를 제공합니다. 예제에서 규칙을 유추하여 빈칸을 채우면 됩니다. 인간은 아이라도 85%에서 100%의 점수를 낼 수 있지만, 지금까지 AI가 내놓은 ARC-AGI의 최고 점수는 34%이며, 수많은 벤치마크 중에서도 특히나 인간과의 차이가 심했습니다.

위의 문제는 간단하기 때문에 특별히 궁리하지 않고도 GPT-4o가 정답을 맞힐 수 있지만, 실제 문제는 아래 그림과 같이 복잡합니다.

그린브라트 씨의 아이디어는 GPT-4o에 문제의 해답을 내는 Python의 프로그램을 대량으로 생성시켜, 모든 예에 적용해 보고 유망할 것 같은 프로그램을 사용하는 심플한 것이었습니다. 실제로는 구체적인 예를 나타낸 몇 샷의 프롬프트, 유망한 후보를 더욱 수정하기 위한 프롬프트 등이 필요했으며, 50%의 점수를 달성하기까지는 6일의 시간이 걸렸다고 합니다.

50%의 점수를 내기 위해 실제로 사용한 코드는 GitHub에 공개되어 있습니다. 또한 그린브라트 씨에 따르면 ARC-AGI의 트레이닝용 데이터와 테스트용 데이터는 난이도가 다르고, 트레이닝용 데이터 중에서 일부를 뽑아 테스트에 사용함으로써 72%의 점수를 달성할 수 있었다는 것.

그린브라트 씨는 6일 사이에 ARC-AGI를 풀기 위한 프롬프트를 여러 번 수정하여 버전 업하고 있었고, 최초의 V0에서는 Python 프로그램을 1024개 생성시켜 25%의 정답률이었지만 최종 버전의 V2에서는 2048개의 프로그램을 생성해 34%의 정답률이 되었습니다.

모든 버전을 조합하여 사용함으로써 정답률을 37%까지 향상하고, 더욱 유망한 후보를 수정하는 단계를 추가함으로써 50%에 도달한다는 것. 또한, 생성하는 프로그램의 수를 늘림으로써 정답률이 향상되는 것을 확인할 수 있었고, 그린 브라트 씨는 1개의 문제당 200만 개의 프로그램을 작성하면 정답률이 70%에 도달한다고 추측하고 있습니다.

2024년 11월 10일까지, ARC-AGI에서 85% 이상의 점수를 내는 오픈 모델의 AI를 개발한 사람에게 최대 50만 달러(약 6억 9천만 원)의 상금이 나오는 「ARC Prize」 가 개최 중입니다. 하지만, 그린브라트 씨는 클로즈드 AI인 GPT-4o를 사용하고 있다는 것 외에, 추론 시에 과대한 컴퓨팅 리소스를 소비하고 있기 때문에, ARC Prize의 대상은 될 수 없다고 합니다.

자! 여러분,
85% 점수 내고 6억 9천 받읍시다.
어서 도전 고고!!

저작자표시 비영리 변경금지 (새창열림)

'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글

Mistral AI가 코드 생성 특화형 AI 「Codestral Mamba」 를 오픈 소스 라이센스로 출시 (1)	2024.07.22
인간형 로봇이 운전을 하는 미래 (2)	2024.06.26
AI를 탑재한 중국의 차세대 '섹스로봇'이 시장을 석권하는 미래가 바로 코 앞? (2)	2024.06.21
Google DeepMind가 동영상에 딱 맞는 음악을 생성하는「video-to-audio(V2A)」발표 (3)	2024.06.19
자연스러운 일본인 이미지 생성 기능 「JAPAN AI」 (1)	2024.06.17
「Cat as a service」 로 여러가지 고양이를 소환해 보았다 (0)	2024.06.17
Stable Diffusion 3 Medium이 오픈 릴리스 (1)	2024.06.17
셔츠 단추에 부착된 초소형 카메라 AI 디바이스로 컨닝한 학생이 체포된다 (3)	2024.06.17

두우우부

GPT-4o가 AI 벤치마크 ARC-AGI에서 50%의 점수에 도달, 지금까지 최고 기록인 34%를 대폭 업데이트

'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글

티스토리툴바

GPT-4o가 AI 벤치마크 ARC-AGI에서 50%의 점수에 도달, 지금까지 최고 기록인 34%를 대폭 업데이트

'AI · 인공지능 > AI 뉴스' 카테고리의 다른 글

관련글

티스토리툴바