본문 바로가기
AI · 인공지능/AI 뉴스

GPT-4o가 AI 벤치마크 ARC-AGI에서 50%의 점수에 도달, 지금까지 최고 기록인 34%를 대폭 업데이트

by 두우우부 2024. 6. 19.
반응형

AI 연구원 라이언 그린 브라트 씨가 AI의 일반적인 추론 능력을 평가하는 지표인 ARC-AGI에서 GPT-4o를 사용함으로써 50%라는 정답률을 달성할 수 있었다고 발표했습니다.

Getting 50% (SoTA) on ARC-AGI with GPT-4o

Getting 50% (SoTA) on ARC-AGI with GPT-4o

You can just draw more samples

redwoodresearch.substack.com



ARC-AGI는 아래 그림과 같이 몇 가지 예와 문제를 제공합니다. 예제에서 규칙을 유추하여 빈칸을 채우면 됩니다. 인간은 아이라도 85%에서 100%의 점수를 낼 수 있지만, 지금까지 AI가 내놓은 ARC-AGI의 최고 점수는 34%이며, 수많은 벤치마크 중에서도 특히나 인간과의 차이가 심했습니다.



위의 문제는 간단하기 때문에 특별히 궁리하지 않고도 GPT-4o가 정답을 맞힐 수 있지만, 실제 문제는 아래 그림과 같이 복잡합니다.


그린브라트 씨의 아이디어는 GPT-4o에 문제의 해답을 내는 Python의 프로그램을 대량으로 생성시켜, 모든 예에 적용해 보고 유망할 것 같은 프로그램을 사용하는 심플한 것이었습니다. 실제로는 구체적인 예를 나타낸 몇 샷의 프롬프트, 유망한 후보를 더욱 수정하기 위한 프롬프트 등이 필요했으며, 50%의 점수를 달성하기까지는 6일의 시간이 걸렸다고 합니다.

50%의 점수를 내기 위해 실제로 사용한 코드는 GitHub에 공개되어 있습니다. 또한 그린브라트 씨에 따르면 ARC-AGI의 트레이닝용 데이터와 테스트용 데이터는 난이도가 다르고, 트레이닝용 데이터 중에서 일부를 뽑아 테스트에 사용함으로써 72%의 점수를 달성할 수 있었다는 것.

그린브라트 씨는 6일 사이에 ARC-AGI를 풀기 위한 프롬프트를 여러 번 수정하여 버전 업하고 있었고, 최초의 V0에서는 Python 프로그램을 1024개 생성시켜 25%의 정답률이었지만 최종 버전의 V2에서는 2048개의 프로그램을 생성해 34%의 정답률이 되었습니다.

모든 버전을 조합하여 사용함으로써 정답률을 37%까지 향상하고, 더욱 유망한 후보를 수정하는 단계를 추가함으로써 50%에 도달한다는 것. 또한, 생성하는 프로그램의 수를 늘림으로써 정답률이 향상되는 것을 확인할 수 있었고, 그린 브라트 씨는 1개의 문제당 200만 개의 프로그램을 작성하면 정답률이 70%에 도달한다고 추측하고 있습니다.


2024년 11월 10일까지, ARC-AGI에서 85% 이상의 점수를 내는 오픈 모델의 AI를 개발한 사람에게 최대 50만 달러(약 6억 9천만 원)의 상금이 나오는  「ARC Prize」 가 개최 중입니다. 하지만, 그린브라트 씨는 클로즈드 AI인 GPT-4o를 사용하고 있다는 것 외에, 추론 시에 과대한 컴퓨팅 리소스를 소비하고 있기 때문에, ARC Prize의 대상은 될 수 없다고 합니다.


자! 여러분,
85% 점수 내고 6억 9천 받읍시다.
어서 도전 고고!!

반응형