[박찬 기자]
국내 기업들도 자주 인용하는 유명 벤치마크 아티피셜 애널리시스가 평가 지표를 전면 개편했다. AI 모델이 빠르게 고도화되면서 이를 평가해온 기존 벤치마크가 더 이상 변별력을 갖지 못하는 상황이 이어지는 데 따른 것이다.
AI 벤치마킹 기관 아티피셜 애널리시스는 6일(현지시간) AI 모델 평가 지표 '인텔리전스 인덱스(Intelligence Index)'를 전면 개편한 4.0 버전을 공개했다.
인텔리전스 인덱스 v4.0은 그동안의 모델 평가 패러다임 전환을 선언한 것으로 볼 수 있다. "AI 지능을 기억력이나 시험 성적이 아니라, 실제 경제적 가치를 창출하는 행동 능력으로 측정하겠다"라는 것이다.
(사진=셔터스톡) |
국내 기업들도 자주 인용하는 유명 벤치마크 아티피셜 애널리시스가 평가 지표를 전면 개편했다. AI 모델이 빠르게 고도화되면서 이를 평가해온 기존 벤치마크가 더 이상 변별력을 갖지 못하는 상황이 이어지는 데 따른 것이다.
AI 벤치마킹 기관 아티피셜 애널리시스는 6일(현지시간) AI 모델 평가 지표 '인텔리전스 인덱스(Intelligence Index)'를 전면 개편한 4.0 버전을 공개했다.
인텔리전스 인덱스 v4.0은 그동안의 모델 평가 패러다임 전환을 선언한 것으로 볼 수 있다. "AI 지능을 기억력이나 시험 성적이 아니라, 실제 경제적 가치를 창출하는 행동 능력으로 측정하겠다"라는 것이다.
구체적으로는 기존에 널리 인용된 'MMLU-프로'나 'AIME 2025' '라이브코드벤치(LiveCodeBench)' 등 세가지 대표 벤치마크를 과감히 제거하고, 대신 "사람이 실제로 돈을 받고 수행하는 업무를 AI가 해낼 수 있는지" 등을 묻는 평가가 새로 도입됐다.
새로 추가된 평가 항목은 세가지다.
먼저 'GDPval-AA'는 오픈AI의 'GDPval' 데이터셋을 활용해 44개 직업, 9개 산업 분야에서 실제 경제적 가치를 지니는 과제를 수행할 수 있는지를 측정한다. 문서, 프레젠테이션, 스프레드시트, 다이어그램 등 실제 직장인이 만들어내는 산출물이 평가 대상이다.
모델은 '스터럽(Stirrup)'이라 불리는 참조 에이전트 환경에서 셸 접근과 웹 브라우징 권한을 부여받아 작업을 수행하며, 결과는 블라인드 방식의 상대 비교와 ELO 점수로 산출된다.
'크리트PT(CritPT)'는 응집물질 물리, 양자물리, 천체물리 등 현대 물리학 전반에 걸친 고급 연구 문제를 다루는 평가다. 30여개 기관 소속 50명 이상의 현직 연구자가 참여해 설계했으며, 석박사 연구자에게 주어질 법한 실제 연구 과제를 시뮬레이션한다.
'AA-옴니사이언스(Omniscience)'는 42개 경제 관련 주제, 6000문항을 통해 모델의 지식 정확도와 환각을 동시에 측정한다. 정답을 맞히는 능력뿐 아니라, 모를 때 추측하지 않고 답변을 유보하는 능력까지 평가에 반영한다.
이처럼 새로운 평가는 에이전트(Agents), 코딩(Coding), 과학적 추론(Scientific Reasoning), 일반 지식(General) 등 4개 영역을 동일 비중으로 평가하며, 총 10개의 세부 시험으로 구성됐다.
인텔리전스 인덱스 v4.0 구성 요소 (사진=아티피셜 애널리시스) |
또, 상위 모델 점수가 몰려 차별성이 두드러지지 않는 점을 보완하기 위해 평가 기준의 난도를 전반적으로 높였다고 밝혔다. 그 결과, 기존 v3.0에서는 최고 점수가 70점대였지만, v4.0에서는 최상위 모델도 50점을 넘기기 어려웠다.
새 기준에 따른 종합 순위에서는 오픈AI의 'GPT-5.2'가 1위를 차지했고, 앤트로픽의 '클로드 오퍼스 4.5', 구글의 '제미나이 3 프로'가 뒤를 이었다.
특히, 오픈AI는 자체 데이터셋이 사용된 GDPval-AA에서는 GPT-5.2가 ELO 점수 1442로 가장 높은 평가를 받았다.
이와 관련, GPT-5.2 출시 당시 "44개 직종에 걸쳐 명확하게 정의된 지식 작업에서 업계 전문가들을 뛰어넘는 성능을 보였다"라고 주장한 바 있다.
그러나 크리트PT 결과는 AI의 한계를 분명히 보여줬다. 최고 성능인 GPT-5.2조차 연구급 물리 문제에서 정답률이 11.5%에 그쳤다. 이는 소비자용·업무용 작업에서는 눈부신 성과를 보이지만, 진정한 과학적 발견을 이끌 수준에는 아직 미치지 못한다는 것을 보여준다.
AA-옴니사이언스에서도 흥미로운 결과가 나왔다. 정확도가 높은 모델이 반드시 환각이 적은 것은 아니었다.
구글 '제미나이 3' 계열은 지식 정확도에서는 선두였지만, 환각 비율도 상대적으로 높았다. 반면, 앤트로픽과 오픈AI의 일부 모델은 정확도는 다소 낮아도 불확실한 답변을 자제해 더 낮은 환각률을 기록했다. 이 지표는 의료나 금융, 법률처럼 정확도가 민감한 산업에서 AI 도입 리스크를 가늠할 핵심 요소로 평가된다.
인텔리전스 인덱스 v4.0 평가 결과 (사진=아티피셜 애널리시스) |
이번 개편은 AI 업계가 성능을 바라보는 패러다임 전환을 상징한다. 변호사 시험이나 수학 올림피아드 성적이 아니라, 실제 업무를 수행해 생산성을 높일 수 있는지가 핵심 기준이 된 것이다.
아티피셜 애널리시스는 "AI를 도입하려는 기업들은 이제 종합 점수뿐 아니라, 자신들의 활용 목적에 맞는 세부 영역 점수를 자세히 살펴야 한다"라고 조언했다.
박찬 기자 cpark@aitimes.com
<저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>
