<이미지를 클릭하시면 크게 보실 수 있습니다> |
[디지털투데이 AI리포터] 인공지능(AI) 연구 기관 에포크 AI(Epoch AI)가 새로운 수학 벤치마크인 '프론티어매쓰'(FrontierMath)를 발표했다.
12일(현지시간) IT매체 아스테크니카에 따르면 이 벤치마크는 주요 AI 모델들에게 전문 수학자가 해결하는데 짧으면 몇 시간 길면 며칠이 걸리는 원본 수학 문제를 풀어보도록 지시해 모델의 성능을 테스트하는 것이다.
연구 논문을 통해 공개된 프론티어매쓰의 성능 결과는 현재 AI 모델의 한계를 여실히 보여준다고 매체는 전했다. 이에 따르면 클로드3.5 소넷, GPT-4o, 제미나이1.5 프로와 같은 상위 모델들의 점수가 극히 저조한 것으로 나타났다.
다만 프론티어매쓰의 설계는 데이터 오염을 방지하기 위해 문제 세트가 비공개로 유지되기 때문에 기존의 많은 AI 벤치마크와 다르다는 평가다.
에포크 AI는 주요 기관의 수학자 60여 명과의 협업을 통해 프론티어매쓰를 개발했다고 밝혔다. 이 문제들은 계산수 이론부터 추상 대수 기하학에 이르기까지 다양한 수학 분야에 걸쳐 있으며, 풀기 어려운 문제로 알려졌다.
프론티어매쓰 문제는 정확한 정수 또는 수학적 객체로서 계산을 통해 자동으로 확인할 수 있는 답이 있어야 한다. 이는 무작위로 정답을 맞힐 확률이 1% 미만인 큰 숫자나 복잡한 수학적 해법을 요구함으로써 문제를 추측할 수 없도록 만들어졌다.
에포크 AI는 앞으로 몇 달 안에 샘플 문제를 추가로 공개할 예정이며, 문제 세트를 확장하면서 벤치마크에 대한 AI 모델의 정기적인 평가를 계획하고 있다.
<저작권자 Copyright ⓒ 디지털투데이 (DigitalToday) 무단전재 및 재배포 금지>
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.