컨텐츠 바로가기

03.11 (화)

수능 수학 킬러문항 풀게했더니… R1은 12분 걸리고도 오답, o3 미니는 2분만에 정답

0
댓글 첫 댓글을 작성해보세요
주소복사가 완료되었습니다
R1, 주어진 조건에 일일이 수 대입
o3 미니, 체계적인 추론으로 '압승'
언어 추론은 비슷, 저작권 인식 差
R1이 o3보다 2배 이상 저렴 '매력'


챗GPT가 생성한 AI의 수능 문제 풀이 이미지.

<이미지를 클릭하시면 크게 보실 수 있습니다>


중국 인공지능(AI) 스타트업 딥시크가 가성비 높은 AI 'R1'으로 충격을 주자 오픈AI가 지난 1일(현지시간) 새 저가형 추론 모델 챗GPT 'o3 미니'를 공개하며 맞불을 놨다. R1과 o3 미니의 차이는 얼마나 될까. 파이낸셜뉴스가 두 모델을 직접 테스트해본 결과 범용적 쓰임새로는 R1과 o3의 결과치가 유사했다. 가성비 측면에선 R1이 압승이다. 다만 정밀 추론이 필요한 영역에선 R1이 o3 미니를 따라가기엔 무리였다.

■딥시크 R1은 12분 걸려 오답, o3 미니는 2분 만에 정답

2일 기자가 추론(Reasoning) 기능이 들어간 두 모델을 이용해 2025학년도 수능 수학 영역에서 가장 오답률이 높았던(95.4%) 22번 문제를 풀게 해봤다. 이 문제는 수열 문제로 복잡한 사고와 고난도의 추론 능력이 필요하다고 평가됐다.

먼저 R1의 경우 추론 과정에 무려 12분13초의 시간을 쓰고도 55라는 오답을 제시했다. 추론 과정을 살펴보니 주어진 조건에 일일이 수를 대입해 보는 이른바 '노가다' 방식을 사용했다. 특히 자신이 도출한 답을 신뢰하지 못해 2번 재검토하는 모습을 보여줬다.

반면 'o3 미니 하이'(높은 추론 단계)는 2분13초 만에 문제를 풀며 64라는 정답을 내놨다. 문제풀이 과정을 '수열의 정의' '최종적으로 구해야 할 값' '결론'의 3가지로 나눠 설명했으며, R1의 비해 추론 과정이 체계적으로 보였다. 이전 모델인 o1까지 추론 과정을 공개하지 않던 오픈AI는 o3미니 모델은 일부 추론 과정을 공개하는 방식을 택했다.

2025학년도 수능 국어 독서 영역 문제(1~34번 문제)도 텍스트를 기입하는 방식으로 풀게 해보니 R1은 9개, o3 미니는 8개를 틀렸다.

언어 추론에서 두 모델의 성능이 엇비슷하다고 볼 수 있지만, 저작권 인식에서 차이를 보였다. R1의 경우 저작권과 관련 없이 풀이와 답을 제공한 반면 o3 미니는 문제 전체를 기입할 경우 저작권에 따라 문제를 풀 수 없다고 답변, 일일이 문제를 나눠 입력했다. 한편 두 모델 모두 국어 문제를 프로그래밍 언어로 변환해 입력하면 더 나은 결과를 내놓을 것으로 예상된다.

■"저비용·고효율은 R1이 독보적"

고성능 추론을 염두에 두고 만든 o3 미니는 R1을 비롯한 기존 AI 모델들보다 뛰어난 성능을 보였다. 다만 '저비용·고효율' 측면에서는 R1을 무시하기 어렵다는 평가가 나온다.

미국 매사추세츠공과대의 컴퓨터과학자 렉스 프리드먼은 전날 X(옛 트위터)에 "o3 미니는 훌륭한 모델이지만, 딥시크의 R1은 비슷한 성능을 보여주면서 더 저렴하고 추론 과정까지 공개하고 있다"고 전했다.

특히 비용 측면에서 R1의 매력도가 높다. 기업들이 자신의 업무에 AI를 붙여 사용하려면 개발사가 제공하는 애플리케이션프로그래밍인터페이스(API)를 끌어 쓰고 사용료를 낸다. API 사용료를 비교해 보면 R1은 100만개당 입출력 토큰 비용이 각각 0.14달러·2.19달러이지만 o3 미니는 각각 0.55달러·4.40달러로 2배 이상 비싸다. 오픈 AI가 기존 추론 모델 o1에 비해 가격을 93%나 낮췄지만 R1은 비용 부담이 훨씬 적다. 가격만으로는 R1이 완승이다. 다만 보안성과 안정성을 고려하면 얘기는 달라진다. R1은 중국 정부의 검열과 개인정보 유출 문제 등이 제기돼 각국 정부가 규제 움직임을 보이고 있다.

wongood@fnnews.com 주원규 기자

Copyrightⓒ 파이낸셜뉴스. 무단전재 및 재배포 금지.

기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.