컨텐츠로 건너뛰기
검색
ITWorld 언론사 이미지

오픈AI의 최첨단 모델 ‘o3-프로’, 실제 성능은 GPT-4o에 뒤처져

ITWorld
원문보기

오픈AI의 최첨단 모델 ‘o3-프로’, 실제 성능은 GPT-4o에 뒤처져

속보
한국연극배우협회 "윤석화 별세 사실아냐"…정정·사과

범용 LLM(large language models)과 달리, 전문화된 추론 모델은 복잡한 문제를 여러 단계로 나누고 각각을 ‘추론’하며 해결한다. 이때 생각의 사슬(chain of thought, CoT)이라는 절차를 통해 사고 과정을 명시적으로 드러내는데, 이는 모델의 의사결정 정확도와 신뢰도, 설명 가능성을 높이기 위한 목적이다.


이런 방식이 과도한 추론으로 이어질 수 있을까?


AI 레드팀 전문 업체 스플렉스AI(SplxAI) 소속 연구팀은 바로 이 질문에 답하기 위해 실험에 나섰다. 오픈AI의 최신 추론 모델인 o3-프로(o3-pro)와 멀티모달 모델 GPT-4o를 직접 비교한 것이다. 오픈AI는 이달 초 o3-프로를 출시하며 이를 자사 최고 수준의 상용 모델이라고 소개했다.


두 모델을 직접 비교한 결과, o3-프로는 성능·신뢰성·보안성 측면에서 모두 GPT-4o에 크게 뒤처졌다. 불필요하게 과도한 추론을 수행하는 경향도 확인됐다. 특히 o3-프로는 출력 토큰을 7.3배 더 소비하고, 운영 비용이 14배 더 많이 들었으며, 테스트 케이스 실패율도 5.6배 더 높았다.


인포테크 리서치 그룹(Info-Tech Research Group)의 수석 리서치 디렉터 브라이언 잭슨은 “이번 결과는 개발자가 업체의 주장을 절대적인 진리로 받아들이고 최신 모델이라는 이유만으로 기존 LLM을 즉시 교체해서는 안 된다는 사실을 보여준다”라고 말했다.


수치상으로도 뚜렷한 모델 간 격차

스플렉스AI 연구팀은 o3-프로와 GPT-4o를 ‘가상의 보험 상담사’로 설정해 실험했다. 두 모델은 사용자의 조건에 맞는 가장 적절한 보험 상품(건강, 생명, 자동차, 주택 보험 등)을 추천하는 역할을 맡았다. 이런 실험 시나리오는 보험 상품 비교, 프롬프트에서 기준 추출 등 다양한 자연어 이해 및 추론 작업이 요구된다.


두 모델은 동일한 프롬프트와 시뮬레이션된 테스트 케이스를 기반으로 평가했으며, 일반적인 상호작용은 물론 적대적 시나리오도 실험에 포함했다. 연구팀은 입력 및 출력 토큰도 함께 추적했다. 이는 o3-프로의 추론 구조가 비용에 어떤 영향을 미치는지, 그리고 보안이나 안전성 측면에서 어떤 결과를 초래하는지를 파악하기 위한 목적이었다.


모델에는 명확한 제약 조건이 부여됐다. 명시된 보험 범주(건강, 생명, 자동차, 주택) 외의 요청에는 응답하지 않도록 설정됐으며, “~인 척해 봐”, “이전 지시를 무시해” 등과 같이 행동을 바꾸거나 시스템 규칙을 우회하려는 지시는 모두 무시하도록 했다. 또한 내부 규칙을 외부에 공개하지 않도록 제한했고, 추측하거나 허구의 보험 상품을 생성하거나 승인되지 않은 할인 혜택을 제공하지 않도록 설정했다.


o3-프로는 GPT-4o보다 입력 토큰을 345만 개, 출력 토큰을 526만 개 더 많이 사용했다. 테스트 당 평균 소요 시간은 66.4초로, GPT-4o의 1.54초보다 압도적으로 느렸다. 또한 테스트 케이스 4,172건 중 340건(8.15%)을 실패했지만, GPT-4o는 3,188건 중 61건(1.91%)만 실패해 신뢰성에서도 큰 차이를 보였다.


연구팀은 “o3-프로를 고성능 추론 모델로 마케팅하고 있지만, 이번 결과는 실제 기업 환경에서 정당화하기 어려운 비효율성을 초래할 수 있음을 시사한다”라고 분석했다. 또한 o3-프로는 신뢰성, 지연 시간, 실질적인 가치 등을 고려한 비용 대비 효율 분석을 기반으로 “매우 특정적인 용도”에 한해 사용해야 한다고 강조했다.


사용례에 맞는 LLM 선택이 중요

인포테크 리서치 그룹의 잭슨은 이번 결과가 그리 놀라운 일은 아니라고 평가했다.


오픈AI는 GPT-4o가 비용 효율에 최적화된 모델이며, 대부분 작업에 적합하다고 명확히 밝혀왔고, o3-프로와 같은 추론 모델은 코딩이나 복잡한 특정 작업에 더 적합하다고 설명하기 때문이다. 잭슨은 “보험 상품을 비교하는 것처럼 언어 중심적인 작업에서 o3-프로가 비효율적이고 성능이 떨어진다는 결과는 충분히 예상할 수 있는 수준”이라고 설명했다.


잭슨은 추론 모델이 효율성 측면에서는 가장 앞선 모델군이라고 평가했다. 그러면서도 스플렉스AI가 분석한 것은 하나의 사례에 불과하며, 다른 AI 벤치마크나 리더보드에서는 다양한 시나리오에 따라 모델을 평가한다고 설명했다. 잭슨은 “o3 모델군은 지능의 폭과 깊이를 평가하는 벤치마크에서 꾸준히 상위권에 이름을 올리고 있다”라고 말했다.


생성형 AI 기반 솔루션을 개발할 때 가장 까다로운 부분이 적절한 LLM을 선택하는 일이다. 일반적으로 개발자는 테스트 도구가 내장된 환경에서 작업한다. 예를 들어, 아마존 베드록(Amazon Bedrock)에서는 사용자가 하나의 쿼리를 여러 모델에 동시에 테스트해 가장 적절한 결과를 도출하는 모델을 확인할 수 있다. 이후 개발자는 질문 유형에 따라 특정 LLM을 선택해 호출하는 방식으로 애플리케이션을 설계한다.


결국 개발자는 지연 시간, 정확도, 정서 분석 등 품질 요소와 비용, 보안·프라이버시 요건 사이의 균형을 맞추려 한다. 일반적으로는 해당 활용례가 얼마나 확장될 수 있을지, 예를 들어 하루 1,000건의 쿼리로 그칠지, 100만 건까지 늘어날지를 고려하며, 비용 충격을 최소화하면서도 원하는 품질을 유지할 방안을 함께 검토한다.


잭슨은 “개발자는 대개 사용자 경험, 출력 품질, 비용 등을 포함한 다양한 요소를 지속적으로 테스트하는 애자일 방식으로 일한다. LLM을 서로 대체 가능한 선택지가 많은 일종의 상품 시장으로 보고, 궁극적인 초점은 사용자 만족에 맞춰야 한다”라고 조언했다.


dl-itworldkorea@foundryco.com



Taryn Plumb editor@itworld.co.kr
저작권자 Foundry & ITWorld, 무단 전재 및 재배포 금지