오픈AI, AI 에이전트 '오퍼레이터' 기반 모델 o3로 업그레이드..."성능 대폭 향상" : zum 뉴스

[박찬 기자]

(사진=셔터스톡)

오픈AI가 컴퓨터 사용 에이전트(CUA) '오퍼레이터(Operator)'에 최신 추론 모델 'o3'를 적용하며 성능을 대폭 강화했다.

오픈AI는 23일(현지시간) 오퍼레이터의 기반 모델을 기존 'GPT‑4o'에서 o3로 교체한다고 발표했다. 월 200달러의 '챗GPT 프로' 구독자에게 연구 미리보기(Research Preview) 형태로 제공된다.

오퍼레이터는 지난 1월 공개된 오픈AI의 CUA로, 웹 브라우저에서 사용자의 작업을 대신 수행하는 능력을 갖췄다. 예약이나 온라인 쇼핑, 정보 수집 등 다양한 웹 기반 업무를 자율적으로 클릭, 입력, 스크롤 등의 방식으로 수행할 수 있다.

하지만 초기 성능은 크게 인상적이라는 평을 받지 못했다. 하지만 이번 업데이트를 통해 오픈AI의 모델 중 성능이 가장 뛰어난 o3를 적용, 대폭적인 성능 향상을 기대하게 됐다. o3는 추론 중심 모델로, 특히 복잡한 지시 사항 처리와 브라우저 상호작용에서 향상된 성능을 보이기 때문이다.

오퍼레이터는 기존의 웹 브라우저를 활용하지 않고, 오픈AI가 자체 구축한 클라우드 기반 가상 브라우저 환경(operator.chatgpt.com)을 통해 작동한다. 사용자 요청을 실시간으로 관찰할 수 있으며, 감시 모드(Watch Mode)나 고위험 웹사이트 제한 등 다양한 보안·프라이버시 기능이 내장돼 있다.

새로운 o3 기반 오퍼레이터는 기존 버전에 비해 정확도와 지속성, 명확성 면에서 크게 개됐다. 예를 들어, 식당 예약 요청 처리 시 o3 버전은 위치와 미슐랭 등급, 좌석 정보 등을 정리한 표 형태로 제공한 반면, 이전 버전은 정보량과 구성 면에서 부족했다는 평가를 받았다.

성능 지표에서도 확실한 성능 개선이 드러났다.

브라우저 기반 작업 처리 능력을 평가하는 'OS월드(OSWorld)' 지표에서 o3 버전은 42.9점을 기록, 38.1점에 그친 GPT-4o 버전을 앞질렀다. 점수 차가 크지 않은 데 대해서 오픈AI는 "자동 평가 시스템의 한계 때문으로, 실제 성능 차이는 최대 20포인트에 달할 가능성이 있다"라고 설명했다.

또 다른 벤치마크인 '웹아레나(WebArena)'에서는 o3 버전이 62.9점, GPT-4o는 48.1점으로 큰 차이를 보였다.

특히, 고차원적인 에이전트 능력을 평가하는 'GAIA' 지표에서는 o3 버전이 62.2점으로, 12.3점에 그친 GPT-4o 대비 압도적인 성능을 보였다. 이 결과는 o3 버전이 복잡한 지시나 다단계 처리가 필요한 작업에서 훨씬 효과적으로 대응할 수 있다는 것을 의미다.

사용자 선호도 조사에서도 o3 버전은 스타일, 응답의 구조화, 지시 이행 능력 등에서 강한 우위를 보였다.

오퍼레이터는 여전히 연구 미리보기 상태로, 일반 사용자에게는 제공되지 않는다. 또 오퍼레이터의 리스폰스 API(Responses API) 버전은 당분간 GPT-4o 모델을 유지할 예정이다.

이 기사의 카테고리는 언론사의 분류를 따릅니다.