컨텐츠 바로가기

01.02 (목)

'o3'가 AI를 바꿔 놓은 5가지 혁신과 하나의 숙제

댓글 첫 댓글을 작성해보세요
주소복사가 완료되었습니다
[박찬 기자]
AI타임스

(사진=셔터스톡)

<이미지를 클릭하시면 크게 보실 수 있습니다>


오픈AI가 공개한 추론 모델 'o3'가 다섯가지 측면에서 기존 인공지능(AI)의 수준을 크게 끌어올렸다는 분석이 등장했다. 반면, 이에 따라는 엄청난 비용은 향후 해결하야 할 숙제로 남게 됐다.

벤처비트는 29일(현지시간) ARC-AGI 벤치마크를 만든 프랑수아 콜레 ARC 프라이즈 파운데이션 공동 창립자와 전문가들의 분석을 종합, o3의 핵심 혁신과 문제점을 분석했다.

콜레 창립자는 o3가 최초로 인간 능력과 맞먹다는 것을 보여준 벤치마크를 설계한 인물이다.

그는 ARC-AGI 테스트에서 o1 모델은 최고 32점을 기록했지만, o3는 75.7점으로 비약적인 발전을 보였고 추론 시간을 늘리면 최대 87.5점까지 올라갔다고 밝혔다. 이는 인간이 받을 수 있는 85점을 넘어서는 중요한 이정표라고 강조했다.

그리고 이 테스트를 통해 o3의 핵심 혁신 사항으로 프로그램 합성(program synthesis) 사고 사슬(CoT)과 자연어 프로그램 검색(Natural language program search) 평가자 모델(Evaluator model) 자체 프로그램 실행 딥러닝 기반 검색(Deep learning-guided program search) 등을 꼽았다.

먼저 프로그램 합성 기능은 AI 모델이 작은 프로그램을 만들고 조합해 더 복잡한 문제를 해결하는 방식이다.

기존 대형언어모델(LLM)은 지식을 많이 흡수했지만, 이런 구성성이 부족해 훈련한 데이터를 벗어난 문제를 잘 해결하지 못한다. 반면, o3는 이 방법으로 인간처럼 새로운 패턴에 빨리 적응해 훈련 중에 직접적으로 접한 적이 없는 작업을 해결할 수 있게 해준다. 콜레 창립자는 프로그램 합성을 "알려진 도구들을 혁신적인 방식으로 재조합하는 시스템의 능력"이라고 설명했다. 요리사가 익숙한 재료를 사용해 독특한 요리를 만드는 것과 같다고 비유했다.

두번째로는 o3 추론의 핵심이 문제를 해결할 때 사용하는 CoT와 복잡한 검색 과정이라고 설명했다.

모델은 답을 만들 때 여러 단계를 거쳐 생각을 정리하며, 이를 통해 해결책을 찾아낸다. CoT는 모델이 문제를 풀기 위해 자연어로 단계별 설명을 하는 방식이다. 여기에 마치 검색 증강 생성(RAG)처럼 검색을 동원, 환각을 최대한 줄인다.

이떄 등장하는 것이 평가자 모델이다. 이 모델은 전문가가 라벨링한 데이터를 학습, o3가 복잡하고 여러 단계를 거치는 문제를 논리적으로 해결하는 능력을 갖추도록 돕는다. 이 기능 덕분에 o3는 단순히 답을 내놓는 것을 넘어 스스로의 논리를 검토하고 판단할 수 있어, LLM이 단순한 반응을 넘어 실제로 생각하는 것에 가까워지고 있다는 설명이다.

구글이나 앤트로픽도 비슷한 방법을 시도했지만, 오픈AI는 이를 새로운 방식으로 구현했다.

다만, 이 프로세스는 실제 시나리오를 통한 결과 평가가 아니기 때문에 전적으로 믿을 만한 것은 아니라는 지적이다. 예측하기 어려운 상황이나 특수한 문제에서 안정성이 떨어질 수 있고, 평가 모델 훈련에 전문가의 라벨링이 필요해 비용과 확장성 측면에서 문제가 될 수 있다는 것이다.

o3의 가장 독특한 기능 중 하나로 스스로 CoT를 실행해 문제 해결 도구로 활용할 수 있다는 점을 들었다. 원래 CoT는 문제를 단계적으로 해결하기 위한 논리적인 도구로사용됐지만, 오픈AI는 이 개념을 확장해 CoT를 재사용 가능한 구성 요소로 활용했다.

이를 통해 시간이 지나며 CoT는 문제 해결 전략을 기록하고 정리하는 도구가 되며, 인간이 경험을 바탕으로 학습하고 개선하는 방식과 비슷하게 작동한다. 즉, o3가 새로운 문제에 더 유연하게 대응할 수 있는 근거가 된다. 실제로 이 기능은 o3가 코드 작성(CodeForces)에서 2700점 이상을 획득, 전 세계 프로그래머 최상위 계층에 속하는 실력을 갖추는 데 큰 기여를 했다는 분석이다.

반면, o3의 가장 큰 단점은 수백만개의 토큰을 소비하는 높은 계산 비용이다. 이는 모델에 대한 접근성을 크게 떨어뜨린다.

이 때문에 전문가들은 성능과 비용 효율성 사이의 균형을 맞추는 혁신이 필요하다고 지적하고 있다. 오픈AI도 o3의 컴퓨팅을 낮음, 중간, 높음으로 설정, 추론 시간 조정이 가능하도록 만들었다. 또 가격이 더 저렴한 'o3-미니'도 공개했다.

하지만 성능차가 어느 정도인지를 확인하기 위해서는 결국 사용 경험이 뒷받침돼야 한다.

따라서 o3의 실용성은 자제적인 성능을 확인하는 것도 필요하지만, 구글이나 앤트로픽의 모델에 비해 성능-비용 효율을 따져볼 수 밖에 없다는 것이다.

비용에 비해 성능차가 크지 않고나 고비용을 감수할한 활용 사례가 충분하지 않다면, o3는 그저 기술적인 진전을 알리는 상징에 불과하게 될 가능성이 있다는 분석이다.

박찬 기자 cpark@aitimes.com

<저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.