컨텐츠 바로가기

12.27 (금)

알트먼, 실수로 차기 모델 'o2' 힌트 공개..."벤치마크서 역대급 성능 보여"

댓글 첫 댓글을 작성해보세요
주소복사가 완료되었습니다
[박찬 기자]
AI타임스

(사진=셔터스톡)

<이미지를 클릭하시면 크게 보실 수 있습니다>


샘 알트먼 오픈AI CEO가 X(트위터)에 'o2'라는 모델명을 처음으로 언급했다. 서둘러 글을 삭제했지만, 차기 모델에 대해 중요한 힌트를 남기고 말았다.

기가진은 3일(현지시간) 알트먼 CEO가 "o2가 GPQA에서 105%의 점수를 달성했다"라는 글을 게시했다고 보도했다. 그러나 이는 곧 사라지고, 현재는 "실수했다. 계정을 잘못 썼다"라는 설명만 남았다.

o2라는 모델은 이제까지 언급된 바 없다. 하지만 추론 성능을 강화한 o1 모델의 후속 버전으로 보인다.

알트먼 CEO는 지난 주 레딧 사용자들과의 채팅에서 "회사의 최우선 목표는 1o 모델과 후속작을 개발하는 것"이리고 밝힌 바 있다.

당시에는 아직 공개되지 않은 o1 메인 모델 개발에 집중하는 것으로 해석됐는데, 이번 게시물에 따르면 후속 모델까지 이미 개발을 마쳤다는 추측이 가능하다.

구체적인 정보는 공개되지 않았지만, GPQA 점수에 따르면 역대급 성능을 갖췄을 가능성이 높다.

GPQA는 AI 성능을 평가하기 위한 벤치마크로, 생물학, 물리학, 화학 전문가가 제작한 448개의 선택형 문제로 구성돼 있다. 문제가 매우 어려워서 일반인이 구글 검색을 이용해 도전할 경우에도 정답률이 34%에 불과하며, 박사학위 소지자나 박사과정 학생도 65%의 점수밖에 얻지 못한다.

https://twitter.com/sama/status/1852781569775485117

이미 다양한 고성능 AI 벤치마크로 활용되고 있다. 'GPT-4o'는 53.6%, '클로드 3 오퍼스'는 50.4%, '라마 3 400b'는 48.0%의 점수를 기록한 바 있다.

105%라는 수치는 이처럼 기존 AI 모델과는 차원이 다른 것이다. o1이 대학원생 수준의 능력을 가지고 있다면, o2는 박사학위 소지자를 능가하는 답변 능력을 가지고 있다는 것을 시사한다.

한편, 알트먼 CEO는 지난주 "연내 GPT-5 출시 계획은 없다"라며 "올해말 중요한 모델을 몇개 출시할 것"라고 밝혔다.

o2의 출시 시기는 불분명하지만, 이미 벤치마크를 통해 성능을 확인할 정도라면 연내 출시 대상에 포함될 가능성이 충분할 것으로 보인다.

박찬 기자 cpark@aitimes.com

<저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.