구글, 차세대 추론 모델 '제미나이 2.5' 공개..."에이전트·코딩에 최적화" : zum 뉴스

[박찬 기자]

구글이 질문에 답하기 전에 먼저 '생각'하는 차세대 인공지능(AI) 추론 모델 '제미나이 2.5'를 공개하며 오픈AI와의 본격적인 경쟁에 나섰다. 구글은 이번 모델이 가장 지능적인 AI라고 소개하며 복잡한 문제 처리 능력과 강력한 코딩 기능을 장점으로 들었다.

구글이 26일(현지시간) 새로운 멀티모달 추론 AI 모델 '제미나이 2.5'를 공개했다.

제미니 2.5 시리즈 모델은 모두 '사고 모델(thinking models)'로, 응답 전 추론 과정을 통해 향상된 성능과 정확도를 제공한다.

또 100만 토큰의 컨텍스트 창을 제공하며, 곧 200만 토큰으로 확장될 예정이다. 텍스트와 오디오, 이미지, 비디오, 코드 등 멀티모달 입력에서 복잡한 문제를 처리할 수 있다.

특히, 구글은 앞으로 출시되는 모든 AI 모델에 추론 기능을 탑재할 계획이라고 밝혔다.

지난해 9월 오픈AI가 'o1'을 출시하며 AI 추론 모델 경쟁이 본격화된 가운데, 구글은 앤트로픽이나 딥시크, xAI 등과 함께 AI 에이전트 개발의 핵심 기술인 추론 모델 연구에 속도를 내고 있다.

이미 '생각'하는 '제미나이 2.0 플래시 싱킹' 버전을 공개한 바 있지만, 이번 '제미나이 2.5'는 오픈AI의 'o' 시리즈를 능가하려는 가장 적극적인 시도라는 평이다.

추론 벤치마크에서도 우수한 성과를 기록했다고 발표했다.

'LM아레나 리더보드'에서 상당한 차이로 1위를 차지했으며, 'AIME 2025'와 'GPQA' 같은 수학 및 과학 벤치마크에서도 선두를 기록했다.

가장 어려운 벤치마크로 알려진 '인류의 마지막 시험(Humanity's Last Exam)' 평가에선 18.8%라는 기록을 세웠다. 'o3'를 기반으로 하는 오픈 AI의 딥 리서치는 여기에서 26.6%의 정답을 기록했다.

특히 '제미나이 2.5'는 코드 편집이나 웹 앱 개발 등 등 에이전트 코딩 역량을 대폭 강화했다고 강조했다.

코드 편집 벤치마크인 '에이더 플리글랏(Aider Polyglot)'에서 68.6%로 오픈AI, 앤트로픽, 딥시크의 주요 모델을 앞섰고, 복잡한 소프트웨어 개발 역량을 측정하는 'SWE 벤치 베리파이드(SWE-bench Verified)' 평가에서도 63.8%로 오픈AI 'o3-미니'와 딥시크 'R1'을 제쳤다.

다만, 앤트로픽 '클로드 3.7 소네트'에는 못미쳤다.

하지만 이는 제미나이 2.5가 기업용 코딩 도구로도 경쟁력을 가지고 있다는 점을 보여 준다. 또 구글의 강력한 멀티모달 기술을 감안하면, 에이전트로서의 활용도가 크게 늘어난다.

코레이 카부크추오글루 구글 딥마인드의 CTO는 "점점 더 복잡해지는 문제를 해결하도록 설계된 사고 모델"라며 "더욱 유능한 에이전트를 지원할 수 있다"라고 말했다.

이번에 선보인 제미나이 2.5 프로 익스페리멘털' 모델은 구글 개발자 플랫폼 '구글 AI 스튜디오'와 월 20달러 유료 요금제 '제미나이 어드밴스드' 구독자 대상 제미나이 앱에서 우선 제공된다.

박찬 기자 cpark@aitimes.com

<저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>

이 기사의 카테고리는 언론사의 분류를 따릅니다.