컨텐츠로 건너뛰기
검색
AI타임스 언론사 이미지

구글, 첫 하이브리드 추론 모델 '제미나이 2.5 플래시' 공개..."가성비 가장 뛰어나"

AI타임스 박찬
원문보기
서울흐림 / 12.6 °
[박찬 기자]
AI타임스

(사진=구글)


구글이 첫 추론-비추론 '하이브리드' 인공지능(AI) 모델을 선보였다. 복잡한 작업을 처리할 수 있는 추론 능력을 강조함과 동시에 많은 사용자들이 고급 모델에 접근할 수 있도록 비용 부담을 낮추려는 트랜드를 반영한다.

구글은 17일(현지시간) 제미나이 앱과 개발자 플랫폼을 통해 차세대 AI 모델 '제미나이 2.5 플래시(Gemini 2.5 Flash)'를 미리보기(preview) 형태로 공개했다.

제미나이 2.5 플래시는 기존 저지연 및 고성능 모델 제미나이 2.0 플래시를 기반으로 개발됐으며, AI 에이전트 구동을 목적으로 설계됐다.

특히, 구글은 이 모델이 향상된 추론 능력을 갖춘 '사고(thinking)' 모델이라고 강조했다. 처음으로 추론 능력을 탑재한 제미나이 2.0보다 성능을 강화했다는 것이다.

개발자들은 '구글 AI 스튜디오'와 구글 클라우드의 AI 플랫폼 '버텍스 AI'의 제미나이 API를 통해 사용 가능하다. 일반 사용자들은 제미나이 모바일 앱과 웹 앱에서도 드롭다운 메뉴를 통해 모델을 선택할 수 있다.

구글은 "제미나이 2.5 플래시는 우리의 첫 완전 하이브리드 추론 모델"이라고 강조했다.


또 개발자들이 사고 기능을 켜거나 끌 수 있을 뿐 아니라 품질·비용·속도 간 균형을 조절할 수 있는 '사고 예산(thinking budget)'을 설정할 수 있도록 설계됐다고 전했다.

사고 기능은 토큰을 더 많이 소모하기 때문에 응답 시간이 길어지고 비용이 증가할 수 있다. 이를 고려해 개발자가 모델이 사용하는 사고 토큰의 최대치를 설정할 수 있도록 기능을 제공한다. 사고 예산이 높을수록 응답 품질은 좋아지지만 속도는 느려지고, 예산이 낮으면 응답이 빨라진다는 설명이다.

질문의 복잡도에 따라 사고 예산을 자동으로 설정하는 기능도 갖추고 있다. 간단한 질문은 별도의 추론 없이도 빠르게 답변할 수 있지만, 일과표 작성 등의 작업은 중간 수준의 추론을 구동하며, 파이썬 코드 생성이나 웹 게임 제작 등은 고급 수준으로 구분한다.


이처럼 사고 기능의 활성화 여부에 따라 요금이 달라진다.

사고 기능을 끄고 사용할 경우, 입력 토큰 100만개당 0.15달러, 출력 토큰 100만개당 0.60달러로 비교적 저렴하다. 그러나 사고 기능을 활성화하면 입력과 출력을 구분하지 않고 토큰 100만개당 3.50달러가 부과된다.

AI타임스

벤치마크에서도 향상된 추론 기능을 보여줬다. 매우 어려운 것으로 알려진 '인류의 마지막 시험(Humanity's Last Exam)'에서 12.1%로, 5.1%에 그친 2.0 플래시를 두배 이상 앞섰다.


하지만, 이는 같은 테스트에서 20.32~24.9%를 기록한 오픈AI의 o3에는 못 미친다.

또 구글은 '제미나이 2.5 프로'를 제외하면 챗봇 벤치마크 LM아레나의 하드 프롬프트(Hard Prompts) 항목에서 두번째로 높은 성능을 기록했다고 덧붙였다.

이 때문에 '최고 성능'이 아니라 '가성비가 가장 좋은' 모델이라고 소개했다.

한편, 주요 AI 기업 중 추론-비추론 통합 모델을 가장 먼저 선보인 곳은 지난 2월25일 '클로드 3.7 소네트'를 출시한 앤트로픽이다. 오픈 소스 '헤르메스'로 유명한 누스리서치도 오픈 소스 '딥헤르메스-3'를 2월14일 공개했다.

또 샘 알트먼 오픈AI CEO는 이에 앞서 2월13일 GPT-5에 o3를 통합하겠다고 밝혀, 이런 추세를 예고했다. GPT-5는 현재 안전 테스트 중으로 5월경 출시될 것으로 알려졌다.

박찬 기자 cpark@aitimes.com

<저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>