[박찬 기자]
구글이 인공지능(AI) 개발자들의 비용 부담을 덜어주기 위해 새로운 캐싱 기능을 선보였다. 이는 기존 프롬프트 캐싱(prompt cashing) 방식에서 비롯된 과도한 비용 청구 논란에 대응해, 개발자 커뮤니티와의 신뢰를 회복하려는 조치다.
구글은 8일(현지시간) 제미나이 API에 '암시적 캐싱(implicit caching)' 기능을 도입한다고 발표했다.
이 기능은 반복적인 입력 문맥을 자동으로 인식하고 캐시(cache)로 처리, 입력 비용 75%를 줄이는 것이다. 이는 구글의 최신 AI 모델인 '제미나이 2.5 프로'와 '제미나이 2.5 플래시'에 적용된다.
![]() |
(사진=셔터스톡) |
구글이 인공지능(AI) 개발자들의 비용 부담을 덜어주기 위해 새로운 캐싱 기능을 선보였다. 이는 기존 프롬프트 캐싱(prompt cashing) 방식에서 비롯된 과도한 비용 청구 논란에 대응해, 개발자 커뮤니티와의 신뢰를 회복하려는 조치다.
구글은 8일(현지시간) 제미나이 API에 '암시적 캐싱(implicit caching)' 기능을 도입한다고 발표했다.
이 기능은 반복적인 입력 문맥을 자동으로 인식하고 캐시(cache)로 처리, 입력 비용 75%를 줄이는 것이다. 이는 구글의 최신 AI 모델인 '제미나이 2.5 프로'와 '제미나이 2.5 플래시'에 적용된다.
이전까지 구글은 개발자가 직접 자주 사용하는 프롬프트를 수동으로 지정하는 '명시적 캐싱(explicit caching)' 방식의 프롬프트 캐싱만 제공해 왔다.
그러나 일부 개발자들은 이 방식이 예상보다 높은 API 요금으로 이어졌다고 불만을 제기해 왔다. 이에 대해 구글은 최근 사과하고, 개선을 약속한 바 있다.
'암시적 캐싱'은 이런 불만을 반영해 자동화된 방식으로 전환된 것이다. 이제 사용자가 제미나이 2.5 모델에 요청을 보낼 때, 이전 요청과 서두(prefix)가 일치하는 경우 자동으로 캐시가 적용돼 비용이 줄어든다. 구글은 이에 대해 "개발자에게 별도의 설정 없이도 비용 절감을 자동으로 반영할 것"이라고 밝혔다.
기술 문서에 따르면, 캐시가 적용되기 위한 최소 토큰 수는 2.5 프로는 2048토큰, 2.5 플래시는 1024토큰이다. 이는 약 750~1500단어 분량에 해당해, 개발자가 자주 사용하는 반복적인 입력에 대해 충분히 적용 가능할 것으로 보인다.
다만, 구글은 캐시 적중률을 높이기 위해 "변하지 않는 반복적인 문맥은 요청의 앞부분에 배치하고, 매번 바뀌는 정보는 끝부분에 위치시키는 것이 좋다"라고 조언했다.
한편, 프롬프트 캐싱은 오픈AI나 앤트로픽, 딥시크 등 주요 AI 개발사들은 대부분 채택하고 있다. 요금도 일반 입력의 25% 수준으로, 구글과 같다.
박찬 기자 cpark@aitimes.com
<저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>
이 기사의 카테고리는 언론사의 분류를 따릅니다.