[박찬 기자]
구글이 웹 브라우저에서 사람처럼 클릭하고 입력하며 작업을 수행할 수 있는 인공지능(AI) 모델을 공개했다. 지난해 12월 공개한 GUI 에이전트 '프로젝트 매리너'를 '제미나이 2.5' 기반으로 업그레이드한 것이다.
구글은 8일(현지시간) 브라우저를 통해 웹을 탐색하고 사용자 인터페이스(UI)와 상호작용할 수 있는 AI 모델 '제미나이 2.5 컴퓨터 유즈(Gemini 2.5 Computer Use)'를 출시했다.
제미나이 2.5 프로의 시각적 이해와 추론 능력을 기반으로 하며, 사용자의 요청을 분석해 양식 작성, 클릭, 스크롤, 드래그 앤 드롭 등 실제 사용자가 수행하는 13가지 동작을 자동화할 수 있다.
구글이 웹 브라우저에서 사람처럼 클릭하고 입력하며 작업을 수행할 수 있는 인공지능(AI) 모델을 공개했다. 지난해 12월 공개한 GUI 에이전트 '프로젝트 매리너'를 '제미나이 2.5' 기반으로 업그레이드한 것이다.
구글은 8일(현지시간) 브라우저를 통해 웹을 탐색하고 사용자 인터페이스(UI)와 상호작용할 수 있는 AI 모델 '제미나이 2.5 컴퓨터 유즈(Gemini 2.5 Computer Use)'를 출시했다.
제미나이 2.5 프로의 시각적 이해와 추론 능력을 기반으로 하며, 사용자의 요청을 분석해 양식 작성, 클릭, 스크롤, 드래그 앤 드롭 등 실제 사용자가 수행하는 13가지 동작을 자동화할 수 있다.
구글은 "여러 웹 및 모바일 제어 벤치마크에서 경쟁 모델을 능가하면서도 더 낮은 지연 속도를 달성했다"라고 밝혔다. 특히, 웹 브라우저 제어 성능은 브라우저베이스(Browserbase)에서 진행된 '온라인-마인드2웹(Online-Mind2Web)' 벤치마크에서 가장 우수한 성능을 기록했다.
AI가 소프트웨어와 상호작용하는 방식은 일반적으로 구조화된 API를 통해 이뤄지지만, 여전히 많은 작업에는 시각적 UI 상호작용이 필요하다.
온라인 양식을 직접 작성하거나, 드롭다운 메뉴를 선택하고, 로그인이 필요한 웹페이지에서 작업을 수행하는 경우가 대표적인 예다. 제미나이 2.5 컴퓨터 유즈는 이런 인간 중심으로 설계된 인터페이스 환경을 탐색할 수 있도록 설계된 것이다.
모델은 사용자의 요청, 환경의 스크린샷, 최근 수행한 작업 내역 등을 입력으로 받는다. 이를 분석해 클릭이나 입력 같은 UI 동작을 제안하고, 결제 등 일부 작업의 경우 사용자 확인을 요청한다. 각 단계가 실행될 때마다 새 스크린샷과 URL이 다시 모델로 전달, 작업이 완료되거나 오류가 발생할 때까지 이 과정이 반복된다.
현재는 웹 환경에 최적화되어 있으며, 모바일 UI 제어에도 유망할 것으로 예측했다. 아직 데스크톱 운영체제(OS) 수준의 제어에는 최적화되지 않았다.
이번 모델은 현재 구글 AI 스튜디오와 버텍스 AI, API를 통해 개발자 미리보기 형태로 공개됐다.
한편, 컴퓨터 유즈는 지난해 앤트로픽이 출시한 GUI 에이전트의 이름이기도 하다. 오픈AI도 지난 1월 '오퍼레이터'라는 웹 에이전트를 출시했다.
구글이 지난해 공개한 프로젝트 매리너는 '제미나이 2.0' 기반이었다. 이번에는 제미나이 2.5로 교체됐다.
박찬 기자 cpark@aitimes.com
<저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>
