컨텐츠로 건너뛰기
검색
ITWorld 언론사 이미지

AI 혁신 이끌 ‘실행 중심’ 비전 제시… 구글 I/O 2025 핵심 요약

ITWorld
원문보기

AI 혁신 이끌 ‘실행 중심’ 비전 제시… 구글 I/O 2025 핵심 요약

서울맑음 / -3.9 °

구글 I/O 2025에서 구글은 단순한 제품 업데이트를 넘어서는 획기적인 AI 기술을 다수 공개했다. 이번 발표는 AI가 단순한 도구를 넘어 모든 곳에 존재하며 능동적으로 사용자와 상호작용하는 동반자로 진화하고 있다는 비전을 담고 있다. 이번 행사에서 공개된 주요 신제품 및 기술을 정리했다.



프로젝트 아스트라, 범용 AI 어시스턴트의 진화


프로젝트 아스트라(Project Astra)는 구글 I/O 2024에서 처음 공개된 이후 지속적으로 개발돼 왔으며, 구글이 지향하는 범용 AI 어시스턴트의 미래상이다. 이번에 공개된 가장 큰 변화는 능동성이다. 이제 아스트라는 단순히 명령에 반응하는 것을 넘어, 스스로 주변을 관찰하고 필요하다고 판단되면 자발적으로 개입할 수 있다.


구글 딥마인드(Google DeepMind)의 리서치 디렉터 그렉 웨인은 “아스트라는 자신이 본 사건에 따라 언제 말할지를 스스로 결정할 수 있다. 지속적으로 관찰하면서 적절한 타이밍에 의견을 덧붙일 수 있다”라고 설명했다. 이런 기능은 인간과 AI 간 상호작용 방식에 근본적인 변화를 예고한다.


이 기술이 활용될 수 있는 사례는 다양하다. 예를 들어, 학생이 숙제를 하고 있을 때 아스트라는 오류를 인지하고 이를 지적할 수 있다. 간헐적 단식을 하는 사용자의 경우, 금식 종료 시점을 앞두고 알려주거나, 식사 시간이 아닐 때 무언가를 먹으려는 행동에 대해 조심스럽게 다시 생각해 볼 것을 권유할 수도 있다.


딥마인드 CEO 데미스 하사비스는 이런 아스트라의 능력을 “분위기를 읽는 능력(reading the room)”이라고 표현하며 컴퓨터가 언제 개입해야 하는지, 어떤 어조를 사용해야 하는지, 언제 조용히 있어야 하는지를 가르치는 것은 매우 어려운 과제라고 강조했다.


또한 아스트라는 웹과 다른 구글 제품과 연동돼 정보를 활용할 수 있을 뿐만 아니라, 안드로이드 기기도 조작할 수 있다. 딥마인드의 프로덕트 매니저 비보 슈는 아스트라가 블루투스 헤드폰을 스마트폰과 자동으로 페어링하는 기능을 시연했다.




제미나이 2.5, 구글의 새로운 플래그십 AI 모델


제미나이 2.5(Gemini 2.5)는 구글 AI 전략의 중심에 있는 핵심 모델로, 이번 행사에서 대규모 업그레이드가 적용됐다. 새롭게 공개된 제미나이 2.5는 두 가지 주요 버전으로 구성된다.


  • - 제미나이 2.5 프로(Gemini 2.5 Pro) : 복잡한 작업을 처리하는 플래그십 모델
  • - 제미나이 2.5 플래시(Gemini 2.5 Flash) : 일상적인 작업에 최적화된 더 빠르고 효율적인 모델

제미나이 2.5 프로에서 가장 주목할 만한 신규 기능은 ‘딥 싱크(Deep Think)’다. 이 기능은 실험적으로 도입된 고급 추론 모드로, 답변을 제시하기 전에 여러 가설을 동시에 고려하는 새로운 연구 기법이 적용됐다. 성능 지표도 인상적이다. 딥 싱크는 2025년 미국수학올림피아드 벤치마크에서 높은 점수를 기록했으며, 프로그래밍 벤치마크인 라이브코드벤치(LiveCodeBench)에서도 선두를 차지했다. 멀티모달 추론 능력을 평가하는 MMMU 테스트에서는 84%의 정답률을 기록했다.


제미나이 2.5 플래시는 효율적인 “일꾼” 역할에 최적화됐다. 구글에 따르면 토큰 사용량을 20~30% 줄이면서도 더 나은 성능을 제공하도록 설계됐다. 이 모델은 이미 제미나이 앱을 통해 모든 사용자에게 제공되고 있으며, 6월부터는 프로덕션 환경에서도 일반적으로 사용할 수 있도록 출시될 예정이다.


두 모델에는 새로운 기능이 추가될 예정이다. 대표적으로 라이브 API(Live API)를 통해 음성·영상 입력 기능과 네이티브 오디오 출력을 지원하며, 훨씬 더 자연스러운 대화 경험을 제공한다. 사용자가 목소리의 어조, 억양, 말투를 자유롭게 지정하는 것도 가능하다. 예를 들어, 재미있는 이야기를 들려줄 때는 극적인 톤으로 말해달라고 요청할 수 있다.


또 하나의 주요 변화로, 텍스트 음성 변환(text-to-speech, TTS) 기능이 처음으로 다중 화자를 지원한다. 이 기능은 24개 이상의 언어를 지원하며, 언어 간 전환도 끊김 없이 자연스럽게 수행된다. 또한, 간접 프롬프트 삽입(indirect prompt injection)에 대한 보안 대응 체계도 대폭 강화됐다.



구글 서비스 전반에 확산하는 AI 통합 전략


AI는 구글의 기존 서비스 전반에 빠르게 통합되고 있다. 예를 들어, 구글 검색에 AI 모드(AI Mode)가 적용되기 시작했으며 현재 미국 내 모든 사용자에게 제공되고 있다. 검색과 관련한 새로운 기능은 AI 모드에서 먼저 공개된 뒤, 이후 일반 검색 기능으로 확장될 예정이다.


특히 주목할 만한 기능은 ‘딥 서치(Deep Search)’다. 이 기능은 복잡한 검색 과정을 AI가 대신 수행하며, 여러 출처의 정보를 분석·비교·통합해 사용자가 원하는 핵심 정보를 제공한다. 또 다른 기능인 ‘서치 라이브(Search Live)’는 실시간 정보 탐색을 지원한다. 스마트폰 카메라를 건물에 비추면 해당 건물의 역사, 건축 양식, 운영 시간 등 관련 정보를 즉시 화면에 제공하는 방식이다.


지메일도 AI 업그레이드의 혜택을 받는다. 이제 개인화된 스마트 답장(Smart Replies) 기능은 사용자의 글쓰기 스타일, 이전 대화 이력, 심지어 캘린더 일정까지 반영한다. 구글 관계자의 설명에 따르면, 오후 3시에 중요한 일정이 입력돼 있다면 스마트 답장은 회의 일정을 단순히 수락 혹은 거절하는 대신, 오후 4시로 일정을 변경하자고 제안한다.


또 다른 흥미로운 기능으로는 ‘생각 요약(Thought Summaries)’이 있다. AI의 사고 과정을 사용자에게 투명하게 보여주는 도구다. 이 기능을 통해 사용자는 AI가 특정 결론에 도달한 이유와 그 과정에서 고려한 논리적 판단 흐름을 파악할 수 있다. 개발자 대상으로는 ‘생각 예산(Thinking Budgets)’이 추가됐다. AI 애플리케이션의 ‘사고 시간(thinking time)’을 개발자가 관리하고 최적화할 수 있도록 지원한다.



미디어 제작 방식을 혁신하는 AI 도구들


구글은 이미지, 영상, 음악 제작 방식을 개선하는 다양한 신형 AI 도구도 공개했다. 가장 눈에 띄는 도구는 ‘플로우(Flow)’로, 영화 제작자가 간단한 텍스트 설명을 입력하면 복잡한 영상 장면을 생성한다. 이런 AI 도구는 비전문가뿐 아니라 실제 전문가도 적극 활용 중이다. 실제로 이번 컨퍼런스에서 <더 웨일(The Whale)>과 <블랙 스완(Black Swan)>으로 유명한 영화감독 대런 아로노프스키가 창작 과정에 AI를 활용한다는 점이 소개됐다.



이미지 생성 시스템의 최신 버전인 이마젠 4(Imagen 4)도 함께 공개됐다. 이번 버전은 디테일과 사실감 측면에서 새로운 기준을 제시할 것으로 기대된다. 영상 생성 부문에서는 베오 3(Veo 3)가 이와 유사한 수준의 기술적 진보를 목표로 개발되고 있다. 오디오 분야에서는 리리아 2(Lyria 2)가 주목받고 있다. 구글의 음악 생성 시스템인 리리아는 이제 완성된 음악을 제작하며, 기존 곡을 편집하는 기능까지 지원한다.


구글은 생성형 콘텐츠의 출처를 확인하고 표시할 수 있는 시스템인 ‘신스ID(SynthID)’도 함께 소개했다. 이 도구는 생성된 이미지나 영상에 눈에 보이지 않는 워터마크를 삽입하며, 이후 워터마크를 통해 진위를 검증할 수 있다. 이는 인간이 만든 콘텐츠와 AI가 생성한 콘텐츠를 구분하기 점점 어려워지는 환경에서 투명성을 확보하기 위한 중요한 조치로 평가된다.



구글 빔, 몰입형 경험을 향한 미래 비전


구글은 ‘프로젝트 스타라인(Project Starline)’을 ‘구글 빔(Google Beam)’으로 리브랜딩하고, 새로운 XR 기술을 공개하며 몰입형 경험이 자사 미래 전략의 핵심임을 분명히 했다. 2021년에 처음 공개됐던 프로젝트 스타라인의 후속작인 구글 빔은 ‘원격 존재감(telepresence)’ 기술에서의 중대한 진보를 의미한다. 구글에 따르면 새로운 버전은 공간을 적게 차지하고 에너지 소비도 줄었으며, 여전히 몰입감 있는 존재감 경험을 제공한다.


Google LLC

Google LLC


구글 미트(Google Meet)에 적용된 실시간 음성 번역 기능이 특히 인상적이다. 이 기능은 대화를 실시간으로 번역하고 자막을 원하는 언어로 표시하는 동시에, 화자의 음성을 해당 언어로 합성해 전달한다.


한편, 안드로이드 XR(Android XR)은 구글이 증강현실(Augmented Reality, AR) 영역으로 본격 진입하고 있음을 보여주는 플랫폼이다. 이 플랫폼은 개발자가 스마트폰, 태블릿, XR 글라스를 넘나드는 몰입형 애플리케이션을 구현할 수 있도록 다양한 도구를 제공한다.


구글과 협력해 개발된 엑스리얼(Xreal)의 ‘프로젝트 아우라(Project Aura)’ 프로토타입은 AR 글라스의 미래를 보여주는 사례로 주목받았다. 이 스마트 글라스는 일반 안경과 거의 구분되지 않을 정도로 자연스러운 디자인을 갖추고 있어 이런 기술이 사회적으로 받아들여지기 위한 중요한 진전을 이뤘다는 평가를 받고 있다. 헤드셋에 제미나이를 통합한 것도 중요한 이정표다. 제미나이는 음성 명령을 처리할 뿐 아니라, 사용자의 주변 환경에서 시각 정보를 인식하고 해석하는 기능을 갖추고 있다.



에이전틱 AI, 자동화의 미래


‘에이전틱 AI(Agentic AI)’, 즉 스스로 계획하고 실행하는 AI 시스템은 이번 행사 발표에서 핵심 주제로 다뤄졌다. 이는 인간과 기계 간 상호작용 방식에 있어 패러다임 전환을 의미하는 기술로 평가된다.


특히 주목할 프로젝트는 ‘프로젝트 마리너(Project Mariner)’다. 2024년 12월 처음 공개된 이 솔루션은 이제 최대 10가지 작업을 동시에 수행할 수 있는 다중 에이전트 시스템으로 발전했다. 이들 에이전트는 정보 검색, 예약, 구매 등의 작업을 병렬적으로 처리할 수 있는 능력을 갖추고 있다.


‘에이전트 모드(Agent Mode)’는 이보다 더 진화된 개념이다. 에이전트 모드에서는 AI가 사용자의 의도를 이해하고 목표 달성을 위한 가장 효율적인 방법을 스스로 선택해 실행한다. 구글이 공개한 데모에서는 “주말에 베를린 여행 계획해 줘”라는 단순한 명령 하나로 항공편·호텔·즐길 거리를 조사하고 전체 일정표를 구성하는 일련의 작업이 자동으로 수행됐다. 이 모든 과정은 추가적인 사용자 개입 없이 에이전트가 자율적으로 처리했다.


‘에이전틱 체크아웃(Agentic Checkout)’은 온라인 쇼핑 경험을 근본적으로 바꿔놓을 만한 기능이다. 이 기능을 통해 AI 에이전트는 최적의 상품을 찾고, 양식을 자동으로 입력하고, 결제까지 완료하는 전 과정을 사용자의 최소 개입으로 수행할 수 있다.


구글은 에이전틱 기능 개발에 있어 보안성과 책임감을 최우선 가치로 두고 있다고 강조했다. 에이전트는 자신의 행동을 설명하고 중요한 결정에 대해서는 사용자에게 질문하며, 언제든 사용자가 개입해 흐름을 중단할 수 있도록 설계됐다.



과학 분야로 확장되는 AI


이번에 공개된 AI 연구용 애플리케이션은 다양한 과학 분야에 걸쳐 활용될 수 있는 특화된 솔루션이다. 과학 문헌에 대한 제미나이의 이해력과 도메인 특화 모델 및 시뮬레이션 기능을 결합해 정밀한 분석과 예측을 지원한다.


인상적이었던 시연은 딥마인드의 AI 시스템 알파폴드(AlphaFold)의 연구 성과를 기반으로 한 단백질 접힘 예측 애플리케이션이었다. 이번에 공개된 신형 버전은 단백질의 3차원 구조 예측에 그치지 않고, 다른 분자와의 상호작용까지 시뮬레이션했다. 이는 신약 개발에 있어 중요한 기술적 진전으로 볼 수 있다.


줄스 코딩 어시스턴트(Jules Coding Assistant)는 AI 기반 소프트웨어 개발 분야에서의 획기적인 도약으로 평가된다. 기존의 일반적인 코드 어시스턴트와 달리, 줄스는 프로그래밍 언어뿐 아니라 코드에 담긴 의도와 프로젝트의 전반적인 맥락까지 이해하는 능력을 갖추고 있다.


캔버스(Canvas)는 과학적 협업의 새로운 수준을 지향하는 구글의 협업형 AI 환경으로, 연구자가 복잡한 데이터를 시각화하고 모델을 개발하고 결과를 해석하는 모든 과정을 하나의 공유된 가상 환경에서 수행할 수 있도록 설계됐다.


아이언우드(Ironwood)와 프로젝트 마리너는 구글이 개발 중인 최첨단 연구용 프로토타입으로, 멀티모달 이해 능력과 에이전트 기반 작업 수행 기능을 결합해 복잡한 과학 워크플로우를 스스로 계획하고 실행할 수 있다.



화려한 기능 이면의 위험과 한계


기술에 대한 기대감이 높아지는 상황에서도 신중한 시각은 여전히 필수적이다. 아무리 발전했다 하더라도 AI 시스템은 여전히 오류 가능성을 내포하고 있다. 사실을 왜곡하거나, 상관관계를 잘못 해석하거나, 예상치 못한 상황에서 제대로 작동하지 않을 수 있다. 이번 I/O 시연은 통제된 환경에서 진행됐으며, 현실처럼 복잡하고 예측 불가능한 상황에서는 성능이 그만큼 인상적이지 않을 수도 있다.


데이터 보호와 보안 측면에서도 우려가 크다. AI 시스템이 더 많은 컨텍스트 정보를 가질수록 성능은 향상되지만, 그만큼 민감한 데이터를 더 많이 처리하게 된다. 특히 AI 에이전트가 사용자를 대신해 실제 행동을 취할 수 있는 상황에서는 해킹이나 악의적 조작에 대한 방어 체계가 얼마나 강력한지 점검할 필요가 있다.


사회적 파급력은 가장 예측하기 어려운 영역이다. AI로 인해 많은 직업이 바뀌거나, 경우에 따라서는 불필요해질 가능성이 제기되고 있다. 동시에, 이런 기술은 기존의 사회적 불평등을 더욱 심화시킬 위험도 있다. 고성능 AI에 접근하기 위해 필요한 빠른 인터넷, 최신 기기, 유료 구독 등의 자원은 고르게 분포돼 있지 않다.


구글은 I/O 2025를 통해 AI 혁신의 최전선에 서 있음을 다시 한번 입증했다. 하지만 이 기술의 진정한 성공은 벤치마크나 데모가 아니라 실제로 사람의 삶을 얼마나 향상하는지, 자율성과 프라이버시와 인간성을 잃지 않으면서 더 창의적이고 생산적이며 충만한 삶을 살 수 있도록 돕는지에 달렸다.



dl-itworldkorea@foundryco.com



Manfred Bremmer editor@itworld.co.kr
저작권자 Foundry & ITWorld, 무단 전재 및 재배포 금지