컨텐츠 바로가기

06.03 (월)

글로벌 칼럼 | AI 글래스로 현실화된 멀티모달 AI의 파급력

댓글 첫 댓글을 작성해보세요
주소복사가 완료되었습니다
지난주 오픈AI와 구글이 선보인 새로운 데모 영상은 스마트 글래스가 AI 챗봇을 위한 완벽한 플랫폼인 이유를 보여주었다.

오픈AI는 GPT-4o 멀티모달 AI 모델을 시연했고, 구글은 하루 뒤 프로젝트 아스트라(나중에 구글의 제미나이에 추가될 기능 세트)의 시연을 선보였다. 양사의 주력 제품 모두 영상과 음성 입력을 함께 사용해 정교하고 강력하며 자연스러운 AI 챗봇 응답을 유도한다.

모두 인상적이고 획기적이었으며 유사한 성과를 거뒀다.

구글은 "올해 말"이라고 약속한 반면, 오픈AI는 몇 주 안에 시연 내용을 공개하겠다고 약속했다. 오픈AI가 구글보다 더 기술적으로 앞서 있거나 대담한지는 모르겠지만, 중요한 것은 오픈AI가 자사의 새 모델이 GPT-4 터보보다 두 배 빠르고 비용은 절반이라고 주장한다는 점이다.

오픈AI의 데모 영상 전까지 대중이 '멀티모달'이라는 단어를 알게 된 것은 지난 몇 달 동안 레이밴 메타 안경의 멀티모달 기능을 대대적으로 홍보한 메타 때문일 것이다.

레이밴 메타 안경의 멀티모달 기능은 이런 방식으로 작동한다. "이봐, 메타, 뭐가 보이는지 보고 말해줘"라고 말하면, 사진이 촬영되고 있음을 알리는 딸깍 소리가 들리고 몇 초 후 “건물이다”라거나 “음식이다” 같이 정보를 말해주는 대답이 나온다. "건물이에요" 또는 사진 프레임에 있는 사물에 대한 일반적인 설명과 같은 정보가 제공된다.

레이밴 메타는 동영상이 아닌 정지 이미지를 위해 통합 카메라를 사용하며, 특히 오픈AI와 구글의 멀티모달 데모에 비추어 볼 때 그 결과는 그다지 인상적이지 않다.
ITWorld

ⓒ Getty Images Bank

<이미지를 클릭하시면 크게 보실 수 있습니다>


멀티모달 AI에서 영상이 중요한 이유

멀티모달 AI는 텍스트, 소리, 사진, 영상을 동시에 결합한다. 정확히 말하면 소리와 사진, 영상에서 직접 텍스트 정보를 가져오는 것이다. 보이는 단어를 읽거나 추출해 혼합 결과물에 입력하기도 한다.

영상이 포함된 멀티모달 AI로 사용자-컴퓨터 인터페이스는 인간 경험에 훨씬 가까워진다. AI는 생각하거나 이해할 수는 없지만, 영상과 여러 다양한 입력을 활용할 수 있기 때문에 멀티모달을 사용하는 사람은 물리적 환경이나 인식 대상에 대해 동일한 페이지에 놓이게 된다.

예를 들어, 구글 I/O 기조연설에서 구글 딥마인드 본사의 엔지니어는 (오픈AI의 새 모델과 마찬가지로) 컴퓨터 화면의 내용을 읽고 보고 '볼 수 있는' 프로젝트 아스트라를 함께 지켜보고 있었다. 이들은 이 동영상을 X에 게시해 엔지니어가 AI와 함께 화면 속 영상에 대해 수다를 떠는 모습을 보여주었다.

또 다른 재미있는 데모 영상은 GPT-4o가 실제로 작동하는 모습을 보여주었다. 오픈AI의 엔지니어는 GPT-4o가 실행되는 스마트폰과 카메라를 사용해 다른 스마트폰의 다른 인스턴스의 댓글과 질문을 바탕으로 보이는 것을 설명했다.

두 시연에서 스마트폰은 사람과 함께 걸어 다니며 실제 세계의 사물, 사람, 정보에 대한 질문에 답하는 등 다른 사람이 할 수 있는 일을 수행했다.

광고주 역시 광고의 감정적 효과를 등록하는 방법으로 멀티모달 AI가 적용된 영상에 관심을 보인다. 로리 설리반은 미디어포스트의 사설에서 감정은 휴대폰 카메라 렌즈를 통해 현실 세계를 처리할 수 있는 프로젝트 아스트라와 같은 기술을 통해 나타난다. 이 기술은 보이는 이미지와 정보를 지속적으로 처리하고 물체를 지나간 후에도 답을 반환할 수 있다”라고 전했다.

멀티모달 AI가 여러 산업에 미치는 영향력은 가늠할 수 없을 만큼 클 것이다.

멀티모달 AI의 모든 트렌드가 AI 글래스를 가리키는 이유

오픈AI와 구글의 시연은 모두 멀티모달 AI의 영상 모드로 AI에게 무언가를 보여주고 소통해서 처리하고, 기억하거나 이해하는 데 도움을 받을 수 있는 미래를 명확하게 보여 주었다.

한 가지 어색한 요소가 있다면 스마트폰을 들고 이리저리 흔들면서 원하는 것을 보여주는 행동이다. 그래서 얼굴에 부착하는, 일명 AI 안경 형태로 발전하는 것이다.

실제로 구글 시연에서 가장 흥미로운 요소는 시연자가 아스트라가 강화된 제미나이에게 안경이 어디에 있는지 기억하는지 물었고, 제미나이는 시연자가 안경을 내려놓은 테이블로 안내했다. 그 순간 프로토타입 AI인 아스트라는 스마트폰의 채팅을 매끄럽게 이어받았다. 모든 것은 여전히 휴대폰에서 실행되고 있었고 안경이 카메라와 마이크 역할을 제공한 것이다.

안경을 착용한 순간부터 대화는 완전히 자연스러워졌다. 어색하게 스마트폰을 들고 사물을 향해 카메라를 들이대는 대신 그저 바라보기만 해도 되기 때문이다. 챗봇을 사용하면서 양손으로 반려견을 쓰다듬고 껴안기도 했다.

구글 딥마인드 아스트라 동영상(지난주 행사 이후 공개 게시됨)에서는 휴대폰을 사용하여 휴대폰 이외의 물체를 가리키는 것이 아니라 AI가 휴대폰 화면의 콘텐츠와 상호 작용하고 있다.

동영상만 보면 실제 사용자 및 비즈니스용 제품인 '픽셀 글래스'의 상용화가 임박한 것으로 보인다. 2년 전 구글 I/O에서는 번역 안경을 보여주는 연구용 제품이 선보였는데, 작년에 구글이 폐기하기 전까지는 유망한 아이디어였다.

지금은 아무도 그 번역 안경을 이야기하지 않지만, 돌이켜보면 영상이 강화된 멀티모달 AI에 기반한 것이 거의 확실하다. 중국어, 스페인어, 영어 사용자의 음성을 번역하여 안경 착용자에게 영어로 자막을 표시하는 한편, 미국 수화를 영어 자막으로 번역하여 보여주기도 했다. 당시에는 사람들이 이 부분을 보고 어깨를 으쓱했지만, 지금은 멀티모달 AI가 수화를 읽고 실시간으로 번역하고 있다는 사실이 분명해졌다.

구글 번역 안경 프로젝트는 어쩌면 취소되지 않은 것일지도 모른다. 이 데모는 사실 2년 전 구글이 발표하고 싶지 않았던 아스트라 기능의 초기 프로토타입이었을 뿐이다.

실제로 아스트라 동영상에 등장하는 프로토타입 안경은 번역 안경 동영상에 등장하는 안경과 동일하게 생겼으며, 아마도 동일한 프로토타입 하드웨어를 사용했을 것이다.

한편, 지난 5월 9일 특허청이 구글이 4년 전 인수한 노스(North)라는 회사의 기술을 기반으로 한 특허를 허가하면서 구글이 AI 안경 하드웨어 제품을 계속 개발하고 있다는 사실이 보도되기도 했다. 이 특허는 빛의 강도와 레이저 출력 전력을 측정할 수 있는 광학 엔진을 갖춘 레이저 프로젝터의 시스템과 방법을 설명하며, 프로젝터는 AI 안경에 통합되도록 설계됐다.

구글은 자체적으로 AI 안경을 설계하고 제조할 수 있지만, 다른 AI 회사는 메타처럼 룩소티카와 제휴하거나, 퀄컴, 어플라이드 머티어리얼즈와 협력하는 아베간트 같은 스타트업처럼 브랜드화된 제품의 하드웨어를 공급하기도 한다. 따라서 오픈AI 안경, 퍼플렉시티 안경, 파이 안경, 빙 안경, 클로드 안경, 그리고 허깅페이스 안경 등 다양한 형태를 기대해 볼 만하다.

AI 안경 산업은 이제 태동기에 있다. 그리고 영상을 모드로 사용하는 멀티모달 AI는 AI 안경 시장에 큰 확신을 줄 것이다.
edtor@itworld.co.kr

Mike Elgan editor@itworld.co.kr
저작권자 한국IDG & ITWorld, 무단 전재 및 재배포 금지
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.