컨텐츠로 건너뛰기
검색
매일경제 언론사 이미지

“치킨 시켜줘” “호텔 예약해줘”...내뜻대로 척척 행동하는 AI 시대 온다 [AI와 함께하는 세상]

매일경제
원문보기

“치킨 시켜줘” “호텔 예약해줘”...내뜻대로 척척 행동하는 AI 시대 온다 [AI와 함께하는 세상]

속보
대통령실 "김민석 의혹 면밀히 주시…청문회서 소명될 것으로 판단"
행동심리학의 관점에 따르면, 행동으로 나타나지 않는 언어나 지능은 생명력이 없다. 그간 챗GPT, 미드저니 등 대규모 언어모델(LLM) 인공지능은 어쩌면 행동과 무관한 통계학적 언어지능에 속했다.

필자가 코파일럿에서 생성한 행동 인공지능(로봇)

필자가 코파일럿에서 생성한 행동 인공지능(로봇)


반면, 대규모 액션 모델 LAM(Large Action Model)은 인간의 의도를 이해하고 실제 행동으로 옮길 수 있다는 점에서 주목받고 있다. LAM은 단순히 텍스트를 생성·이해하는 단계를 넘어, 디지털 환경 및 실제 세계와 상호작용을 통해 사용자의 목표를 달성하는 차세대 인공지능 모델이다. LAM의 핵심 기능은 정보를 제공하거나 텍스트를 생성하는 것을 넘어, 높은 수준의 ‘계획’과 ‘행동’을 추구한다.

LAM 기반의 선구적인 스타트업 ‘래빗 R1(Rabbit R1)’은 행동하는 AI에 속한다. 래빗 R1은 액션을 기반으로 한 에이전트 AI로, 말로 명령만 내리면 행동을 수행한다. 음성 하나로 AI가 직접 비행기 예약, 호텔 체크인, 식당 예약, 쇼핑, 음악 재생 등 다양한 업무를 수행한다. 사용자가 앱을 따로 설치하지 않아도, R1이 클라우드에서 앱을 실행하며 직접 조작한다. 예를 들어, “택시 불러줘”라고 명령하면, 래빗 R1이 우버나 카카오 택시 앱을 직접 조작하여 차량을 호출한다. “다음 주 뉴욕 호텔 예약해 줘”와 같은 명령을 받으면 야놀자나 익스피디아와 같은 여행 예약 서비스와 연동해서 바로 처리할 수 있다. 기존 AI 비서와 달리 실제 행동을 수행하는 점이 가장 큰 차별점이다.

AI 에이전트 로봇이 식당 예약을 직접 하는 모습(필자가 코파일럿에서 생성)

AI 에이전트 로봇이 식당 예약을 직접 하는 모습(필자가 코파일럿에서 생성)


독일의 스타트업 픽셀 로봇(Pixel Robotics)은 “생각하는 지게차”라 불리는 행동 AI 에이전트를 개발했다. 이 자율주행 로봇은 공장이나 창고에서 사람 대신 팰릿과 화물을 자동으로 운송하는 똑똑한 물류 에이전트이다. 핵심 기술적 특징은 고가의 라이다(LiDAR) 센서 대신 첨단 카메라와 AI 비전 인식 기술을 활용해 비용을 크게 절감하면서도 복잡한 물류 환경에서 높은 정밀도와 안정성을 구현한다는 점이다. 천장에 설치된 AI 인식 장치가 장애물, 차량, 사람들을 실시간으로 위치 추적하며, 인수인계 지점의 점유 상황까지 기록한다. 통합 관리 시스템과 최적화 알고리즘을 통해 수백 대의 로봇을 동시에 운용할 수 있어 대규모 물류센터에서도 효과적으로 활용될 수 있다. 이러한 행동 AI 에이전트 기술은 물류를 넘어 금융, 고객 응대, AI 워크포스 플랫폼 등 다양한 산업 분야로 확장될 가능성을 보여준다.

LAM은 AI 에이전트를 통하여 실제 ‘행동’으로 나타난다. 또한 LAM의 실제 작동 방식은 LLM과의 협업을 통해 AI 시스템의 능력을 한 차원 높이고 시너지를 발생한다. 가령, 스마트폰에 “치킨 주문해 줘”라고 명령하면, 먼저 LLM이 사용자의 의도 파악, 명령 해석은 물론이고, 메뉴 분석, 주소 등 추가 정보 수집을 담당한다. 이후 LAM이 해석된 명령을 실제 행동으로 전환하고 실행한다. 결과 전달 및 후속 조치는 다시 두 모델의 협력으로 이루어진다. 명령이 단순할수록 LAM의 역할이 강조되고, 복잡한 대화나 정보 수집이 필요할수록 LLM의 비중이 커진다. 행동 AI의 진정한 마법은 LLM과 LAM이 AI 시스템 내에서 힘을 합칠 때 나온다(MIT 슬로안 리뷰, 2025.1.6.)

LAM이 행동할 때 LLM과 협력하는 모습(필자가 코파일럿에서 생성)

LAM이 행동할 때 LLM과 협력하는 모습(필자가 코파일럿에서 생성)

에이전트 AI의 역할은 앞으로 산업 현장에서 크게 부각될 전망이다. 이는 단순한 트렌드가 아니라, 산업 구조와 비즈니스 방식을 근본적으로 변화시키는 필수 도구로 인식되고 있다. 실제로 금융, 제조, 물류, 고객 서비스 등 다양한 분야에서 빠르게 확산되고 있다.


에이전트의 행동을 담당하는 대규모 액션 모델(LAM)과 이에 최적화된 컴퓨팅 파워가 유기적으로 결합되어야 한다. LAM이 효과적으로 작동하려면 강화학습, 실시간 데이터 처리, 신경-기호 추론(Neural-Symbolic Reasoning) 등 다양한 핵심 기술이 통합되어야 한다. 특히 LAM은 엣지·온디바이스 환경에서의 실시간 추론과 배터리 기반 저전력 동작이 중요하므로, NPU, 뉴로모픽 칩 등과 같은 최적의 혁신적인 하드웨어와 함께 효율성과 경쟁력을 높일 수 있을 것이다. AI 경쟁에서 승리하기 위해서는 반도체, 소프트웨어, 실증 테스트베드 생태계가 유기적으로 구축되어야 하며, 이러한 기반 위에서 산업 경쟁력을 지닌 AI 모델은 성공할 수 있을 것이다.

LAM과 엣지, 온디바이스, 배터리(필자가 코파일럿에서 생성)

LAM과 엣지, 온디바이스, 배터리(필자가 코파일럿에서 생성)

우리나라의 경우, KAIST 등 일부의 AI 연구 역량은 세계적 수준을 기록하고 있으나, 산업 현장에서는 여전히 글로벌 빅테크의 시장 주도력에 밀려 그들이 만들어 놓은 판을 따라가고 있는 실정이다. 기존의 판에서 우리의 경쟁력을 유지하면서도 새로운 규칙을 만들고 새로운 판을 짜는 전략과 정책이 시급히 수립되어야 한다. 산업과 AI의 융합적 관점에서 익숙한 틀을 깨고 새로운 도전과 혁신을 장려하는 지원 체계, 그리고 새로운 기술과 혁신 스타트업이 자유롭게 탄생하여 빛을 볼 수 있는 시스템과 전략을 치열하게 모색해야 할 것이다.

[여현덕 카이스트 G-School 원장/기술경영대학원 교수]

[ⓒ 매일경제 & mk.co.kr, 무단 전재, 재배포 및 AI학습 이용 금지]