행동심리학의 관점에 따르면, 행동으로 나타나지 않는 언어나 지능은 생명력이 없다. 그간 챗GPT, 미드저니 등 대규모 언어모델(LLM) 인공지능은 어쩌면 행동과 무관한 통계학적 언어지능에 속했다.
반면, 대규모 액션 모델 LAM(Large Action Model)은 인간의 의도를 이해하고 실제 행동으로 옮길 수 있다는 점에서 주목받고 있다. LAM은 단순히 텍스트를 생성·이해하는 단계를 넘어, 디지털 환경 및 실제 세계와 상호작용을 통해 사용자의 목표를 달성하는 차세대 인공지능 모델이다. LAM의 핵심 기능은 정보를 제공하거나 텍스트를 생성하는 것을 넘어, 높은 수준의 ‘계획’과 ‘행동’을 추구한다.
LAM 기반의 선구적인 스타트업 ‘래빗 R1(Rabbit R1)’은 행동하는 AI에 속한다. 래빗 R1은 액션을 기반으로 한 에이전트 AI로, 말로 명령만 내리면 행동을 수행한다. 음성 하나로 AI가 직접 비행기 예약, 호텔 체크인, 식당 예약, 쇼핑, 음악 재생 등 다양한 업무를 수행한다. 사용자가 앱을 따로 설치하지 않아도, R1이 클라우드에서 앱을 실행하며 직접 조작한다. 예를 들어, “택시 불러줘”라고 명령하면, 래빗 R1이 우버나 카카오 택시 앱을 직접 조작하여 차량을 호출한다. “다음 주 뉴욕 호텔 예약해 줘”와 같은 명령을 받으면 야놀자나 익스피디아와 같은 여행 예약 서비스와 연동해서 바로 처리할 수 있다. 기존 AI 비서와 달리 실제 행동을 수행하는 점이 가장 큰 차별점이다.
![]() |
필자가 코파일럿에서 생성한 행동 인공지능(로봇) |
반면, 대규모 액션 모델 LAM(Large Action Model)은 인간의 의도를 이해하고 실제 행동으로 옮길 수 있다는 점에서 주목받고 있다. LAM은 단순히 텍스트를 생성·이해하는 단계를 넘어, 디지털 환경 및 실제 세계와 상호작용을 통해 사용자의 목표를 달성하는 차세대 인공지능 모델이다. LAM의 핵심 기능은 정보를 제공하거나 텍스트를 생성하는 것을 넘어, 높은 수준의 ‘계획’과 ‘행동’을 추구한다.
LAM 기반의 선구적인 스타트업 ‘래빗 R1(Rabbit R1)’은 행동하는 AI에 속한다. 래빗 R1은 액션을 기반으로 한 에이전트 AI로, 말로 명령만 내리면 행동을 수행한다. 음성 하나로 AI가 직접 비행기 예약, 호텔 체크인, 식당 예약, 쇼핑, 음악 재생 등 다양한 업무를 수행한다. 사용자가 앱을 따로 설치하지 않아도, R1이 클라우드에서 앱을 실행하며 직접 조작한다. 예를 들어, “택시 불러줘”라고 명령하면, 래빗 R1이 우버나 카카오 택시 앱을 직접 조작하여 차량을 호출한다. “다음 주 뉴욕 호텔 예약해 줘”와 같은 명령을 받으면 야놀자나 익스피디아와 같은 여행 예약 서비스와 연동해서 바로 처리할 수 있다. 기존 AI 비서와 달리 실제 행동을 수행하는 점이 가장 큰 차별점이다.
![]() |
AI 에이전트 로봇이 식당 예약을 직접 하는 모습(필자가 코파일럿에서 생성) |
독일의 스타트업 픽셀 로봇(Pixel Robotics)은 “생각하는 지게차”라 불리는 행동 AI 에이전트를 개발했다. 이 자율주행 로봇은 공장이나 창고에서 사람 대신 팰릿과 화물을 자동으로 운송하는 똑똑한 물류 에이전트이다. 핵심 기술적 특징은 고가의 라이다(LiDAR) 센서 대신 첨단 카메라와 AI 비전 인식 기술을 활용해 비용을 크게 절감하면서도 복잡한 물류 환경에서 높은 정밀도와 안정성을 구현한다는 점이다. 천장에 설치된 AI 인식 장치가 장애물, 차량, 사람들을 실시간으로 위치 추적하며, 인수인계 지점의 점유 상황까지 기록한다. 통합 관리 시스템과 최적화 알고리즘을 통해 수백 대의 로봇을 동시에 운용할 수 있어 대규모 물류센터에서도 효과적으로 활용될 수 있다. 이러한 행동 AI 에이전트 기술은 물류를 넘어 금융, 고객 응대, AI 워크포스 플랫폼 등 다양한 산업 분야로 확장될 가능성을 보여준다.
LAM은 AI 에이전트를 통하여 실제 ‘행동’으로 나타난다. 또한 LAM의 실제 작동 방식은 LLM과의 협업을 통해 AI 시스템의 능력을 한 차원 높이고 시너지를 발생한다. 가령, 스마트폰에 “치킨 주문해 줘”라고 명령하면, 먼저 LLM이 사용자의 의도 파악, 명령 해석은 물론이고, 메뉴 분석, 주소 등 추가 정보 수집을 담당한다. 이후 LAM이 해석된 명령을 실제 행동으로 전환하고 실행한다. 결과 전달 및 후속 조치는 다시 두 모델의 협력으로 이루어진다. 명령이 단순할수록 LAM의 역할이 강조되고, 복잡한 대화나 정보 수집이 필요할수록 LLM의 비중이 커진다. 행동 AI의 진정한 마법은 LLM과 LAM이 AI 시스템 내에서 힘을 합칠 때 나온다(MIT 슬로안 리뷰, 2025.1.6.)
![]() |
LAM이 행동할 때 LLM과 협력하는 모습(필자가 코파일럿에서 생성) |
에이전트의 행동을 담당하는 대규모 액션 모델(LAM)과 이에 최적화된 컴퓨팅 파워가 유기적으로 결합되어야 한다. LAM이 효과적으로 작동하려면 강화학습, 실시간 데이터 처리, 신경-기호 추론(Neural-Symbolic Reasoning) 등 다양한 핵심 기술이 통합되어야 한다. 특히 LAM은 엣지·온디바이스 환경에서의 실시간 추론과 배터리 기반 저전력 동작이 중요하므로, NPU, 뉴로모픽 칩 등과 같은 최적의 혁신적인 하드웨어와 함께 효율성과 경쟁력을 높일 수 있을 것이다. AI 경쟁에서 승리하기 위해서는 반도체, 소프트웨어, 실증 테스트베드 생태계가 유기적으로 구축되어야 하며, 이러한 기반 위에서 산업 경쟁력을 지닌 AI 모델은 성공할 수 있을 것이다.
![]() |
LAM과 엣지, 온디바이스, 배터리(필자가 코파일럿에서 생성) |
![]() |
[ⓒ 매일경제 & mk.co.kr, 무단 전재, 재배포 및 AI학습 이용 금지]
이 기사의 카테고리는 언론사의 분류를 따릅니다.