파이 시리즈 기반 VLA+ 모델 개발…양손 조작 수행
자연어 명령 제어신호로 변환…'비지박스' 벤치마크로 성능검증
자연어 지침 따른 비지박스(BusyBox) 조작 및 특정 과업군(task family) 전반의 어포던스 일반화(Affordance generalization) 성능 시연(마이크로소프트 제공) |
(서울=뉴스1) 김민석 기자 = 마이크로소프트(MS)가 첫 로보틱스 모델 '로-알파'(Rho-alpha·ρα)를 공개하고 피지컬 AI(Physical AI) 시장 공략에 나선다.
MS 리서치가 22일 공개한 로-알파는 기존 VLA 모델의 한계를 넘어선 'VLA+' 모델로 인지 측면에서 촉각 센싱을 접목했다.
MS 측은 "파이(Phi) 시리즈 비전-언어 모델을 기반으로 비전-언어-행동(Vision-Language-Action·VLA) 모델을 개발했다"며 "여기에 촉각 센싱을 접목한 VLA+ 모델은 기존 VLA에서 일반적으로 사용하는 인지·학습 모달리티의 범위를 넘어 확장했다는 점에서 차별화된다"고 설명했다.
이어 "자연어 명령을 로봇의 제어 신호로 변환해 양손 조작(bimanual manipulation)을 수행할 수 있다는 점이 핵심"이라며 "로봇이 비구조화된 환경에서 자율적으로 작동할 수 있는 새로운 가능성을 제시했다"고 언급했다.
마이크로소프트 리서치 최신 로보틱스 모델 로-알파(Rho-alpha) 공개(마이크로소프트 제공) |
구글 딥마인드의 RT-2 등 기존 VLA 모델이 주로 시각과 언어 정보를 학습했다면, 로-알파는 촉각 피드백을 통해 로봇이 물체의 접촉 상태를 감지하고 섬세하게 조작할 수 있다는 설명이다.
로-알파는 사람의 교정 피드백을 지속 학습해 성능을 개선한다. 로봇이 오류를 범할 때 작업자가 3D 마우스 등의 장치로 동작을 바로잡으면 시스템이 실시간으로 이를 학습해 다음 작업에 반영한다.
MS는 로보틱스 데이터 부족 문제를 해결하기 위해 엔비디아 아이작 심(NVIDIA Isaac Sim) 프레임워크를 활용해 강화 학습 기반 합성 데이터를 생성한다. 애저(Azure) 클라우드 인프라에서 시뮬레이션을 구동하고 이를 상용 및 실제 시연 데이터셋과 결합해 훈련 효율을 높였다.
중국 유니트리 G1 휴머노이드 로봇에 피지컬 AI 로-알파 탑재(마이크로소프트 제공) |
MS 리서치는 로-알파의 성능을 검증하는 물리적 상호작용 벤치마크 '비지박스'(BusyBox)도 공개했다.
비지박스는 스위치·슬라이더·버튼·다이얼 등 6개 모듈로 구성된 3D 프린팅 가능한 키트로 로봇이 기본 어포던스(affordance)를 얼마나 일반화할 수 있는지 등을 평가한다.
현재 MS와 워싱턴대 연구진은 로-알파를 접목한 듀얼 암(dual-arm) 로봇과 휴머노이드 로봇(G1 등)을 대상으로 다양한 조작 환경에서 행동 궤적을 학습하도록 훈련하고 있다.
MS 관계자는 "향후 수개월 내 듀얼 암 시스템 등의 기술 상세 내용을 공개할 계획"이라며 "로봇 제조사와 시스템 통합 업체를 위한 리서치 얼리 액세스 프로그램도 시작했다"고 말했다.
애슐리 로렌스 MS 리서치 액셀러레이터 부사장은 "피지컬 AI가 로보틱스를 재정의하고 있다"며 "로봇이 복잡하고 예측 불가능한 환경에서 인지·추론·행동할 수 있도록 지원한다"고 했다.
ideaed@news1.kr
Copyright ⓒ 뉴스1. All rights reserved. 무단 전재 및 재배포, AI학습 이용 금지. <용어설명> ■ 피지컬 AI 피지컬 AI(Physical AI)는 인공지능(AI)이 현실 세계의 물리적 환경을 인식·이해하고 복잡한 행동을 직접 실행할 수 있도록 만드는 기술이다. 로봇·자율주행차 등의 형태로 직접적인 행동과 상호작용을 수행하는 기술을 의미하는 점에서 기존 AI와 구분된다. ■ VLA VLA 모델은 로봇이 시각 데이터와 함께 프롬프트(명령어)로 인식한 언어 데이터를 함께 이해할 수 있도록 지원하는 기계학습 모델이다. 로봇이 이에 기반해 행동할 수 있도록 제어해준다. ■ VLA+ VLA+는 기존 VLA(Vision-Language-Action)를 확장해 센싱 모달리티를 더 많이 끌어안은 물리 AI·로봇용 멀티모달 모델이라는 의미로 쓰이고 있다. V(시각)·L(언어)·A(행동)을 기본 축으로 촉각·힘·압력 등 추가 센서 정보를 정식 입력 채널로 통합한 확장형 구조를 지칭한다.
