중요한 특징에 집중하는 로보틱스 기술 개발
연관성 접근법 적용…인간 뇌 '망상활성화체계' 착안
로봇 내 카메라·마이크가 상황 관찰·학습해 자각하면
LLM 기반 AI 알고리즘이 의도 파악해 필요작업 수행
연관성 접근법 적용…인간 뇌 '망상활성화체계' 착안
로봇 내 카메라·마이크가 상황 관찰·학습해 자각하면
LLM 기반 AI 알고리즘이 의도 파악해 필요작업 수행
[이데일리 김범준 기자] 로봇이 인공지능(AI) 기술을 탑재해도 인간의 현실 세계를 그대로 받아들이기는 어려울 수 있다. 개별 상황과 장면에서 모든 데이터 포인트를 이해하고 학습하려면 엄청난 계산을 위한 에너지와 시간이 필요하기 때문이다. 앞으로는 사람이 하나하나 명령하지 않더라도, 로봇이 의도를 파악하고 관련이 있는 부분에 우선 집중해 효율적으로 협동하는 이른바 ‘연관성 기술’이 주목을 전망이다.
2일 미국 매사추세츠 공과대학(MIT) 소식지에 따르면, MIT 연구진은 데이터 노이즈를 차단해 로봇이 가장 중요한 특징에 집중할 수 있도록 하는 방법을 개발했다. 음성 및 시각 정보 등 장면의 단서를 통해 특정 목표 달성에 있어 가장 관련성이 높은 물체를 신속하게 식별하고 동작을 하는 것이다.
연구진은 최근 한 회의장 다과 테이블에서 시뮬레이션을 통해 시연했다. 마이크와 카메라가 장착된 협동로봇 팔 및 핸드(그리퍼)와 함께 다양한 과일, 음료, 스낵, 식기류로 테이블을 구성했다. 새로운 연관성 접근법을 적용한 결과, 로봇이 인간의 목표를 정확하게 식별하고 다양한 시나리오에서 적절하게 지원할 수 있음을 보여줬다고 밝혔다.
미국 매사추세츠 공대(MIT) 연구진이 새로운 연관성 프레임워크를 활용해 개발한 협동로봇 모습. 이 로봇 팔은 장면 내 객체를 식별하고 우선순위를 지정해 원활하고 지능적이며 안전한 방식으로 인간을 자율적으로 지원한다.(사진=MIT News) |
2일 미국 매사추세츠 공과대학(MIT) 소식지에 따르면, MIT 연구진은 데이터 노이즈를 차단해 로봇이 가장 중요한 특징에 집중할 수 있도록 하는 방법을 개발했다. 음성 및 시각 정보 등 장면의 단서를 통해 특정 목표 달성에 있어 가장 관련성이 높은 물체를 신속하게 식별하고 동작을 하는 것이다.
연구진은 최근 한 회의장 다과 테이블에서 시뮬레이션을 통해 시연했다. 마이크와 카메라가 장착된 협동로봇 팔 및 핸드(그리퍼)와 함께 다양한 과일, 음료, 스낵, 식기류로 테이블을 구성했다. 새로운 연관성 접근법을 적용한 결과, 로봇이 인간의 목표를 정확하게 식별하고 다양한 시나리오에서 적절하게 지원할 수 있음을 보여줬다고 밝혔다.
실제 실험에서 사람이 커피 캔을 집어들자 로봇이 시각적 신호를 인지하고 연유와 티스푼을 재빨리 건넸다. 또 다른 시나리오에서는 로봇이 커피에 대해 이야기하는 두 사람의 대화를 엿듣고 필요한 커피 캔과 크리머를 제공하기도 했다.
연구진에 따르면 이번 실험에서 로봇은 전반적으로 약 90% 정확도로 인간의 목표를 예측하고, 96% 정확도로 관련 물체를 식별할 수 있었다. 또한 동일한 작업을 수행하는 것에 비해 로봇의 안전성을 60% 이상 향상시켜 충돌 횟수를 60% 이상 줄였다.
카말 유세프-투미 MIT 기계공학 교수는 “관련성을 가능하게 하는 이러한 접근 방식은 로봇이 인간과 훨씬 더 쉽게 상호 작용할 수 있도록 한다”며 “로봇은 사람에게 그렇게 많은 질문을 할 필요가 없이 현장의 정보를 적극적으로 활용해 어떻게 도울 수 있는지 알아낼 뿐”이라고 설명했다.
유세프-투미 교수 연구팀이 개발한 이 로보틱스 기술은 일상생활에서 무엇이 중요한지 측정하는 인간의 뇌 능력 ‘망상 활성화 시스템(RAS)’에서 영감을 받았다. RAS가 정보를 선택적으로 처리하고 필터링하는 능력을 광범위하게 모방하는 로봇 시스템을 개발했다.
RAS는 무의식적으로 불필요한 자극을 제거해 관련 자극을 의식적으로 인식할 수 있도록 작용하는 뇌간의 뉴런 다발이다. 산만함을 걸러내고 감각 과부하를 방지해 중요한 것에 집중할 수 있다. 예를 들어 주방 카운터의 모든 품목에 집착하지 않고, 커피 한 잔을 따르는 데 집중할 수 있도록 도와준다.
연구팀은 로봇의 연관성 확립을 위해 △관찰·학습을 통한 자각 △트리거 체크 △실시간 예측 활용 알고리즘 △경로 계획 등 네 가지 주요 단계로 접근했다.
우선 로봇이 마이크와 카메라를 통해 수집한 음성 및 시각적 단서를 AI 툴킷에 지속적으로 입력한다. 오디오 대화를 처리해 키워드와 구문을 식별하는 거대 언어 모델(LLM)과 물체, 대상, 신체 행동, 작업 목표 등을 감지하고 분류하는 다양한 알고리즘이 포함될 수 있다.
이어 트리거 체크 단계에서 사람의 등장 등 중요한 일이 발생했는지 시스템이 주기적으로 점검하고 평가한다. 로봇이 사람을 감지했을 때 주의를 집중시켜 연관성 모드에 돌입, AI에 의해 결정된 인간의 목표를 기반으로 장면에서 가장 관련이 있을 가능성이 높은 물체를 신속하게 식별한다.
시스템 세 번째 단계는 인간과 협동하는 데 있어 가장 관련성과 가능성이 높은 환경의 특징을 결정하는 핵심 역할을 한다. 연구진은 연관성을 확립하기 위해 AI가 만든 실시간 예측을 활용하는 알고리즘을 개발했다. 마지막 단계에서는 로봇이 식별된 관련 물체에 물리적으로 접근해 집어들고 사람에게 제공할 수 있는 경로를 스스로 계획한다.
예를 들어 AI가 LLM으로 ‘커피’라는 키워드를 선택할 수 있고, 행동 분류 알고리즘은 컵을 향해 손을 뻗는 사람을 ‘커피 제조’ 목적을 가진 사람으로 라벨링할 수 있다. 이를 통해 커피 제조와 관련이 있을 확률이 가장 높은 물체 ‘유형’을 결정해 컵, 크리머, 스낵 등을 필터링한다. 이후 환경의 시각적 단서를 기반으로 사람에게 가장 가까이 있는 컵을 가장 관련성이 높은 ‘요소’로 결정한다.
유세프-투미 교수 연구팀은 이달 미국 애틀란타에서 열리는 국제전기전자공학회(IEEE) ‘로봇 및 자동화 국제 콘퍼런스(ICRA) 2025’에서 연구 성과를 발표할 예정이다. 연구진은 “프로그래밍된 로봇이 인간과 함께 직관적으로 협력하는 모습을 상상하며 연구·개발에 박차를 가하고 있다”며 “스마트 팩토리와 오피스 등 직장뿐만 아니라, 가정 환경에서 일반적으로 수행되는 다양한 작업과 목표에도 적용되길 바란다”고 했다.
