[박찬 기자]
메타가 인간이 세상을 이해하는 방식과 유사하게 물리적 세계를 정밀하게 이해하고 예측할 수 있는 차세대 '월드 모델(WM)'을 선보였다. 지난해 2월 첫 모델을 공개한 지 1년4개월여 만의 업그레이드다.
얀 르쿤 메타 수석과학자는 11일(현지시간) 프랑스 파리에서 열린 '비바 테크(VivaTech)' 컨퍼런스에서 로봇과 인공지능(AI) 에이전트가 물리적 세계를 인간처럼 이해하고 예측할 수 있도록 돕는 'V-제파 2(V-JEPA 2)'를 공개했다.
V-제파 2는 영상 정보를 바탕으로 물리적 세상을 추론하고 예측할 수 있는 AI 모델로, 딥러닝 분야의 권위자인 얀 르쿤이 몇년째 주도한 기술이다.
![]() |
메타가 인간이 세상을 이해하는 방식과 유사하게 물리적 세계를 정밀하게 이해하고 예측할 수 있는 차세대 '월드 모델(WM)'을 선보였다. 지난해 2월 첫 모델을 공개한 지 1년4개월여 만의 업그레이드다.
얀 르쿤 메타 수석과학자는 11일(현지시간) 프랑스 파리에서 열린 '비바 테크(VivaTech)' 컨퍼런스에서 로봇과 인공지능(AI) 에이전트가 물리적 세계를 인간처럼 이해하고 예측할 수 있도록 돕는 'V-제파 2(V-JEPA 2)'를 공개했다.
V-제파 2는 영상 정보를 바탕으로 물리적 세상을 추론하고 예측할 수 있는 AI 모델로, 딥러닝 분야의 권위자인 얀 르쿤이 몇년째 주도한 기술이다.
르쿤 수석은 "월드 모델은 AI가 실제 세계를 디지털 트윈으로 '추상화'하고 참조할 수 있도록 하는 개념"이라며 "AI가 행동의 결과를 예측하고, 주어진 목표를 달성하기 위한 계획을 세울 수 있게 된다"라고 설명했다.
추상화는 V-제파의 핵심 개념이다. 기존 동영상 모델처럼 픽셀 수준에서 출력을 예측하는 것이 아니라, 추상적 표현을 떠올리고 그 안에서 표현을 출력하도록 만든다는 개념이다. 기존 AI 모델은 이미지를 연결하는 것에 불과하지만, WM은 무엇이 일어날지를 예측하는 데 초점을 맞췄다는 것이다.
이를 위해 JEPA(Joint Embedding Predictive Architecture)라는 아키텍처를 도입했다. 기존 생성 모델처럼 이미지나 비디오의 픽셀을 예측하는 대신, 의미 있는 고차원 표현(임베딩)을 예측하는 방식을 채택했다.
두개의 주요한 모듈로 구성돼 있다. 먼저, 인코더(encoder)는 입력된 영상 데이터를 처리해 그 안에 담긴 의미 있는 정보를 추출하고, 이를 요약된 형태의 임베딩으로 변환한다. 이어, 프레딕터(predictor)는 인코더가 생성한 임베딩과 함께 주어진 예측 맥락을 바탕으로, 앞으로 전개될 상황을 예측하는 역할을 수행한다. 이런한 구조를 통해 V-제파 2는 영상 속 복잡한 물리 세계를 효과적으로 해석하고 예측할 수 있게 된다.
![]() |
자기지도학습(self-supervised learning) 방식을 통해 영상 데이터를 학습한다.
이 방식은 인간의 라벨링 없이도 AI가 스스로 데이터를 이해하고 학습할 수 있도록 해, 대규모 학습을 효율적으로 수행할 수 있게 한다.
학습은 크게 두 단계로 나뉜다. 먼저, 행동 정보를 포함하지 않는 사전 학습 단계(pre-training)에서는 100만시간 분량의 영상과 100만장의 이미지를 다양한 출처에서 수집해 활용했다. 이 과정에서 모델은 사람과 사물의 상호작용, 물체의 물리적 움직임, 사물 간 관계 등 세상의 작동 방식에 대한 기본적인 이해를 습득하게 된다.
두번째 단계에서는 모델이 실제 계획과 제어에 활용될 수 있도록 로봇 데이터로 추가 훈련했다. 이 단계에서는 로봇이 실제 수행한 제어 동작과 시각 정보를 함께 모델에 입력해, 프레딕터가 특정 행동을 반영한 결과를 예측할 수 있도록 학습한다.
주목할 점은 이 추가 훈련에 단 62시간 분량의 로봇 데이터만 사용했음에도 불구하고, 모델이 실제 로봇의 제어와 계획에 충분히 활용 가능한 수준까지 도달했다는 것이다. 즉, 기존 로봇 훈련처럼 수천번의 시행착오를 실세계에서 반복하지 않고도 효율적으로 학습과 계획이 가능해진 것이다.
메타는 V-제파 2를 로봇 실험실에 적용, 로봇이 물체를 집고 옮기는 등의 물리 작업을 성공적으로 수행했다고 밝혔다. 특히 '특정 물체를 옮기기' 같은 단기 목표를 수행할 때는 목표 이미지를 주고, 다양한 후보 행동에 대한 결과를 예측한 뒤 최적의 경로를 선택해 실시간으로 재계획하며 움직인다.
'새로운 환경에서 물체를 적절한 위치에 놓기' 같은 장기 작업의 경우, 중간 목표를 이미지 시퀀스로 설정해 시각적 모방 학습(visual imitation learning) 방식으로 수행하며 65~80%의 성공률을 기록했다.
르쿤 수석은 "월드 모델은 자율주행차, 로봇 등 현실 세계에서 작동하는 AI에 필수"라며 "앞으로는 거대한 데이터 없이도 AI가 물리적 세계에서 유연하게 사고하고 행동할 수 있는 새로운 로봇 시대가 열릴 것"이라고 말했다.
메타는 V-제파 2의 코드와 모델 체크포인트를 각각 깃허브와 허깅페이스에 연구·상업용으로 공개했다.
박찬 기자 cpark@aitimes.com
<저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>
이 기사의 카테고리는 언론사의 분류를 따릅니다.