12억개의 매개변수 가진 ‘V-JEPA 2’ 모델
중력에 의해 바닥으로 떨어지는 공처럼
물리적인 세계의 규칙 학습하고 예측해
중력에 의해 바닥으로 떨어지는 공처럼
물리적인 세계의 규칙 학습하고 예측해
![]() |
물리적인 세계를 이해하는 메타의 월드 모델 ‘V-JEPA 2’ 이미지 [출처 = 메타 웹사이트] |
메타가 물리적인 세계를 이해하고 예측할 수 있는 인공지능(AI) 모델을 내놨다.
기존의 언어 기반 모델과 달리 마치 인간처럼 3D 환경에서 물리적인 법칙을 파악해 움직임을 계획할 수 있도록 한 것이 특징이다.
메타는 11일(현지시간) 이같은 월드 모델 ‘V-JEPA 2’를 공개하며 “물리적 세계에서 시각적인 이해와 예측에서 뛰어난 성능을 구현한다”라고 밝혔다.
메타가 공개한 월드 모델은 2022년 메타가 발표했던 예측 모델인 ‘JEPA’를 기반으로 한 모델로 12억개의 매개변수로 구성됐다.
월드 모델은 특히 물리적 법칙 이해와 행동 예측 능력을 갖추고 있기에, 로봇이 낯선 사물이나 환경에서도 상호작용하면서 작업을 수행하는 데 도움을 줄 수 있다.
여기서 메타가 말하는 물리적인 세계의 법칙은 테니스 공을 던지면 중력에 의해 곧 바닥으로 떨어지는 것처럼 인간이 학습을 통해 배우는 것이 아닌 직관적으로 현실을 관찰하며 터득하는 지식이다.
메타는 “월드 모델은 이러한 직관을 제공하고 가상의 행동이 가져올 결과를 예측함으로써 최종적으로 목표를 가장 잘 달성할 수 있는 최선의 행동을 선택할 수 있게 한다”라고 말했다. 이같은 모델은 로봇처럼 물리적인 세계에서 작동하는 다양한 기기들에 활용될 수 있다.
메타의 월드 모델은 입력받은 영상 데이터에서 유의미한 정보를 추려내는 ‘인코더’와 영상과 맥락 정보를 결합해 예측을 수행하는 ‘예측기(predictor)’로 구성된다.
메타는 모델의 사전 학습 단계에서 100만 시간 이상의 영상과 100만장의 이미지를 활용했으며, 그 다음에는 로봇 데이터를 활용한 추가 훈련을 통해 월드 모델이 특정 행동에 대한 예측을 수행하고 제어할 수 있도록 했다.
메타의 수석 AI 과학자인 얀 르쿤은 “기계가 물리적 세계를 이해하게 하는 것은 언어를 이해하게 하는 것과는 매우 다르다”며 “월드 모델은 AI가 세상을 이해하고 자신의 행동 결과를 예측하기 위한 현실의 추상적인 ‘디지털 트윈’과 같다”고 말했다.
최근 오픈AI의 챗GPT나 구글 제미나이와 같은 생성형 AI 앱의 기반이 되는 대규모 언어 모델을 넘어서는 기술을 모색하면서 월드 모델이 주목받고 있다.
AI의 대모로 불리는 페이페이 리 스탠퍼드대 교수는 지난해 9월 물리적 세계의 구조를 더 잘 이해할 수 있는 대규모 월드 모델을 만드는 것을 목표로 하는 ‘월드 랩스’를 창업하기도 했다.
구글의 AI 조직인 딥마인드는 게임과 3D 환경을 실시간으로 시뮬레이션할 수 있는 ‘지니’ 모델을 개발하고 있다.
[ⓒ 매일경제 & mk.co.kr, 무단 전재, 재배포 및 AI학습 이용 금지]
이 기사의 카테고리는 언론사의 분류를 따릅니다.