컨텐츠 바로가기

12.27 (금)

구글도 '월드 모델' 공개...페이페이 리 교수의 월드랩스 모델과 유사

댓글 첫 댓글을 작성해보세요
주소복사가 완료되었습니다
[박찬 기자]
AI타임스

<이미지를 클릭하시면 크게 보실 수 있습니다>


'AI의 대모'로 불리는 페이페이 리의 월드랩스가 단일 이미지를 3D 장면으로 전환하는 '월드 모델'을 발표한 데 이어, 구글도 이미지를 기반으로 3D 세계를 생성하는 '지니 2(Genie 2)'를 공개했다. 두 모델은 거의 흡사한 모습이다.

구글 딥마인드는 4일(현지시간) 텍스트와 이미지를 조합해 무한한 3D 세계를 생성할 수 있는 새로운 월드 모델 '지니 2'를 선보였다.

이 모델은 단일 이미지를 기반으로 2D 비디오 게임을 만들던 기존 '지니'의 업그레이드 버전으로, 이미지와 텍스트 설명만으로 대화형 실시간 3D 장면을 생성한다. 이는 월드랩스나 이스라엘 스타트업 데카르트가 개발 중인 모델과 비슷한 접근 방식을 취하고 있다.

예를 들어, "숲 속을 걷는 귀여운 로봇"이라는 텍스트와 로봇 이미지를 입력하면, 지니 2는 숲 속 배경에서 로봇이 걷고 있는 3D 장면을 실시간으로 생성한다. 사용자는 키보드와 마우스를 통해 3D 환경을 탐색하거나 객체와 상호작용할 수 있다.

https://twitter.com/jparkerholder/status/1864314826891079787

10~20초 동안 유지되는 일관된 3D 세계를 생성하며, 사용자 입력에 따라 캐릭터를 자연스럽게 이동시키는 등 지능적인 반응을 보여준다. 또 시야에서 사라진 장면을 기억하고 다시 보일 때 정확히 렌더링하는 기능을 갖추고 있다.

지니 2가 만들어낸 3D 세계는 고품질 비디오 게임과 같은 몰입감을 제공한다. 다양한 객체 간 상호작용, 생동감 있는 애니메이션, 사실적인 조명 효과 등을 구현해 현실감 넘치는 환경을 구축하며, 캐릭터가 점프하거나 수영하는 등 역동적인 장면 변화도 가능하다.

지니 2는 동작 제어가 가능하고 플레이 가능한 3D 세계를 무한하게 생성할 수 있는 파운데이션 월드 모델로, 구현된 에이전트를 훈련하고 평가하는 데 사용된다. 단일 이미지로부터 시작, 인간 또는 AI 에이전트가 키보드와 마우스 입력을 통해 해당 세계을 탐색하고 상호작용할 수 있다.

이 기술은 게임 개발과 메타버스 구축, 시뮬레이션 등 다양한 분야에서 활용될 수 있다. 게임 개발자는 지니 2를 활용해 빠르고 효율적으로 배경을 제작할 수 있으며, 메타버스 플랫폼 개발자는 현실감 있는 가상 세계를 구축할 수 있다. 최종적으로 자율주행차 및 로봇 시뮬레이션 등의 응용 분야에서도 활용 가능성이 크다.

이는 게임 개발 과정에 직접적인 영향을 미칠 것이라는 분석이다. 액티비전 블리자드나 EA 등 주요 게임사들은 AI를 도입해 생산성을 높이고 인력 부족 문제를 해결하겠다고 밝힌 바 있다.

박찬 기자 cpark@aitimes.com

<저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.