컨텐츠로 건너뛰기
검색
AI타임스 언론사 이미지

구글, '시공간 확산' 비디오 생성 모델 공개..."실감 나는 영상 생성"

AI타임스 박찬
원문보기

구글, '시공간 확산' 비디오 생성 모델 공개..."실감 나는 영상 생성"

서울맑음 / -3.9 °
[박찬 기자]
루미에르가 생성한 비디오 (사진=구글)

루미에르가 생성한 비디오 (사진=구글)


구글이 새로운 비디오 생성 인공지능(AI) 모델을 내놨다. 사실적이고 일관성 있는 비디오로 차별화한 구글의 가세로 비디오 생성 AI 분야 경쟁이 더 치열해 질 전망이다.

벤처비트는 24일(현지시간) 구글이 텍스트나 이미지 입력으로부터 생성되는 비디오의 공간적 사실성과 시간적 일관성을 개선한 새로운 시공간 확산 모델 '루미에르(Lumiere)'를 선보였다고 보도했다.

이에 따르면 루미에르는 비디오 전체를 한 프로세스로 생성하는 '시공간 U–넷(Space-Time U-Net)' 아키텍처를 도입했다.

일반적으로 기존 모델은 시작과 끝 프레임을 생성한 다음, 중 부분을 짜맞추는 식으로 비디오를 생성하기 때문에 전체적인 시간적 일관성을 구현하기 어렵다.

반면 루미에르는 비디오 속 사물이 있는 위치에 대한 공간적 측면과 동영상 전체에서 사물이 어떻게 움직이고 변화하는지에 대한 시간적 측면을 동시에 처리하도록 설계했다는 설명이다. 이에 따라 처음부터 끝까지 전체 영상을 하나의 원활한 과정으로 보이게 만들 수 있다.


루미에르는 텍스트 프롬프트를 비디오 변환 스틸 이미지를 비디오 변환 참조 이미지를 사용해 특정 스타일의 비디오 생성 텍스트 기반 프롬프트를 사용해 비디오 편집 장면의 특정 부분에 모션을 추가하는 시네마그래프 이미지의 특정 영역에 애니메이션 적용 특정 개체를 삽입하는 인페인팅 등의 다양한 기능을 제공한다.


캡션이 달린 3000만개의 비디오 데이터셋로 훈련했으며, 1024×1024픽셀의 초당 16~80프레임으로 최대 5초 길이의 비디오를 생성할 수 있다.

다만 루미에르는 현재 연구 단계로, 직접 테스트할 수는 없다. 또 여러 장면으로 구성된 비디오나 장면 간 전환이 포함된 비디오를 생성할 수는 없다.


한편 구글은 2022년 10월에도 비디오 생성 모델인 '이마젠 비디오(Imagen Video)'를 공개한 바 있다. 텍스트 프롬프트에서 초당 24프레임의 짧은 1280×768 비디오 클립을 생성할 수 있었지만, 결과가 항상 일관되지는 않았다. 앞서 2022년 9월에는 메타가 AI 비디오 생성기인 '메이커비디오(Make-A-Video)'를 선보였다.


그러다 최근 들어 동영상 생성 AI는 격전지로 돌변했다. 이 분야 선두인 런웨이는 지난해 6월 획기적인 기능을 갖춘 '젠2(Gen2)'를 출시했다. 이어 11월에는 스태빌리티 AI가 '스테이블 비디오 디퓨전(Stable Video Diffusion)'를, 메타가 '에뮤(Emu)' 비디오 생성기를 공개했다. 미드저니도 조만간 비디오 모델을 내놓을 것으로 알려졌다.

박찬 기자 cpark@aitimes.com

<저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>