컨텐츠 바로가기

09.12 (목)

핫샷, 새로운 동영상 생성 AI 공개...'소라' 도전자 합류

댓글 첫 댓글을 작성해보세요
주소복사가 완료되었습니다
[박찬 기자]
AI타임스

오픈AI의 '소라'에 도전하는 또 하나의 동영상 생성 AI가 등장했다. 미국의 인공지능(AI) 스타트업 핫샷이 주인공이다.

벤처비트는 20일(현지시간) 핫샷이 텍스트 프롬프트에서 1280x720 픽셀 해상도의 10초 분량의 비디오 클립을 생성할 수 있는 AI 모델 '핫샷(Hotshot)'을 프리뷰로 공개했다고 보도했다.

2023년 아카쉬 사스트리, 존 멀런, 던컨 크로벅 등이 설립한 핫샷은 설립 초기 소비자용 AI 사진 제작 및 편집 앱을 출시했지만, 곧바로 비디오 생성 부문으로 방향을 전환했다.

핫샷은 지난 13개월 동안 3종의 비디오 생성 모델을 구축했다. 첫번째 핫샷-XL 모델은 초당 8프레임으로 1초 길이의 비디오를 생성하는 오픈소스 모델로, 월간 사용자가 2만명이 넘는다.

후속 모델인 핫샷 액트-원(Act-One) 모델은 초당 8프레임으로 3초 분량의 비디오를 생성한다.

https://twitter.com/i/status/1825595241346519412

세번째 모델이 이번에 공개된 720p로 최대 10초 분량의 비디오를 생성하는 핫샷 모델이다.

우선 콘텐츠를 설명하는 자막이 포함된 6억개의 클립 저장소를 구축하고, 이 클립들을 10억개의 이미지와 결합해 훈련 데이터셋을 만들었다. 영상보다 훨씬 더 많이 공개된 이미지 데이터를 활용하기 위해 이미지와 영상을 함께 학습했다고 밝혔다.

다음 단계에서 훈련 데이터셋의 비디오에 캡션을 생성하는 AI 모델을 개발했다. 기존 비전언어모델(VLM) 중 하나를 선택, 30만개의 클립과 수동으로 작성된 캡션으로 구성된 학습 데이터셋을 사용해 미세조정했다. 그 결과 몇주 만에 수억개의 비디오 샘플에 주석을 달기 위해 사용할 수 있는 비디오 캡셔너를 확보할 수 있었다.

또 모델을 지원하기 위해 보조 AI 모델인 오토인코더를 구축했다. 이는 비디오에서 불필요한 세부 정보를 제거하는 알고리즘의 일종으로, 불필요한 정보를 삭제하면 저장 공간이 줄어들어 비용을 절감할 수 있다.

https://twitter.com/i/status/1825621203299832253

오토인코더와 캡션 생성 모델을 준비한 후, 4개월 동안 모델을 훈련했다. 이 과정에서 수천개의 엔비디아 'H100' GPU를 사용했으며, 이들 GPU는 훈련 기간 동안 수백만 시간의 처리 시간을 기록했다.

비디오 품질에 대해서는 선호가 엇갈리는 편이다.

핫샷 웹사이트에서 무료로 하루 2개의 비디오 생성을 생성할 수 있다. 또 API를 통해 개발자들에게도 제공할 계획이다.

박찬 기자 cpark@aitimes.com

<저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.