'도쿄거리 걷는 여성' 키워드 입력하니…AI가 1분짜리 동영상 뚝딱

매일경제 원문
이덕주 특파원(mrdjlee@mk.co.kr)
입력

2024.02.16 17:54

주소복사가 완료되었습니다

텍스트를 입력하면 동영상을 만들어주는 오픈AI '소라'로 만들어진 영상을 캡처한 사진. 오픈AI

<이미지를 클릭하시면 크게 보실 수 있습니다>

인공지능(AI) 대중화 시대를 맞아 동영상 개발 경쟁이 달아오르고 있다.

기술 혁신 속도가 빨라지면서 텍스트 입력 시 이미지가 만들어지는 AI는 실사에 가까울 정도로 기술력 수준이 올라왔다. 이에 비해 동영상의 경우 데이터 확보, 처리 속도 등 아직까지 기술적인 난제가 많아 차별화가 가능하다. 그뿐만 아니라 유튜브, 틱톡 등에서 바로 사용 가능해 활용도가 훨씬 높다는 분석이다.

챗GPT 개발사 오픈AI는 15일(현지시간) 텍스트를 입력하면 동영상을 만들어주는 '텍스트 투 비디오(Text to Video)' AI 모델인 '소라(Sora)'를 공개했다. 오픈AI가 이날 홈페이지를 통해 공개한 데모 버전에 따르면 소라는 최대 1분 길이의 동영상을 생성할 수 있고, 프롬프트(AI에 내리는 지시)에 충실한 그림을 그려준다. 이는 현재 나온 서비스 약 15초보다 4배 긴 것이다. "스타일리한 여성이 따뜻하게 빛나는 네온사인과 움직이는 도시 간판으로 가득한 도쿄 거리를 걷고 있다. 검은색 가죽 재킷, 긴 빨간색 드레스, 검은색 부츠를 착용하고 검은색 지갑을 들고 있다"고 텍스트를 입력하자 이에 맞춰 여성이 실제로 도쿄 거리를 걷는 영상이 만들어졌다. 기존 '텍스트 투 비디오' AI에 비해 어색한 부분이 없는 결과물이었다.

오픈AI는 소라를 회사 제품에 통합하기에 앞서 전문가팀에 맡겨 안전성 여부를 평가한다는 계획이다. 실제 상용화하기까지는 시간이 걸릴 것으로 예상된다.

오픈AI가 월등히 뛰어난 성능의 동영상 생성 AI 모델을 내놓으면서 다른 기업들은 비상이 걸렸다. 구글과 메타는 2022년 각각 '이매진 비디오'와 '메이크어비디오'라는 이름의 '텍스트 투 비디오' 모델을 내놨지만 어색한 부분이 많다는 평가가 있었고, 이후 향상된 버전을 공개하지 못했다.

이 분야에 뛰어든 스타트업들도 오픈AI와 정면 대결을 피할 수 없게 됐다. 이미지 생성 엔진 '스테이블 디퓨전'을 만든 스태빌리티AI가 지난해 11월 비디오 생성 모델을 내놨고, 이미지 생성AI로 유명한 미드저니도 '텍스트 투 비디오' 모델을 준비하고 있다. AI 영상 편집툴을 만드는 런웨이ML은 '젠-2'라는 동영상 생성 서비스를 하고 있다. 실리콘밸리 스타트업인 '피카랩스'도 영상 생성AI 서비스를 공개하면서 지난해 5500만달러의 투자를 받았다.

한편 구글은 이날 자체 개발한 멀티모달 AI 모델 제미나이 1.0 프로의 업데이트 버전을 공개했다. 구글은 제미나이 1.5가 기존 1.0보다 동시에 정보를 처리할 수 있는 능력이 크게 향상됐다고 밝혔다. 구글에 따르면 약 1시간 분량의 동영상, 11시간 분량의 음성, 70만개 이상의 단어를 한 번에 처리할 수 있다. 구글은 데모 영상을 통해 제미나이 1.5가 44분 길이의 영화 줄거리를 요약하는 모습을 보여줬다.

[실리콘밸리 이덕주 특파원]

[ⓒ 매일경제 & mk.co.kr, 무단 전재, 재배포 및 AI학습 이용 금지]

이 기사의 카테고리는 언론사의 분류를 따릅니다.

기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.

뉴스

이슈검색어

11.25 (월)

'도쿄거리 걷는 여성' 키워드 입력하니…AI가 1분짜리 동영상 뚝딱

매일경제 주요 뉴스