오픈AI 소라, 텍스트로 1분 고퀄 영상 뚝딱
세상 돌아가는 법칙 이해하고 영상 생성
"AGI 개발 이정표"…구현 시기 앞당기나
[이미지출처=AFP연합뉴스] |
<이미지를 클릭하시면 크게 보실 수 있습니다> |
영상 생성 모델 '끝판왕' 나왔다
일단 업계에선 영상 생성 모델의 '끝판왕'이 나왔다고 평가합니다. 일단 만들 수 있는 영상 길이가 1분가량으로 깁니다. 구글이 람다를 기반으로 개발했던 '이마젠 비디오'는 5초에 불과했고 이 분야 '게임 체인저'로 꼽혔던 미국 스타트업 런웨이의 모델은 18초 정도였죠.
퀄리티도 높습니다. 다른 모델은 스틸 이미지가 살짝 움직이는 수준이었는데 소라는 카메라 앵글이 시시각각 바뀌는 역동적인 표현이 가능합니다. 움직임도 자연스러워서 실사에 가깝게 보이죠. 다른 모델은 여러 이미지를 붙이는 과정에서 끊김이 깜빡임으로 나타나는 '플리커' 현상이 나타났는데 소라는 그런 부분이 없어요.
영상 생성 AI 분야에선 충격을 넘어 두렵다는 반응이 나옵니다. 생성형 AI가 등장한 후 영상에도 이를 접목해 보는 걸음마 단계였는데 갑자기 뛰는 선수가 등장한 거니까요. AI 스타트업 인쇼츠의 이건창 대표는 "인프라 비용을 배제한다면 기존 영상 생성 모델이나 서비스를 전부 대체할 수 있을 것"이라고 했죠. 영화, 게임 등 영상 관련 산업 전체를 뒤흔들 것이라는 전망도 나옵니다. 텍스트만으로 영화나 게임 한편을 뚝딱 만들거나 메타버스(확장 가상 세계)를 구축하는 것도 가능하니까요. '월드 제너레이터(World Generator)'가 나온 셈이죠.
세상 돌아가는 법칙 이해…"AGI 개발 이정표"
소라가 이렇게 뛰어난 이유는 남다른 '이해력' 때문입니다. 사용자가 글로 요청한 내용뿐 아니라 그 내용이 실제 세계에서 어떻게 작동하는지 이해하죠. 프롬프트를 자세하게 입력하지 않아도 물리적 이해력을 토대로 영상이 자연스럽게 흘러가도록 한다는 얘기입니다.
'비 온 뒤 길을 걷고 있다'는 프롬프트를 입력했다고 해볼까요. 배경에 대한 설명은 '비 온 뒤' 뿐이지만 소라는 실사처럼 자연스럽게 표현합니다. 이는 빗물이 더 낮은 지대에 고인다거나 빗물에 사물이 비친다는 물리적 현상을 이해하고 이를 표현하기 때문이에요.
달리 말하면 사람처럼 사고할 수 있다는 의미이기도 합니다. 우리가 뭔가를 생각하거나 배울 때 글에만 의존하지는 않죠. 이미지를 떠올리기도 하고 현실 속 움직임을 보면서 물건을 던지면 땅으로 떨어진다는 법칙을 자연스레 알게 되기도 합니다. AI도 마찬가지예요. 처음엔 텍스트로만 학습하다가 이미지, 영상으로 범주를 넓힐수록 세상을 더 잘 이해하게 되죠. AI로 광고 영상·이미지를 만드는 파이온코퍼레이션의 전찬석 대표는 "글과 이미지, 영상 속 정보를 연계하면 사고의 수준이 사람과 유사해지는 것"이라고 설명했습니다.
전문가들이 소라를 보고 꿈의 기술로 불리는 일반인공지능(AGI·Artificial General Intelligence)이 성큼 다가왔다고 보는 것도 이 때문입니다. AGI는 인간처럼 범용적 사고가 가능한 AI인데요. 업계 관계자는 "소라는 어떻게 보면 연구 결과의 파생상품이고 오픈AI의 궁극적인 목표는 물리적 세계에 대한 범용 시뮬레이터, 즉 AGI로 가는 것"이라는 분석을 내놨죠. 오픈AI 역시 블로그를 통해 야심을 감추지 않았습니다. "소라는 AGI를 개발하는 데 중요한 이정표가 될 것"이라고요.
최유리 기자 yrchoi@asiae.co.kr
<ⓒ투자가를 위한 경제콘텐츠 플랫폼, 아시아경제(www.asiae.co.kr) 무단전재 배포금지>
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.