'하이퍼클로바X 비디오' 내부 공개
원하는 장면만 정확히 찾아내고
분위기 파악해 배경음악 추천 등
영상 분석 후 예측·창작까지 가능
딥시크·트웰브랩스 등 이어 출사표
B2B·B2G시장 공략도 속도낼듯
<이미지를 클릭하시면 크게 보실 수 있습니다> |
네이버가 영상을 이해하는 초거대 인공지능(AI)을 개발했다. AI 서비스의 경쟁력을 한층 끌어올리는 한편 ‘소버린(주권) AI’를 앞세운 해외 진출에도 활용하겠다는 전략이다. 영상 이해 AI 모델이 피지컬 AI의 핵심 요소가 될 수 있는만큼 네이버의 참전으로 관련 테크 기업들의 경쟁은 더욱 치열해질 전망이다.
24일 정보기술(IT) 업계에 따르면 네이버는 최근 영상 속 사람, 제품, 장소, 음식 등 개체를 인식해 분석하는 AI 모델 ‘하이퍼클로바X 비디오’를 개발했다. 사진을 인식하는 것을 넘어 변화하는 장면에서도 구성 요소들을 정확하게 이해하도록 설계했다. 네이버 측은 “신모델은 사내에 공개돼 서비스 내부적으로 적용 방안 검토하고 있는 단계”라고 설명했다.
하이퍼클로바X 비디오는 영상 이해 능력을 기반으로 관련 내용을 상세하게 설명하는 글을 생성할 수 있다. 네이버는 인물이나 생물 등의 의도를 분석하고 향후 전개까지 예측한다고 강조했다. 원하는 장면이 어느 시간대에 있는지도 찾아낼 수 있다. 영상을 바탕으로 창작할 수도 있다.
네이버는 하이퍼클로바X 비디오를 자사 서비스에 투입해 플랫폼 역량을 강화한다. 이 AI 모델은 네이버 생태계에서 활동하는 창작자의 활동을 지원할 수 있다. 예를 들어 영상의 분위기를 분석해 어울리는 배경 음악을 제안하거나 적합한 홍보 문구를 만들어줄 수 있어 치지직, 클립, 블로그 등 다양한 서비스에 탑재될 수 있다. 영상 속 상품을 인식한 뒤 구매까지 연결할 수 있어 커머스에도 활용할 수 있다. 또 폐쇄회로 텔레비전(CCTV) 영상을 통해 교통 상황 등도 실시간으로 분석할 수 있어 스마트시티에도 탑재할 수 있다.
네이버의 참전으로 영상 이해 AI 시장은 더욱 뜨거워질 것으로 예상된다. 로봇 등 현실 세계와 상호작용할 수 있는 피지컬 AI의 주요 기술이기 때문에 오픈AI와 구글, 마이크로소프트 모두 영상이해 AI 개발에 뛰어든 상황이다. 엔비디아는 최근 영상 속 사물의 속성을 분석하는 ‘코스모스 리즌’ 모델을 발표했다. 중국 딥시크도 올해 초 영상을 이해하고 이미지를 생성하는 모델 ‘야누스 프로’를 선보였다. 국내에서는 스타트업 트웰브랩스가 이 분야에서 주목 받고 있다. 영상 이해 AI 모델 ‘마렝고’와 영상 언어 생성 AI 모델인 ‘페가수스’를 개발했다. 트웰브랩스는 기술력을 인정받아 지금까지 1억 700만 달러(약 1530억 원)를 투자받았다. 엔비디아와 삼성전자의 기업형 벤처캐피털(CVC) 삼성넥스트, 스노우플레이크, 데이터브릭스, SK텔레콤 등 빅테크들이 참여했다.
김성태 기자 kim@sedaily.com
[ⓒ 서울경제, 무단 전재 및 재배포 금지]
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.