컨텐츠 바로가기

12.13 (금)

‘엔비디아’ 러브콜…영상 찾아주는 챗GPT [천억클럽]

댓글 첫 댓글을 작성해보세요
주소복사가 완료되었습니다
(23) 트웰브랩스


챗GPT 성공 이후 ‘인공지능(AI)’ 키워드가 수년째 투자 시장을 지배 중이다. AI 솔루션과 서비스를 앞세워 수많은 스타트업이 쏟아져 나오고 있지만, 공통된 고민거리를 갖고 있다. 챗GPT를 서비스하는 오픈AI, 그리고 구글·마이크로소프트 같은 빅테크 기업과 어떻게 차별화할 수 있는지다. 빅테크가 주도하는 ‘생성형 AI’나 ‘초거대 언어모델(LLM)’ 영역에서는 한계가 있다. 그동안 쌓인 기술력과 거대 자본 싸움에서 게임조차 안 되기 때문이다.

‘트웰브랩스’는 이런 숙제를 아주 영리하게 해결한 AI 스타트업 중 한 곳으로 평가받는다. 챗GPT를 비롯해 여타 언어모델과 경쟁을 택하지 않고 일찌감치 ‘영상 AI’로 노선을 정한 덕분이다. 차별화된 기술 덕에 투자 시장 관심도 뜨겁다. 엔비디아 같은 글로벌 기업이 거듭 투자를 단행할 만큼 세계적으로 주목받는다.

매경이코노미

트웰브랩스 멀티모달 영상 이해 모델 ‘마렝고(왼쪽)’와 초거대 AI 영상 언어 생성 모델 ‘페가수스’. (트웰브랩스 제공)

<이미지를 클릭하시면 크게 보실 수 있습니다>


영상 AI 분석 툴은 왜 없을까

영상 속 맥락까지 통째로 ‘학습’

2021년 창업한 트웰브랩스 누적 투자액은 7700만달러다. 한화로 계산하면 1060억원 정도다. 올해 6월 5000만달러 규모 시리즈A 투자를 유치하며 존재감을 널리 알렸다. 투자자도 화제를 모았다. 엔비디아의 자회사인 ‘엔벤처스’와 250억달러 규모 자금을 운용 중인 ‘NEA’가 리드 투자자로 나섰고, 인덱스벤처스, 래디컬벤처스, 그리고 드림웍스 창업자가 세운 투자사로 유명한 원더코벤처스 등 다수 글로벌 투자사가 이름을 올렸다.

특히 엔비디아가 국내 기업에 투자한 최초 사례로 주목받았다. 엔비디아는 2023년 10월 첫 투자에 나선 데 이어 올해 후속 투자에도 참여했다. 모하메드 시딕 엔벤처스 대표(엔비디아 부사장)는 “트웰브랩스가 보유한 뛰어난 영상 이해 기술과 엔비디아의 가속 컴퓨팅을 바탕으로 여러 고객들을 만족시킬 수 있는 다양한 연구 협업을 지속해나갈 것”이라고 밝힌 바 있다.

엔비디아를 비롯한 수많은 글로벌 기업은 어떤 점에서 트웰브랩스를 높게 평가한 것일까. 트웰브랩스의 남다른 아이디어를 살펴보기 위해선 2019년으로 시계를 되돌릴 필요가 있다.

트웰브랩스 시작은 이재성 대표의 군생활로부터 출발한다. 이 대표는 당시 국방부 사이버작전사령부에서 현재 김성준 개발총괄이사와 이승준 기술총괄이사(CTO)를 만났다. 군에서 함께 업무를 하던 중 ‘텍스트 분석 AI는 많지만, 영상을 이해하는 AI는 너무 부족해 불편하다’는 데 의견을 모았다. 모두가 전역한 2021년 영상 AI 모델을 만드는 회사를 차리기에 이르렀다. 전 세계로 범위를 넓혀도 유례를 찾기 어려운 ‘초거대 영상 이해 모델’이다.

이승준 CTO는 “요즘같이 영상 콘텐츠가 쏟아지는 시대에서 텍스트가 전체 인터넷 트래픽에서 차지하는 비중은 5~10%에 불과하다. 반면 영상은 80%가 넘는다”며 “영상 데이터를 기반으로 AI가 무언가를 검색하거나 만들어내는 기술이 필요하다고 생각해 영상-언어 모델 개발에 나섰다”고 설명했다.

트웰브랩스 솔루션이 갖는 핵심 경쟁력은 영상을 학습하는 방식이다. 구글 제미나이 등 여타 AI는 영상을 프레임 단위로 쪼개 일일이 학습하는 방식을 쓴다. 1시간 분량 영상이라면 수만 개 이미지를 라벨링해 따로 학습하는 만큼 여기 필요한 비용과 시간이 크다. 반면 트웰브랩스는 마치 인간 뇌가 장면을 기억하듯 영상 정보를 벡터화하는 ‘임베딩’이라는 기술을 활용한다. 트웰브랩스 관계자는 “영상에는 이미지, 소리, 행동, 시간의 흐름, 맥락, 주변 상황 등 무수히 많은 정보가 들어 있다”며 “이를 저마다 3D 축에 위치시켜 영상 전체를 통째로 이해하는 방식을 쓴다”고 설명했다.

매경이코노미

어떤 AI 서비스를 제공하나

‘영상 검색’ ‘영상 기반 문답’ 가능

현재 트웰브랩스가 서비스 중인 영상 모델은 크게 2가지로 나눌 수 있다. 지난해 4월과 10월 각각 서비스를 시작한 ‘마렝고’와 ‘페가수스’다.

‘마렝고’는 영상을 학습한 AI가 이용자가 필요로 하는 장면을 ‘콕 집어’ 검색해준다. 쉽게 말해 ‘영상 검색 솔루션’이다. 예를 들어 ‘디스토피아 분위기를 풍기는 사막에서 자동차가 질주한다’고 검색할 경우, 이용자 데이터베이스에 저장된 수많은 영상 중 일치율이 가장 높은 장면을 추출해 보여주는 식이다. 영화 ‘매드맥스’의 한 장면이 첫 번째로 검색되고 영화 ‘스타워즈’의 자동차가 삭막한 사막 행성을 달리는 장면이 나오기도 한다.

방대한 영상 데이터를 보유한 기업일수록 마렝고 솔루션 필요성이 높다. 캐나다 스포츠 엔터테인먼트 회사 ‘MLSE’가 어떻게 트웰브랩스 솔루션을 활용하고 있는지 살펴보면 이해가 쉽다. 예를 들어 축구 경기 하이라이트 영상을 만든다고 해보자. 편집자는 5~6분 남짓 주요 장면을 골라내기 위해 90분이 훌쩍 넘는 영상을 계속 들여다봐야 한다. 하지만 트웰브랩스 솔루션을 활용하면 편집 시간을 획기적으로 줄일 수 있다. ‘득점 장면을 찾아줘’ ‘퇴장 등 경기에 영향을 줄 만한 모습을 골라줘’ 등을 입력하면 다 찾아주는 식이다.

세종시도 트웰브랩스와 협업 중이다. 방대한 분량의 CCTV 영상에서 특정 현상을 포착해내는 데 쓰인다. 실종된 할머니를 찾기 위해 ‘분홍색 상의를 입은 할머니가 쓰러지는 장면을 찾아줘’라고 입력하기만 하면 모든 영상을 사람이 일일이 살펴보지 않아도 빠르게 필요한 영상을 구할 수 있다.

마렝고가 텍스트 검색으로 필요한 영상을 찾는 서비스라면, ‘페가수스’는 영상에서 텍스트를 추출하는 모델이다. 이용자가 보유 중인 영상을 바탕으로 인사이트를 도출할 수 있는 다양한 텍스트를 만들어낼 수 있다. 스산한 분위기로 사랑을 받은 미국 드라마 ‘웬즈데이’를 업로드하고 난 후 ‘제목을 뽑아줘’ ‘챕터를 구분해줘’ ‘내용을 요약해줘’ 같은 명령을 내릴 수 있다. ‘어떤 촬영 기법을 썼는지 알려줘’ ‘어떤 음향 효과 덕분에 인기를 얻을 수 있었는지 분석해줘’ 같은 구체적인 문답도 가능하다. 스포츠 경기 영상이라면 ‘왜 이날 특정 선수 활약이 부진했을까’ ‘왜 득점이 저조했을까’ 같은 질문도 해볼 수 있다.

트웰브랩스 관계자는 “영상을 온전히 이해하기 때문에, 대본이 없는 무성 영화나 대사가 없는 장면에서도 텍스트 추출이 가능하다”며 “영상에서 다양한 인사이트를 뽑아낼 수 있는 ‘영상 기반 챗GPT’라고 볼 수 있다”고 설명했다.

국내외 대기업과 협업 확대

방대한 영상 보유 기업과 ‘윈윈’

트웰브랩스는 창업 4년 차에 접어든 초창기 스타트업이다. 유의미한 매출과 영업이익은 아직 밝히지 않고 있다. 다만 현재 성장세는 두드러진다. 지난해 20명 남짓이던 직원이 올 들어 70명 수준으로 늘었다. 트웰브랩스 API를 활용 중인 개발자는 전 세계 90여개국에서 3만명이 넘는다. 미국 샌프란시스코 사무실을 중심으로 영업에 힘을 주면서 고객사도 빠르게 늘어나고 있다. 구체적인 공개는 어렵지만 미국 최대 스포츠 리그와 콘텐츠 기업 등 협업이 확대되는 중이다. 삼성전자·한화에어로스페이스 등 국내 대기업과 논의도 활발하다.

트웰브랩스는 모델 정교화에 전념한다는 계획이다. 예를 들어 스포츠는 축구·농구·야구 등 저마다 다른 규칙과 역사, 배경지식을 적용할 수 있도록 파인튜닝(특정 작업에 적합하도록 추가 학습)하는 작업을 진행한다. 이 밖에도 더 많은 영상에 포함된 더 많은 정보를 학습하기 위한 연구·개발에 전념하고 있다. 트웰브랩스 관계자는 “양질의 데이터가 있어야 더 뛰어난 AI 모델을 만들 수 있다”며 “믿을 만한 영상 데이터를 다수 갖고 있는 고객사와 접촉해 서로 ‘윈윈’할 수 있다는 점을 열심히 어필하고 있다. 다행히 반응이 좋다”고 말했다.

[나건웅 기자 na.kunwoong@mk.co.kr]

[본 기사는 매경이코노미 제2283호 (2024.11.06~2024.11.12일자) 기사입니다]

[ⓒ 매일경제 & mk.co.kr, 무단 전재, 재배포 및 AI학습 이용 금지]
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.