컨텐츠 바로가기

07.20 (토)

이슈 인공지능 시대가 열린다

[스타트업 리포트]'유튜브 구독자 늘리는 방법' AI 더빙 만든 신현진 허드슨에이아이 대표

댓글 첫 댓글을 작성해보세요
주소복사가 완료되었습니다
AI가 수십 개 언어로 목소리 따라 하고 입 모양까지 맞춰
개인 창작자도 AI 더빙 이용하면 전 세계로 콘텐츠 확대 가능

전 세계에서 구독자가 가장 많은 유튜브 창작자는 미국의 '미스터비스트'다. 17일 현재 구독자가 2억8,300만 명으로 1위다. 조만간 3억 명을 넘어설 기세다. 덕분에 연간 벌어들이는 돈이 1조 원 이상이다. 그 많은 돈을 이용해 거액의 상금을 걸고 드라마 '오징어게임'을 실제로 재현하거나 수억 원대 슈퍼카 람보르기니를 탱크로 공격하는 영상, 노숙자들에게 집을 사주거나 실명 위기에 빠진 저소득층 어린이 1,000명에게 무료 시술을 해주는 자선 영상 등 이색 콘텐츠를 만들어 올린다.

하지만 그의 인기 비결은 콘텐츠가 전부는 아니다. 구독자 증가 추이를 보면 콘텐츠와 더불어 또 다른 비결이 숨어 있다. 2012년 개설된 그의 유튜브 채널은 2022년 구독자 1억 명 도달까지 10년 걸렸다. 그런데 2023년 2억 명 돌파는 1년밖에 걸리지 않았다. 비결이 뭘까.

정답은 세계 각국 언어로 녹음한 더빙이다. 그는 자신이 만든 콘텐츠에 성우를 기용해 우리말 포함 평균 14개 언어로 더빙해 내보낸다. 그렇게 2022년 더빙을 도입하고 나서 구독자가 급증했다.

2022년 신생기업(스타트업) 허드슨에이아이를 창업한 신현진(34) 대표는 이를 놓치지 않았다. 그는 과거 방송사, 영화제작사에서나 가능했던 더빙을 개인도 손쉽게 할 수 있도록 인공지능(AI)을 개발했다. 사람 대신 여러 언어로 목소리 연기를 하는 AI다. 덕분에 개인 창작자들도 많은 돈과 시간을 들이지 않고 손쉽게 더빙 영상을 만들 수 있게 됐다. 개인 더빙 시대를 선언한 신 대표를 서울 세종대로 한국일보사에서 만나 비결을 들어 봤다.
한국일보

신현진 허드슨에이아이 대표가 서울 세종대로 한국일보사에서 사람 대신 AI가 목소리를 녹음하는 AI 더빙 기술에 대해 설명하고 있다. 임은재 인턴기자

<이미지를 클릭하시면 크게 보실 수 있습니다>


시간과 비용 줄여주는 AI 더빙


우리는 더빙보다 자막이 들어간 영화나 드라마를 많이 보지만 미국 일본 남미 동남아 등 해외 많은 지역이 자막보다 더빙 영상을 선호한다. 더빙의 편리함은 굳이 말할 필요가 없다. 자막을 보지 않아도 돼 글을 모르는 사람도 손쉽게 영상을 감상할 수 있고 자막 길이의 한계상 제대로 담을 수 없는 대사를 온전히 전달할 수 있다. 반대로 대사 전달이 불분명한 영상이나 청력이 떨어지는 사람들에게는 자막이 유리하다. 따라서 요즘은 더빙과 자막을 동시에 담는 영상이 늘고 있다.

세계 최대 온라인 동영상 서비스(OTT) 넷플릭스도 영상을 자막과 함께 수십 개 언어로 더빙해 내보낸다. 넷플릭스에 따르면 더빙을 적용한 한국 드라마나 영화의 시청률이 6배 이상 증가했다. 더빙이 곧 시장을 넓히는 수단이라는 뜻이다.

하지만 더빙은 그만한 대가가 따른다. 90분 분량의 영상을 더빙하려면 수십 명의 성우와 번역가가 필요하고 녹음실을 빌려야 해서 평균 5만 달러(약 7,000만 원)의 비용이 든다.

신 대표가 개발한 '액팅 TTS'라는 AI는 기존 더빙의 장벽인 비용과 시간을 줄여준다. 액팅 TTS는 AI가 사람의 목소리를 흉내 내 음성을 녹음하고 영상 속 입 모양까지 맞춘다. "이 세상 사람들의 모든 목소리를 AI가 따라 할 수 있어요. 등장인물이 수백 명이어도 원래 목소리의 특징과 말투, 목소리 높낮이까지 여러 언어로 따라 하죠. 따라서 많은 성우가 필요 없어 성우를 이용한 더빙 대비 90% 이상 비용을 아낄 수 있죠. AI 더빙은 4,000달러면 충분해요. 다만 슬픔을 억누르며 화를 내는 등 복합적 감정이 구현된 대사는 AI가 그대로 표현하기 어려워 성우가 가이드 녹음을 해주면 AI가 흉내 내요. 성우의 가이드 녹음과 검수 비용까지 포함해도 1만5,000~2만 달러여서 기존 더빙 대비 절반 이하죠."

더빙 시간도 90분 분량의 영상을 성우가 녹음하면 4~6주 걸리는 데 비해 AI는 3일이면 충분하다. "사전 작업과 검수 시간까지 포함하면 2주가량 걸려 전체 작업 시간을 AI가 절반 이상 줄여줘요."

AI가 입 모양까지 조정


액팅 TTS는 목소리만 흉내 내는 것이 아니다. AI가 음성을 글자로 변환하는 STT(speech to text) 기술을 이용해 원본 영상에서 대본과 배경 음악을 추출해 자동으로 각국 언어로 된 대본과 음악파일을 만들어 준다. AI가 자동 번역하는 언어는 영어, 일본어, 스페인어, 포르투갈어 등 20개다.

자동 추출한 대본에 맞춰 AI가 웃거나 우는 등 연기를 하고 영상 속 배우의 입 모양까지 자동으로 일치시킨다. "입 모양을 맞추는 것은 아주 중요해요. 입 모양이 더빙과 다르면 콘텐츠 몰입도가 떨어져요. 이 때문에 기존 성우 녹음은 입 모양을 맞추기 위해 여러 번 녹음하거나 편집 단계에서 조정하느라 시간이 오래 걸려요."

여기 필요한 중요 AI 기술은 자체 개발했다. 전체 직원 14명 가운데 9명이 개발인력이다. "다양한 언어로 녹음하고 입 모양을 일치시키는 AI 기술을 직접 개발했어요. 다만 음성을 글자로 바꾸는 STT 기술만 오픈AI의 '위스퍼'의 연결도구(API)를 이용해 개발했죠."
한국일보

신현진 허드슨에이아이 대표는 사람이 녹음하는 것보다 비용과 시간을 절반 이상 줄일 수 있는 것을 AI 더빙의 장점으로 꼽았다. 그는 세계인의 75% 이상이 영어를 사용하지 않기 때문에 영어 콘텐츠도 더빙이 필요해 시장이 그만큼 크다고 본다. 임은재 인턴기자

<이미지를 클릭하시면 크게 보실 수 있습니다>


유명 유튜브 창작자들 속속 도입


액팅 TTS AI는 벌써 여러 편의 작품에서 활동했다. 배우 라미란이 주연한 장유정 감독의 영화 '정직한 후보 2', 해외 영화 '폴 600미터', 어린이 만화영화 '헬로 카봇' 등을 영어로 더빙해 SK브로드밴드에서 내보냈다.

또 2,160만 명의 구독자를 보유한 게임 애니메이션 제작자 계향쓰, 구독자 144만 명의 운동 영상을 만드는 핏블리 등 유명 유튜브 창작자들이 액팅 TTS AI를 이용한 더빙을 준비하고 있다. "계향쓰와 핏블리는 영어, 스페인어, 일어 등으로 AI 더빙한 유튜브 영상을 6월 말부터 순차적으로 올릴 예정입니다."

신 대표는 영상을 만드는 기업은 물론이고 개인 창작자들에게도 AI 더빙 서비스를 제공할 계획이다. 이를 통해 개인 창작자의 영상물까지 K드라마나 K무비처럼 전 세계로 내보내는 것이 목표다. "개인들에게 구독형 서비스(SaaS) 방식으로 AI 더빙을 제공할 계획이에요. 가격은 미정이지만 더빙하려는 영상 시간에 맞춰 구독료를 받을 수 있죠."

이후 전 세계 창작자를 대상으로 시장을 확대할 계획이다. "세계 인구의 75% 이상이 영어를 사용하지 않아요. 수많은 영어 콘텐츠가 시장을 넓히려면 다국어 더빙이 필요하다는 뜻이죠."

그러려면 일레븐랩스, 헤이젠 등 쟁쟁한 해외 기업들과 경쟁해야 한다. AI 더빙의 대표적 미국 기업인 일레븐랩스는 조 단위 기업 가치를 인정받는 유니콘 스타트업이다. 그러나 신 대표는 기술에서 이들보다 비교 우위에 있다고 장담한다. "일레븐랩스는 같은 배우의 목소리가 영상에 따라 변하면 여러 명으로 인식하는 문제가 있어요. 또 입 모양 일치 기술도 부족하죠."

음성권과 일자리 위협 문제 대두


관건은 초상권처럼 목소리에 대한 권리인 음성권이다. AI 등장 전까지 음성권은 명확한 규정이 없었다. 그러나 앞으로는 달라질 수 있다. "그동안 음성권은 회색지대여서 누구나 성대모사 등을 자유롭게 할 수 있었죠. 그런데 AI 더빙이 활성화되면 유명인 음성에 대한 권리 확보가 필요할 것으로 봐요. 미국의 배우 방송인 노조(SAG-AFTRA)에서는 당사자 동의와 정당한 대가 없이 AI가 음성을 따라 하지 못하도록 성명을 냈어요."

성우의 역할 축소로 AI가 일자리를 빼앗는 문제가 AI 더빙에서도 발생할 수 있다. "AI가 도입되는 많은 분야가 그렇듯 일자리가 줄어들 수 있어요. 대신 새로운 시장이 생길 수 있어요. 음성권을 판매하거나 아직까지 완벽하지 못한 AI를 위해 음성 가이드를 녹음해 주는 영역이죠."

신 대표는 올해부터 의미 있는 매출이 발생할 것으로 본다. 투자는 신한벤처투자, 스마일게이트인베스트먼트, 에이벤처스 등에서 40억 원을 받았다. "지금까지는 투자 단계였죠. 8월에 개인 창작자 대상으로 AI 더빙 서비스를 시작하면 올해부터 의미 있는 매출이 발생해요."

"난 롱테일의 힘을 믿는다"


이화여대에서 교육공학을 전공한 신 대표는 2014년 직장인에게 직무 교육을 실시하는 삼성그룹의 멀티캠퍼스에 입사했다. 그곳에서 그는 더빙의 문제점을 경험했다. "멀티캠퍼스는 전 세계에서 일하는 삼성그룹의 임직원을 교육하는 곳이어서 일부 콘텐츠를 6개 국어로 더빙해요. 그때 비용과 시간이 많이 걸리는 더빙의 문제점을 봤죠."

'기술이 삶을 바꾼다'고 믿는 그는 이를 실천하기 위해 4년간 다닌 멀티캠퍼스를 그만두고 서울대 융합과학기술대학원에 진학했다. 대학원을 마치고 2020년 LG화학에 입사했다가 LG에너지솔루션이 분사할 때 자리를 옮겨 AI로 사업을 예측하는 일을 2년간 했다.

창업을 결심한 것은 콘텐츠에 AI를 접목하는 일에 관심이 많았기 때문이다. 웅대한 창업의 꿈은 독특한 사명에 담았다. "LG 시절 한강을 내려다보는 사무실에서 일했어요. 나중에 뉴욕의 허드슨강을 내려다보는 곳에서 일하자는 뜻을 담아 사명을 지었죠."

하지만 회사 경영은 생각보다 만만치 않다. 그는 주 7일 일한다. "일주일에 6일 출근하고 휴일에 집에서도 일해요. 창업자라면 어쩔 수 없어요. 스스로 택한 길이어서 휴일 없는 삶이 억울하지 않아요. 대기업 직원이 안정적이라면 창업자의 삶은 변화무쌍한 롤러코스터죠. 그만큼 몸은 힘들지만 재미있어요."

앞으로 그는 콘텐츠 제작 분야까지 염두에 두고 있다. "개인 창작자가 중심이 된 롱테일의 힘을 믿어요. 창작자가 영상 제작에 AI 기술을 활용하는 방안을 생각 중이죠. 그만큼 전 세계 시장을 목표로 모든 콘텐츠에 더빙이 들어가도록 하는 것이 목표죠."

최연진 IT전문기자 wolfpack@hankookilbo.com


기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.