컨텐츠 바로가기

07.30 (화)

[인터뷰] 수퍼톤 "목표는 우주정복"…AI 목소리 변환 '시프트'로 도전장

댓글 첫 댓글을 작성해보세요
주소복사가 완료되었습니다
[디지털데일리 채성오기자] "장기적인 목표는 우주정복입니다."

지난 9일 취재진과 만난 허훈 수퍼톤 최고기술책임자(CTO)는 회사의 장기적인 목표에 대해 이와 같이 말했다. 우주정복이 의미하는 바는 '최고' 그 이상의 단계로 성장하겠다는 AI 오디오 기업 수퍼톤의 목표가 담겨 있다.

디지털데일리

<이미지를 클릭하시면 크게 보실 수 있습니다>




하이브 자회사인 수퍼톤은 지난 3월부터 AI 기반 실시간 음성 변환 서비스인 '수퍼톤 시프트(Supertone Shift, 이하 시프트)'를 오픈 베타 테스트(OBT) 형태로 서비스하고 있다. 시프트는 자신의 목소리를 실시간 캐릭터 음성으로 변환·송출시키는 서비스로, 콘텐츠 크리에이터의 창작을 지원하기 위해 개발됐다.

시프트는 OBT 기준 현재 10개 캐릭터 목소리를 사용할 수 있으며, 블렌드 기능을 조절해 본인 목소리의 정체성을 유지하면서도 캐릭터의 음성이 섞인 목소리까지 만들어낼 수 있다. 버추얼(가상) 유튜버나 목소리 연기가 필요한 콘텐츠·미디어 창작자들 사이에서 입소문을 탄 시프트만의 매력은 무엇일까.

◆OBT 유저 1만명 조기 달성…"기술력 통했다"

시프트는 기존 뉴스나 시사·교양 프로그램에 나오는 '음성 변조'의 개념으로 접근하면 이해하기 쉽다. 마이크 등 출력 장치로 나오는 목소리를 변환해주는 방식인데 음성 변조와의 차이점은 실시간으로 캐릭터에 몰입할 수 있는 음성이 출력된다는 점이다.

실시간으로 자연스럽게 캐릭터 목소리를 낼 수 있는 기술의 원천은 수퍼톤이 자체 개발한 음성합성 파운데이션 모델 '낸시(NANSY)'와 짧은 지연시간(레이턴시)에 있다. 시프트는 낸시를 통해 사용자의 음성을 음색·발음·음고·강세 등 4개 구성 요소로 빠르게 분석하고 이를 사용자와 캐릭터의 목소리로 실시간 변환한다.

디지털데일리

<이미지를 클릭하시면 크게 보실 수 있습니다>




이를 통해 기계음은 물론, 외부 노이즈를 없애 사실적이고 깨끗한 음성을 출력하는 것이 시프트만의 특징이다. 출력된 음성이 청자(듣는 사람)에게 도달하기까지 걸리는 지연시간을 47㎳(밀리 세컨드, 1000분의 1초)까지 단축시킨 것도 시프트만의 기술력으로 통한다.

시프트는 성별·나이대에 따라 다른 10가지 캐릭터 목소리를 자유롭게 변형할 수 있어 버추얼 유튜버 같은 크리에이터들에게 빠르게 입소문을 타고 있는 것으로 알려졌다. 오디오 입출력만으로 서비스가 가능한 만큼 별도 글로벌 버전 없이도 일본, 러시아 등 해외 유저들이 자연스럽게 유입되는 것이 강점이다. 수퍼톤에 따르면, 시프트는 오픈 베타 테스트 한 달 반 만인 지난 9일 기준 현재 1만6000여명이 가입한 것으로 알려졌다.

디지털데일리

<이미지를 클릭하시면 크게 보실 수 있습니다>




김희영 수퍼톤 제품서비스실장은 "OBT 기간인 만큼 1만명의 유저를 오가닉(자연스럽게)하게 확보하자는 목표를 세웠는데 오픈 후 일본에서 바이럴이 되면서 해당 목표는 한 달 반만에 조기 달성한 상태"라며 "지금도 (가입자 수치면에서) 상승세를 타고 있어서 5만명으로 목표를 확대한 상황"이라고 설명했다.

시프트가 초기 목표를 조기 달성할 수 있었던 배경에는 기술력을 기반으로 한 편의성도 한 몫한 것으로 알려졌다. 지연 시간을 못 느낄 정도로 실시간 목소리 변환이 가능하고, 별도 장비없이 실시간 방송에 녹아들 수 있기 때문이다.

허훈 CTO도 수퍼톤의 기술적인 성취에 대해 ▲퀄리티 ▲기술력(저지연) ▲편의성 등을 언급했다.

그는 "시프트는 극사실적인 사람같이 느껴지는 퀄리티와 저지연으로 직접 본인의 변화된 목소리를 들으면서 연기에 몰입할 수 있는 환경을 구축할 수 있다"며 "보통 AI 기술이라고 하면 이제 고성능의 GPU가 필요한데 시프트는 그런 것 없이 누구나 실시간으로 쓸 수 있는 만큼 기존 다른 서비스들이 달성하지 못했던 부분을 성취했다"고 말했다.

◆"보안은 걱정마"…오디오 워터마킹으로 원천 봉쇄

수퍼톤은 음성 변환 서비스가 범죄에 악용되거나 사회적 부작용을 야기할 수 있는 문제점에도 기술력으로 대응한다는 방침이다. 최근 AI로 학습한 '딥보이스(딥러닝+보이스)'가 점차 정교해짐에 따라 목소리 변조 관련 범죄가 급증할 수 있다는 우려에 대비하기 위해서다.

디지털데일리

<이미지를 클릭하시면 크게 보실 수 있습니다>




시프트의 대비책은 '오디오 워터마킹'이다. 오디오 워터마킹은 시프트를 통해 생성하는 보이스에 자체 워터마크를 붙여 창작물 정보를 인식할 수 있는 기술이다. 워터마크 안에 유저 아이디나 생성 시간 등의 식별정보를 포함시켜, 익명성에 기대 악용할 여지를 원천 봉쇄한다는 점이 특징이다. 수퍼톤은 오디오 워터마킹 기술을 올 가을까지 개발·적용한다는 계획이다.

이교구 수퍼톤 대표는 "딥보이스 등이 진화하며 익명성에 숨어 피해를 주는 사례가 있는데 시프트에서는 이를 기술적으로 차단하기 위해 노력 중"이라며 "오디오 워터마킹 기술로 식별정보를 특정·파악할 수 있게 키 포인트하는 한편 캠페인이나 홍보를 통해 예방할 계획"이라고 말했다.

◆우주정복의 의미…"AI 음성 솔루션의 대중화"

수퍼톤은 연내 시프트를 정식 론칭하는 한편 지난해 공개한 '수퍼톤 클리어'처럼 다양한 형태의 AI 솔루션을 선보인다는 계획이다. 수퍼톤 클리어는 실시간 AI로 잡음 제거를 지원하는 플러그인 솔루션이다.

현재 수퍼톤은 텍스트 투 스피치(TTS) 관련 솔루션, 클리어의 다음 버전인 플러그인 소프트웨어를 준비하고 있다. TTS 솔루션은 게임 캐릭터 대사를 자연스러운 오디오로 생성할 수 있는 '프로젝트 스크린 플레이'를 개발중인 것으로 알려졌다. 텍스트 형태로 대사를 입력하면 목소리 구성 요소로 조합해 자연스러우면서도 감정 표현이 풍부한 형태의 음성으로 변환하는 기술이 될 전망이다.

디지털데일리

<이미지를 클릭하시면 크게 보실 수 있습니다>




이와 함께 수퍼톤은 클리어처럼 전문 오디오 에디터들이나 포스트 프로덕션 엔지니어들이 쓸 수 있는 또 하나의 플러그인을 개발중이다. 포스트 프로덕션 과정에서 재연출하는 등의 노동집약적 작업을 지원하는 AI 기술로, 올 하반기 공개될 예정이다.

수퍼톤의 장기적인 계획은 '우주정복'이다. 다양한 AI 기반 음성 합성 솔루션을 개발·출시해 창작자는 물론 누구나 간편하게 콘텐츠를 만들고 양방향 소통할 수 있는 환경을 구축한다는 것이 우주정복의 참 의미인 것이다.

예를 들어 시프트가 목소리라는 콘텐츠 제작의 주요한 요소를 다양한 음색으로 생성 및 연출할 수 있는 수단이 되면 신규 크리에이터들은 콘텐츠 제작 시장에 좀 더 쉽게 진입할 수 있고, 기존 창작자는 상상력의 한계 없이 표현을 다양화하는 기회로 활용할 수 있다는 것이 수퍼톤의 생각이다.

허훈 CTO는 "실시간 유튜버나 버추얼 유튜버 같은 고객을 대상으로 서비스를 구축하고 여러 가지 다른 단계에서 TTS를 활용한 제품군을 활용할 수 있도록 하는 것이 장기적인 목표"라며 "시프트의 경우 실시간 쌍방향 소통이 필요한 환경 내 도구의 목적이자 닻을 올린 상태로 봐주시면 좋겠다"고 말했다.

- Copyright ⓒ 디지털데일리. 무단전재 및 재배포 금지 -
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.