컨텐츠 바로가기

05.20 (월)

트럼프가 한국어 연설?…영상 만든 음성합성 AI 전문가는

댓글 첫 댓글을 작성해보세요
주소복사가 완료되었습니다
[머니투데이 김은령 기자] [people]김태수 네오사피엔스 대표

머니투데이

<이미지를 클릭하시면 크게 보실 수 있습니다>



“안뇽하쎄요? 나눈 트롬푸 입니다” 북미정상회담이 결정된 지난 4월. SNS(소셜네트워크서비스)에 올라온 동영상 하나가 비상한 관심을 끌었다. 미국 트럼프 대통령이 한국말로 연설하는 영상이다. 마치 외국인들이 처음 한국말을 배울 때처럼 발음이 어눌했지만 목소리만은 영락없는 트럼프다. 진짜와 구별하기 힘든 이 영상은 사실 인공지능(AI)기술로 만든 가짜 영상이다.

이 영상을 만든 주인공은 김태수 네오사피엔스 대표(39). 네오사피엔스는 음성 합성 AI 서비스를 개발하는 국내 스타트업이다. 트럼프 대통령의 한국말 영상은 AI가 트럼프의 음성 특징을 축출하고 해당 목소리를 조합하는 방식으로 제작됐다. 그동안 유명인사의 음성 합성 영상이 화제가 된 경우가 여러차례 있었지만 모국어가 아닌 외국어로 합성한 시도는 처음이다.



김태수 대표는 사실 내로라하는 오디오 AI분야 전문가다. 카이스트 대학원 시절 여러 명이 대화하는 영상에서 특정인의 음성만 뽑아낼 수 있는 기술을 소개한 그의 논문은 음성 관련 학회 등에서 아직도 회자될 정도다. 이후 LG전자와 퀄컴에서 10년간 연구원으로 활동하며 음성 기술 개발에 주력했다. 주변 배경 소리를 없애주고 통화 목소리만 전달해주는 휴대폰 기술도 그가 주도해 개발한 대표 기술. 2014년 미국 CES(소비자가전쇼) 폴 제이콥스 퀄컴 CEO가 기조연설에서 소개한 슬립 상태의 휴대폰을 음성명령(웨이크업 콜)으로 깨우는 기술도 김 대표의 작품이다. 이 기술은 지금은 스마트폰과 AI기기에 음성인식 기능이 보편적으로 탑재되고 있지만, 당시만 해도 스마트폰 버튼을 눌러 활성화한 다음 음성인식이 가능했었다.

10년간 글로벌 대기업에서 일하면서 다양한 음성 관련 기술을 개발했지만 자신의 제품, 서비스로 사람들의 생활을 바꾸고 싶다는 생각에 지난해 창업에 나섰다. 트럼프 영상은 일반인들의 음성합성에 대한 관심을 높이기 위한 시범적으로 제작한 영상이다. 다른 언어로 음성을 합성하는 이 기술은 앞으로 방송, 엔터테인먼트 등에서 다양하게 활용될 것으로 기대했다. 예컨대 한류스타들이 다른 나라 팬들을 위해 그 나라 언어로 영상을 제작한다든가, 뉴스 영상에서 해외 자료를 자연스럽게 한국어 음성으로 합성할 수 있다. 김 대표는 “성우, 연예인, 유명인사 등 목소리가 자산인 사람들의 능력을 강화하고 도움이 될 수 있도록 음성 관련 서비스를 개발하는 게 목표”라고 말했다.

AI 기술로 만든 음성 합성 영상을 보면서 한편으로는 섬뜩하다는 생각도 든다. 앞으로 진짜와 구별할 수 없는 가짜뉴스들이 더욱 창궐하지 않을까. 김 대표는 이에 대해 “음성합성이 누구나 할 수 있는 보편화된 기술이 아니어서 당장 가짜뉴스가 양산되거나 하지는 않을 것”이라고 말했다. 그는 “중장기적으로 발생할 수 있는 부작용을 최소화하는 차원에서 자기 자신의 목소리를 검색해서 인터넷 등에 올려진 영상, 음성 데이터를 찾을 수 있는 서비스도 개발 중”이라고 덧붙였다

김은령 기자 taurus@mt.co.kr

<저작권자 ⓒ '돈이 보이는 리얼타임 뉴스' 머니투데이, 무단전재 및 재배포 금지>
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.