컨텐츠 바로가기

04.25 (목)

들어본 목소리 같은데… AI 비서, 누굴까

댓글 첫 댓글을 작성해보세요
주소복사가 완료되었습니다
초기엔 전문 성우가 녹음 이용자 취향에 맞춰 진화
KT-박명수, 삼성-서유리.. 구글 어시스턴트는 존 레전드
애플 시리, 수잔 베넷 등 셀럽 목소리 담은 서비스도.. SKT는 꿀보이스 선발대회


파이낸셜뉴스

<이미지를 클릭하시면 크게 보실 수 있습니다>


KT의 인공지능(AI) 스피커

'기가지니' 스피커, 스마트폰, 가전 등 음성을 기반으로 하는 다양한 인공지능(AI) 서비스가 출시된 가운데, AI의 목소리는 과연 어떻게 구현된 것인지 궁금증이 일고 있다. 음성비서는 서비스 특성상 이용자들과 대화하며 다양한 요구에 응답하기 때문이다. 때론 친근하게, 때론 딱딱하게 들리기도 하는 음성비서의 목소리는 과연 누구의 것일까.

■SK텔레콤, '누구' ASMR 위한 목소리 선발

SK텔레콤은 AI 스피커 '누구'에 담길 최고의 목소리를 발굴하기 위해 '누구 꿀보이스 코리아' 본선을 오는 25일까지 진행한다고 17일 밝혔다.

성우, 아나운서, 유튜버 등으로 구성된 심사위원단이 발음과 발성, 연기, 대중성, 개성, 창의력의 6개 영역을 심사해 10명의 본선 진출자를 선발했다. 최종 선발된 3인은 누구의 ASMR(Autonomous Sensory Meridian Response)콘텐츠 등에 목소리를 담게 된다.

이와 별도로 SK텔레콤 AI 스피커 누구는 서비스 전반에 전문 여성 성우의 목소리를 적용했다. 성우가 다양한 글자를 말한 것을 조합해 문장을 만들어내는 방식이다. 성우가 누구인지는 밝혀 진 바가 없다. AI 스피커가 하는 서비스에 특정 이미지가 더해지는 것을 방지하기 위해서다.

SK텔레콤 관계자는 "일반적으로 남성의 목소리보다는 여성의 목소리를 편안하게 느끼는 측면이 있어서 누구에 여성의 목소리를 적용했다"며 "이미 음성합성 기술을 보유하고 있기 때문에 앞으로 더욱 다양한 목소리를 누구에 적용할 수 있을 것"이라고 말했다.

■대부분 전문성우 목소리 기반

KT도 SK텔레콤과 같은 방식으로 '기가지니'의 목소리를 구현했다. 전문 성우가 녹음한 다양한 글자를 조합해 여러가지 문장을 만들어낸다. 이와 별도로 KT는 지난 5월 개그맨 박명수 씨가 진행하는 퀴즈쇼를 기가지니를 통해 선보였다. 다만 이 목소리는 AI가 만든 가짜다. AI가 박명수 씨의 목소리를 학습해 특유의 발음과 억양을 재현했다.

KT 관계자는 "현재는 기가지니가 1가지의 목소리만 지원하지만, 퀴즈쇼에 적용한 음성합성 기술을 활용해 다양한 목소리를 구현할 수 있다"며 "향후 기가지니를 통해 취향에 맞는 목소리를 선택할 수 있게 될 것"이라고 말했다.

삼성전자의 AI '빅스비'는 현재 총 3가지 목소리를 지원한다. 남녀 성우 1명씩과 방송인 겸 성우 서유리 씨의 목소리다. 이들이 스튜디오에서 주요 글자에 대한 녹음을 한 뒤 이를 조합해 빅스비가 소리를 낸다.

■구글 어시스턴트엔 가수 존 레전드 목소리 적용

구글은 '구글 어시스턴트' 영어버전에 올해 말까지 가수 존 레전드의 목소리를 포함해 총 6개의 목소리를 추가로 지원할 예정이다. 현재 구글 어시스턴트는 기계음이지만 앞으로 이용자의 취향에 맞는 다양한 목소리를 넣을 계획이다.

구글은 구글 어시스턴트의 음성을 위해 '웨이브넷'이라는 기술을 활용하고 있다. 보통 사람의 음성을 AI에 적용하려면 적지 않은 시간을 녹음에 할애해야 하는데, 웨이브넷을 이용하면 최소한의 녹음으로도 모든 단어를 합성해 구현할 수 있다. 이를 통해 구글은 앞으로 유명인의 목소리를 구글 어시스턴트에 적극적으로 적용할 계획이다.

AI 스피커의 원조격인 '에코'를 내놓은 아마존은 에코에 적용된 알렉사 목소리를 기계학습으로 구현했다. 알렉사는 사람의 목소리를 기반으로 하지 않는다.

음성비서의 시초인 애플의 '시리'는 초기에 여배우 수잔 베넷의 목소리를 기초로 했다. 수잔 베넷은 2005년 녹음을 하면서도 자신의 목소리가 시리에 사용될 줄 몰랐던 것으로 전해진다. 다른 일 때문에 녹음한 음성을 애플이 구매하면서 수잔 베넷의 목소리가 시리로 재탄생 한 것이다. 애플은 수잔 베넷이 녹음한 목소리를 기반으로 시리의 목소리를 구현, 다양한 문장을 구사하도록 했다.

ronia@fnnews.com 이설영 기자


※ 저작권자 ⓒ 파이낸셜뉴스. 무단 전재-재배포 금지
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.