바이두는 AI 음성학습 시스템인 딥보이스의 세 번째 버전을 공개했다고 외신 더버지가 24일(현지시각) 보도했다.
세 번째 딥보이스는 30분 분량의 음성 데이터만으로 1만개의 음성을 학습할 수 있다. 또 다양한 음성의 악센트를 학습할 수 있어 향후에는 중국의 성조를 완벽하게 모방, 사용자들의 자연어를 처리할 것으로 전망된다.
바이두가 악센트를 모방, 식별하는 기술을 개발하는 것은 자국의 성조 때문인 것으로 보인다. 중국에서는 1성부터 4성까지의 성조가 있으며 같은 단어더라도 성조를 달리하면 뜻이 달라진다.
바이두는 AI 음성학습 시스템인 딥보이스의 세 번째 버전을 공개했다. (사진=더버지) |
<이미지를 클릭하시면 크게 보실 수 있습니다> |
바이두가 하려는 것은 여러 악센트, 문자의 뉘앙스를 인지할 수 있는 시스템을 만드는 것이다. 물론 아직 초기 단계로 악센트를 모방하는 법을 배울 수 있는 단계다.
바이두는 "우리의 시스템은 이미 자연스럽고 인간의 목소리를 합성할 수 있다는 것을 입증했다. 이는 디지털 보조 장치로 쉽게 이용할 수 있다"고 말했다.
올해 초 바이두는 새로운 AI 음성 학습 시스템인 딥보이스를 도입했다. 텍스트 기반의 음성을 변환할 수 있는 시스템을 구축하기 위해 사용되는 AI 기법인 딥러닝을 사용한다.
첫 번째 버전은 실제 사람과 거의 구별할 수 엇는 짧은 문장을 만들 수 있다. 한 번에 하나의 목소리를 학습할 수 있으며, 완벽하게 학습하기위해서는 수 시간 분량의 음성 데이터를 필요로 한다.
지난 5월에 선보인 딥보이스2는 30분 분량의 음성 데이터를 학습해 수백가지의 악센트를 모방할 수 있다.
바이두뿐만 아니라 구글에서도 컴퓨터 음성합성 작업을 진행하고 있다. 구글의 딥마인드 부서는 악센트를 학습할 때 이전보다 훨씬 능숙한 기술을 선보이고 있으며, 목소리를 더욱 인간과 유사하게 하는 '립 스맥' 기술을 개발중이다.
<저작권자 Copyright ⓒ 키뉴스 무단전재 및 재배포 금지>
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.