음성 합성 기술 ‘멀티버스 TTS’
발화 스타일 변환·다국어 제작 가능
발화 스타일 변환·다국어 제작 가능
엔씨소프트가 인간의 음성 데이터 3초 분량만 있어도 게임 속 캐릭터 목소리로 구현할 수 있는 음성 합성 기술을 내놨다.
엔씨소프트는 게임 음성 제작 과정에 활용할 수 있는 기술 ‘제로샷 멀티버스 TTS(이하 멀티버스 TTS)’를 8일 공개했다. TTS(Text to Speech)는 자연어를 입력하면 이를 음성으로 변환하는 음성 합성 기술이다.
엔씨소프트는 지난해 세계 최대 게임 개발자 컨퍼런스 ‘GDC 2023’에서 김택진 대표의 ‘디지털 휴먼’을 선보이며 이러한 음성 합성 기술을 선보인 바 있다.
이번에 공개된 멀티버스 TTS는 지난해 공개된 기술보다 더 적은 데이터만으로 고품질 음성을 제작할 수 있도록 고도화됐다. 엔씨소프트에 따르면 멀티버스 TTS는 3초 분량의 프롬프트 음성만으로도 다양한 발화 스타일 변환, 화자 음색 일치도가 높은 교차 언어 생성, 다국어 음성 제작 등을 지원한다.
엔씨소프트는 멀티버스 TTS 기술을 자사 게임 음성 제작 과정 전반에 활용한다는 계획이다.
엔씨소프트 관계자는 “해당 모델을 활용하면 제한된 음성 리소스를 활용해 고품질의 풍부한 AI 캐릭터 보이스 제작이 가능해 기존 음성 작업에 들던 시간과 비용을 크게 절감할 수 있다”라고 설명했다.
멀티버스 TTS는 여러 가지 언어와 기능을 가진 TTS 기술을 단일 모델로 제공한다. 엔씨소프트는 멀티버스 TTS 기술에 관한 내용을 담은 논문을 세계적인 인공지능(AI) 관련 기술 학회 ‘EMNLP’에 게재하며 글로벌 기술력을 입증했다.
엔씨소프트는 멀티버스 TTS를 시작으로 연내 100종의 게임 캐릭터 음성을 제작하고, NPC(플레이어가 조종하지 않는 캐릭터)의 성격과 상황에 맞춰 음성을 제작하는 조절 기능을 개발하는 것이 목표라고 밝혔다.
[ⓒ 매일경제 & mk.co.kr, 무단 전재, 재배포 및 AI학습 이용 금지]
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.