[AI리포터]
[디지털투데이 AI리포터] 알리바바 클라우드 큐웬 팀이 텍스트 기반 음성을 자연스럽게 생성하고 보이스 클론과 음성 설계까지 지원하는 큐웬3-TTS 패밀리(Qwen3-TTS Family)를 오픈소스로 공개했다.
23일(현지시간) 온라인 매체 기가진에 따르면, 큐웬3-TTS는 텍스트 입력을 실시간에 가까운 자연스러운 음성으로 변환하고, 설명문을 기반으로 새로운 목소리를 설계하거나 짧은 음성에서 화자의 목소리를 복제할 수 있는 기능을 동일 계열 모델에서 제공한다. 모델과 토크나이저는 아파치-2.0(Apache-2.0) 라이선스로 공개돼 연구자와 개발자가 자유롭게 활용할 수 있다.
큐웬3-TTS는 플로우 매칭 기반의 듀얼 트랙(Dual-Track) 구조를 적용해 스트리밍과 비스트리밍 환경 모두를 지원하며, 입력 문자 후 약 97ms 만에 첫 음성을 출력할 수 있어 실시간 대화형 AI 활용에도 적합하다.
[디지털투데이 AI리포터] 알리바바 클라우드 큐웬 팀이 텍스트 기반 음성을 자연스럽게 생성하고 보이스 클론과 음성 설계까지 지원하는 큐웬3-TTS 패밀리(Qwen3-TTS Family)를 오픈소스로 공개했다.
23일(현지시간) 온라인 매체 기가진에 따르면, 큐웬3-TTS는 텍스트 입력을 실시간에 가까운 자연스러운 음성으로 변환하고, 설명문을 기반으로 새로운 목소리를 설계하거나 짧은 음성에서 화자의 목소리를 복제할 수 있는 기능을 동일 계열 모델에서 제공한다. 모델과 토크나이저는 아파치-2.0(Apache-2.0) 라이선스로 공개돼 연구자와 개발자가 자유롭게 활용할 수 있다.
큐웬3-TTS는 플로우 매칭 기반의 듀얼 트랙(Dual-Track) 구조를 적용해 스트리밍과 비스트리밍 환경 모두를 지원하며, 입력 문자 후 약 97ms 만에 첫 음성을 출력할 수 있어 실시간 대화형 AI 활용에도 적합하다.
보이스 디자인 모델은 음색, 감정, 억양 등 속성을 자연어 지시어로 제어할 수 있고, 커스텀 보이스 모델은 9종 프리셋을 통해 성별, 연령, 언어·방언 선택이 가능하다. 기본 모델은 3초 이내로 보이스 클론을 수행하며, 파인튜닝용 기반 모델로도 활용된다.
모델은 1.7B와 0.6B 파라미터 버전으로 제공되며, 큐웬3-TTS-토크나이저-12Hz를 포함해 중국어, 영어, 일본어, 한국어, 독일어, 프랑스어, 러시아어, 포르투갈어, 스페인어, 이탈리아어 등 10개 언어와 다양한 방언의 음성 프로필을 지원한다. 현재 깃허브와 허깅페이스에서 모델과 데모를 확인할 수 있다.
<저작권자 Copyright ⓒ 디지털투데이 (DigitalToday) 무단전재 및 재배포 금지>
