오픈AI, 음성 인식 AI 3종 출시
텍스트 명령 시 목소리 자동 조정
단어 인식 오류율도 크게 줄여
텍스트 명령 시 목소리 자동 조정
단어 인식 오류율도 크게 줄여
오픈ai 로고 |
오픈AI가 텍스트를 통해 감정과 억양 등 인공지능(AI)의 목소리를 설정할 수 있는 새로운 음성 인식 모델을 내놨다.
20일(현지시간) 테크크런치 등 IT전문매체에 따르면, 오픈AI가 공개한 이 모델의 이름은 GPT-4o-미니-tts로, AI의 목소리 특성까지 조정할 수 있다는 점이 가장 큰 특징이다. 조정 가능한 사항에는 목소리에 담을 수 있는 감정, 억양, 톤 등이 모두 포함된다.
다만 개발자 전용 애플리케이션 프로그램 인터페이스(API)와 별도의 데모 사이트(OpenAI.fm)를 통해서만 제공돼, 일반인들이 공개적으로 사용할 수 있는 모델은 아니다.
오픈AI 관계자는 “사용자는 단순히 단조로운 목소리를 원하지 않는다. 만약 고객을 응대하는 AI가 실수를 해서 사과해야 한다면, 목소리에 그 감정을 담아 말할 수도 있어야 한다”며 “개발자가 음성 경험과 맥락까지 모두 맞춤화할 수 있도록 하는 것이 목표”라고 밝혔다.
이번에 공개한 새 모델은 ‘GPT-4o-트랜스크라이브’(GPT-4o-Transcribe)와 ‘GPT-4o-미니-트랜스크라이브’(GPT-4o-mini-Transcribe) 두 가지로, 오픈AI는 위스퍼보다 음성 인식 반응성을 크게 개선했다고 설명했다.
이 모델들은 위스퍼에 비해 성능 평가(벤치마크)에서 단어 오류율(WER)을 크게 줄인 것으로 나타났다. 주변 소음 등이 심한 까다로운 환경에서도, 억양이 심한 목소리도 잘 인식할 수 있다.
오픈AI가 이번에 공개한 모델들은 치열하게 경쟁이 벌어지고 있는 음성 인식 시장에서 상당한 파급력을 발휘할 전망이다. 오픈AI는 최근 음성을 비롯해 광범위하게 AI 에이전트에 활용할 수 있는 기술 개발에 박차를 가하고 있는 가운데, 이미 전세계 선두인 오픈AI의 인공지능 생태계는 더욱 확대될 것으로 보인다.
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.