컨텐츠 바로가기

이슈 인공지능 시대가 열린다

“미친 X처럼 말해줘”…원하는 감정·억양으로 말하는 AI 공개한 오픈AI

0
댓글 첫 댓글을 작성해보세요
주소복사가 완료되었습니다
오픈AI, 음성 인식 AI 3종 출시
텍스트 명령 시 목소리 자동 조정
단어 인식 오류율도 크게 줄여


매일경제

오픈ai 로고


오픈AI가 텍스트를 통해 감정과 억양 등 인공지능(AI)의 목소리를 설정할 수 있는 새로운 음성 인식 모델을 내놨다.

20일(현지시간) 테크크런치 등 IT전문매체에 따르면, 오픈AI가 공개한 이 모델의 이름은 GPT-4o-미니-tts로, AI의 목소리 특성까지 조정할 수 있다는 점이 가장 큰 특징이다. 조정 가능한 사항에는 목소리에 담을 수 있는 감정, 억양, 톤 등이 모두 포함된다.

다만 개발자 전용 애플리케이션 프로그램 인터페이스(API)와 별도의 데모 사이트(OpenAI.fm)를 통해서만 제공돼, 일반인들이 공개적으로 사용할 수 있는 모델은 아니다.

이 모델을 통해 개발자들은 AI가 무엇을 말할 지 뿐 아니라 어떻게 말할 지까지 조정할 수 있게 됐다. 예를 들어 개발자가 프롬프트에 ‘미친 과학자처럼 말하세요’ 또는 ‘상담 교사처럼 차분한 목소리를 사용하세요’와 같이 텍스트로 명령하면, 이에 맞춰서 AI의 목소리가 자동 조정된다.

오픈AI 관계자는 “사용자는 단순히 단조로운 목소리를 원하지 않는다. 만약 고객을 응대하는 AI가 실수를 해서 사과해야 한다면, 목소리에 그 감정을 담아 말할 수도 있어야 한다”며 “개발자가 음성 경험과 맥락까지 모두 맞춤화할 수 있도록 하는 것이 목표”라고 밝혔다.

한편 이날 오픈AI는 기존 ‘위스퍼(Whisper)’ 모델을 대체할 수 있는 새로운 텍스트-음성 AI 모델도 공개했다. 위스퍼는 현재 오픈AI의 대표적인 텍스트-음성 AI 모델로, 지난 2022년 9월 공개돼 전 세계의 다양한 애플리케이션에서 활용돼 왔다.

이번에 공개한 새 모델은 ‘GPT-4o-트랜스크라이브’(GPT-4o-Transcribe)와 ‘GPT-4o-미니-트랜스크라이브’(GPT-4o-mini-Transcribe) 두 가지로, 오픈AI는 위스퍼보다 음성 인식 반응성을 크게 개선했다고 설명했다.

이 모델들은 위스퍼에 비해 성능 평가(벤치마크)에서 단어 오류율(WER)을 크게 줄인 것으로 나타났다. 주변 소음 등이 심한 까다로운 환경에서도, 억양이 심한 목소리도 잘 인식할 수 있다.

오픈AI가 이번에 공개한 모델들은 치열하게 경쟁이 벌어지고 있는 음성 인식 시장에서 상당한 파급력을 발휘할 전망이다. 오픈AI는 최근 음성을 비롯해 광범위하게 AI 에이전트에 활용할 수 있는 기술 개발에 박차를 가하고 있는 가운데, 이미 전세계 선두인 오픈AI의 인공지능 생태계는 더욱 확대될 것으로 보인다.

[ⓒ 매일경제 & mk.co.kr, 무단 전재, 재배포 및 AI학습 이용 금지]
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.