오픈AI, 차세대 음성 대화 모델 'GPT-리얼타임' 공개…응답 속도 향상 : zum 뉴스

[AI리포터]

[디지털투데이 AI리포터] 오픈AI가 실시간 음성 대화 기능을 지원하는 'GPT-리얼타임'(gpt-realtime)을 발표하며, 2024년 10월부터 베타 테스트를 진행한 '리얼타임 API'(Realtime API)도 정식 출시했다.

29일(현지시간) 온라인 매체 기가진이 보도한 바에 의하면, 리얼타임 API는 텍스트 기반 입력 없이 음성 인식과 오디오 처리를 직접 수행해 지연 시간을 줄이는 기술로, 수천명의 개발자 피드백을 반영해 안정성과 응답 속도를 대폭 개선했다.

GPT-리얼타임은 복잡한 지시를 이해하고, 자연스러운 음성 생성과 정확한 데이터 호출이 가능한 차세대 음성 대화 모델이다. 오픈AI는 새로운 시스템 메시지 해석 기능을 추가해 통화 중 면책 조항 설명, 영어·숫자 반복, 다국어 전환 등도 자연스럽게 처리할 수 있도록 업그레이드했다.

오픈AI는 GPT-리얼타임의 자연스러운 음성을 위해 '시더'(Cedar)와 '마린'(Marin)이라는 두 가지 새로운 음성을 추가하고, 기존 8개 음성도 업그레이드했다. 전화번호 인식 정확도는 기존 모델 대비 65.6%에서 82.8%로 향상됐으며, 특정 지시에 대한 순응도 역시 20.6%에서 30.5%로 개선됐다. 또한, 복잡한 함수 호출 정확도도 49.7%에서 66.5%로 증가하며 기업 환경에 최적화된 성능을 제공한다.

GPT-리얼타임의 이용 요금은 기존 GPT-4o-리얼타임-프리뷰(gpt-4o-realtime-preview) 모델 대비 20% 저렴하며, 음성 입력 100만 토큰당 32달러, 캐시 입력 0.4달러, 음성 출력 64달러로 책정됐다. 오픈AI는 향후 더 많은 기업들이 음성 AI를 도입할 수 있도록 지속적인 모델 개선과 API 확장을 추진할 계획이다.

The Realtime API is officially out of beta and ready for your production voice agents!

We're also introducing gpt-realtime—our most advanced speech-to-speech model yet—plus new voices and API capabilities:

Remote MCPs
️ Image input

이 기사의 카테고리는 언론사의 분류를 따릅니다.