컨텐츠 바로가기

09.27 (금)

이슈 IT기업 이모저모

네이버-서울대 음성모델 연구 공개, GPT4o처럼 자연스럽게 말한다

댓글 첫 댓글을 작성해보세요
주소복사가 완료되었습니다
NeurIPS 학술 대회 채택
음성 이해 및 합성 능력 확장하는
대규모 언어 모델(LLM) 발표
네이버, 음성모델 기술 이미 보유
“서비스 출시에는 다소 시간 필요”


매일경제

팀 네이버와 서울대 연구진이 공동 진행한 ‘음성 대규모 언어모델(LLM)’에 대한 연구 논문이 기계 학습 분야에서 권위가 있는 ‘NeurIPS(Neural Information Processing Systems) 2024’ 학술 대회에 채택됐다.

<이미지를 클릭하시면 크게 보실 수 있습니다>


팀 네이버와 서울대 연구진이 공동 진행한 ‘음성 대규모 언어모델(LLM)’에 대한 연구 논문이 기계 학습 분야에서 권위가 있는 ‘NeurIPS(Neural Information Processing Systems) 2024’ 학술 대회에 채택됐다.

‘대화형 대규모 언어 모델에서의 패럴링귀스틱스 통합 연구’라는 주제다. 해당 모델은 음성 이해 및 합성 능력을 확장하는 대규모 언어 모델(LLM)을 구축하기 위한 새로운 프레임워크다. 이번 프레임워크는 통합 발화 대화 모델(Unified Spoken Dialog Model, USDM)로, 자연스러운 발화 응답을 생성하는 것이 특징이다.

발화 입력에서 자동 음성 인식(ASR)이나 텍스트-음성 변환(TTS) 시스템에 의존하지 않고, 자연 발생하는 운율적 특징을 반영했다. 논문은 “해당 연구는 대화형 음성 모델링에 대한 새로운 가능성을 제시했다”고 주장했다.

성능 평가는 데일리 토크(DailyTalk) 데이터셋을 기반으로 USDM의 성능을 자동 평가 및 인간 평가를 통해 검증했다. 그 결과 USDM은 이전 모델들과 계단식 접근 방식(ASR-TTS 결합)보다 자연스러운 발화 응답을 생성하는 데 뛰어난 성능을 보인 것으로 나타났다. 이는 USDM의 운율 반영 능력과 교차 모달 의미 포착 능력이 실제 대화 상황에서도 효과적으로 작용함을 나타낸다.

연구팀은 “이번 연구에서 개발한 모델의 코드와 체크포인트를 공개할 계획”이라고 밝혔다. 이를 통해 해당 분야의 연구자들이 모델을 사용하고 발전시킬 수 있는 기회를 제공할 것이라고 덧붙였다.

네이버는 이전에 이미지 인식 모델인 하이퍼클로바X(HyperCLOVA X)를 8월에 출시한 바 있으며, 음성 인식 모델 역시 완성된 상태로 보유하고 있다. 다만, 서비스를 출시하기 위해서는 여러 추가 준비와 전략적 결정을 필요로 하여 조금 더 시간이 걸릴 것이라고 밝혔다. 네이버는 이러한 준비 과정을 통해 기술 경쟁력을 차근차근 강화하고 있다.

이 연구는 서울대-네이버 공동 연구 센터에서 시작됐으며, 김희승 서울대 교수와 네이버 연구자들의 협업으로 이뤄졌다. 특히, 유강민 팀장이 프로젝트를 이끌며 큰 성과를 냈다는 점에서 감사와 축하의 메시지를 전했다.

논문 기여자는 김희승, 서순신, 정경석, 권오성, 김소윤, 김정환, 이재홍, 송은우, 오명우, 하정우, 윤성로, 유강민 등이다. 하정우 네이버클라우드 AI이노베이션센터장 겸 네이버 퓨처AI 센터장은 “이미지 인식 모델인 하이퍼클로바X(HyperCLOVA X)를 8월에 출시한 바 있으며, 음성 인식 모델 역시 완성된 상태로 보유하고 있다”면서 “다만, 서비스를 출시하기 위해서는 여러 추가 준비와 전략적 결정을 필요로 하여 조금 더 시간이 걸릴 것”이라고 설명했다.

[ⓒ 매일경제 & mk.co.kr, 무단 전재, 재배포 및 AI학습 이용 금지]
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.