오픈AI 블로그 통해 발표
샘 올트먼 오픈AI 최고경영자(CEO) |
<이미지를 클릭하시면 크게 보실 수 있습니다> |
15초 분량 음성을 활용해 딥페이크(Deep fake) 목소리를 만들어내는 인공지능(AI) 모델을 오픈AI가 발표했다.
31일 오픈AI는 블로그를 통해 “오픈AI는 텍스트 입력과 15초 오디오 샘플을 사용해 원본 화자와 유사한 자연스러운 음성을 생성할 수 있는 ‘보이스 엔진’ 모델 결과를 공유한다”고 설명했다. 해당 AI는 소규모 모델로 15초 샘플을 사용하는 것이 특징이다. 특히 오픈AI는 “감정적이고 현실적인 음성을 생성할 수 있다는 점이 주목할 만하다”고 말했다.
해당 엔진은 2022년 말 개발된 바 있다. 이후 텍스트-음성 변환 API, 챗GPT 보이스 및 리드 얼라우드의 프리셋 음성에 응용됐다. 다만 음성 합성 기술은 악용될 소지가 있어, 몇 차례 업데이트 후 신중하게 발표했다는 것이 오픈AI의 설명이다. 오픈AI는 “책임 있는 배포와 사회가 이 새로운 기능에 어떻게 적응할 수 있는지에 대한 대화를 시작하기를 희망한다”고 말했다.
현재 오픈AI가 고민하는 서비스는 크게 다섯 가지다. 에이지오브러닝(Age of Learning)과 같은 교육 기술 회사는 프리셋 음성보다 다양한 화자를 대표하는 자연스러운 감정적 음성을 통해 어린이에게 낭독 지원을 제공하고 있다. 이를 통해 학생들과 실시간으로 개인화된 상호 작용을 할 수 있다. 또 콘텐츠 번역에도 사용이 가능하다. 헤이젠(HeyGen)과 같은 기업은 화자의 목소리를 여러 언어로 번역해 전 세계적으로 더 많은 사람에게 도달할 수 있도록 지원한다. 번역 시 보이스 엔진은 화자의 억양을 보존한다. 또 일부 연구소는 음성 장애를 겪는 사람들을 위해 보이스 엔진을 활용, 음성을 복원하는 프로그램을 시범 운영하고 있다.
오픈AI는 “음성 생성 기술의 안전한 구축을 인식하고, 특히 선거 연도에 있어 심각한 위험을 염두에 두고 있다”며 “우리는 정부, 미디어, 엔터테인먼트, 교육, 시민 사회 등 다양한 분야의 미국 및 국제 파트너들과 협력하여 이를 구축하고 있다”고 말했다.
[ⓒ 매일경제 & mk.co.kr, 무단 전재, 재배포 및 AI학습 이용 금지]
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.