컨텐츠 바로가기

07.02 (화)

리젬블, AI 음성 복제 탐지기 출시..."정확도 94%"

댓글 첫 댓글을 작성해보세요
주소복사가 완료되었습니다
[박찬 기자]
AI타임스

(사진=셔터스톡)

<이미지를 클릭하시면 크게 보실 수 있습니다>


음성 복제 스타트업인 리셈블 AI가 인공지능(AI)가 생성한 합성 오디오를 식별하는 새로운 딥페이크 감지 모델을 출시했다. 이를 통해 94%의 정확도로 딥페이크 오디오를 감지할 수 있다고 주장했다.

벤처비트는 27일(현지시간) 스타트업 리셈블이 AI가 생성한 오디오를 식별하는 딥페이크 감지 모델 '디텍트-2B(Detect-2B)'를 출시했다고 보도했다.

디텍트-2B는 오디오 분류를 목적으로 사전 훈련한 모델을 가짜 오디오를 구별하도록 미세조정한 적응 모듈들과 통합, 오디오 클립을 검사하고 AI로 생성됐는지 확인한다.

적응 모듈은 진짜 오디오와 가짜 오디오를 식별하기 위해 녹음에서 발생하는 우발적인 소리인 '아티팩트'를 찾는데 초점을 맞췄다. 사람들이 AI 생성 오디오를 들을 때 감지하기 어려운 피치(높낮이)나 타이밍 등 미묘한 차이를 포착하는 접근 방식이 특징이다.

이를 통해 디텍트-2B는 새로운 클립을 들을 때마다 재훈련하지 않고도 오디오의 얼마나 많은 부분이 AI에 의해 생성됐는지를 분석할 수 있다.

이 모델은 방대한 양의 실제 및 가짜 오디오 데이터를 큐레이션한 데이터셋을 통해 가짜 오디오의 아티팩트를 감지하는 방법을 학습했다. 리셈블은 디텍트-2B를 구조화한 방식 덕분에 많은 컴퓨팅 파워를 필요로 하지 않고도 빠르게 훈련할 수 있다고 강조했다.

리셈블은 디렉트-2B가 오디오 탐지에 적합한 이유로 "오디오 클립의 다양한 동적 특성을 포착하고, 오디오 신호의 상태 간에 적응하며, 녹음 품질이 좋지 않더라도 계속 수행되기 때문"이라고 설명했다.

AI타임스

<이미지를 클릭하시면 크게 보실 수 있습니다>


리셈블은 디텍트-2B를 평가하기 위해 딥페이크 생성 오디오 및 다양한 언어를 포함한 테스트셋을 사용했다.

그 결과, 6개 언어의 딥페이크 오디오를 최소 93%의 정확도로 탐지했다는 결과를 내놓았다.

AI타임스

<이미지를 클릭하시면 크게 보실 수 있습니다>


또 기존 오디오 생성 모델에 디텍트-2B를 적용한 결과, 오픈AI와 일레븐랩스 모델이 생성한 AI 오디오를 100%의 정확도로 탐지했다.

한편 리젬블은 미국 대선을 앞두고 생성 AI 음성 규제가 강화되는 가운데, 새 모델을 공개해 주목 받았다.

이 회사 외에도 보안 기업 맥아피는 지난 1월 AI 오디오 탐지 프로젝트 '모킹버드(Project Mockingbird)'를 시작했으며, 메타는 AI 생성 오디오에 워터마크를 추가하는 방법을 개발하고 있다.

현재 리셈블은 디텍트-2B를 오디오 처리 파이프라인에 통합하려는 개발자를 위해 API도 제공한다.

박찬 기자 cpark@aitimes.com

<저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.