17일(현지시간) IT매체 테크크런치에 따르면 딥마인드는 V2A(video-to-audio)라는 기술을 기반으로 이를 개발하고 있다.
딥마인드의 V2A 기술은 사운드트랙을 비디오와 페어링해 비디오의 캐릭터와 톤에 맞는 음악, 음향 효과 및 대화를 만들고 딥마인드의 딥페이크 방지 기술로 워터마킹을 표시하는 기술이다.
딥마인드는 "비디오, 오디오 및 추가 주석에 대한 학습을 통해 우리 기술은 주석 또는 대본에 제공된 정보에 응답하면서 특정 오디오 이벤트를 다양한 시각적 장면과 연결하는 방법을 학습한다"고 전했다.
딥마인드는 V2A 기술이 비디오의 원시 픽셀을 이해하고 생성된 사운드를 설명 없이 자동으로 비디오와 동기화할 수 있다는 점에서 독특하다고 주장했다.
V2A는 완벽하지 않으며, 딥마인드도 이를 인정하고 있다. 기본 모델은 아티팩트나 왜곡이 있는 많은 동영상에 대해 학습되지 않았기 때문에 특별히 고품질의 오디오를 생성하지 못한다. 이러한 이유와 오용을 방지하기 위해 딥마인드는 당분간은 이 기술을 대중에게 공개하지 않을 것이라 밝혔다.
<저작권자 Copyright ⓒ 디지털투데이 (DigitalToday) 무단전재 및 재배포 금지>
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.