구글은 이 기술을 개발하기 위해 유튜브에 등록된 10만개쯤의 동영상을 활용, 사람이 대화할 때의 입 모양과 음성을 추출했다. 이어 특정 인물의 얼굴과 목소리를 파악할 수 있도록 신경망 네트워크를 훈련시켰다.
![]() |
이렇게 구현된 신경망 네트워크는 특정 인물의 얼굴과 목소리, 입 모양 등을 정밀하게 분석해 목소리를 더 잘 알아듣는다. 소음이 심하거나 여러 명의 목소리가 섞였더라도 동작한다. 반대로 영상 속에서 특정 인물의 목소리만 남기고 나머지 소리는 모두 제거하는 것도 가능하다.
구글은 이 기술이 동영상 속 특정 인물의 음성을 인식, 증폭하는 것 외에 여러 분야에 응용 가능하다고 밝혔다. 화상 회의, 보청기 등이 예시다.
이 기술은 입 모양을 인식하면 발음을 더 정확히 파악할 수 있는 덕분에 유튜브 자동 번역 기능의 성능을 높여줄 전망이다.
IT조선 차주경 기자 racingcar@chosunbiz.com
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.