"더 똑똑한 'AI 비서' 온다"...메타, 사람 말 더 정확히 듣는 언어모델 소개

AI타임스 원문
입력

2022.01.10 16:44

최종수정

2022.01.10 17:19

주소복사가 완료되었습니다

AV-HuBERT는 시각적 입술 움직임과 말소리 데이터를 통합해 여러 명이 동시에 말하거나 인파로 가득한 환경에서도 사용자 말을 정확히 잡아 알아듣는다. (출처=메타플랫폼)

AV-HuBERT는 시각적 입술 움직임과 말소리 데이터를 통합해 여러 명이 동시에 말하거나 인파로 가득한 환경에서도 사용자 말을 정확히 잡아 알아듣는다. (출처=메타플랫폼)사람 말을 기존 언어모델보다 더 정확히 이해하는 시스템이 나왔다. 입술 움직임과 음성 데이터로 학습해 여러 명이 동시에 말하거나 인파로 붐빌 때도 사용자 말만 정확히 잡아 알아듣는다. 이 기술을 스마트폰이나 증강현실(AR) 안경에 탑재하면 더 똑똑한 '인공지능(AI) 비서'가 탄생할 전망이다.

메타플랫폼(이하 메타, 구 페이스북)이 7일 시청각 데이터로 훈련해 사람 말을 더 정확히 이해하는 최첨단 자체 감독(Self-supervised) 프레임워크 'AV-Visual Hidden Unit BERT(AV-HuBERT)'를 소개했다. 라벨링 하지 않은 비디오 데이터에서 음성·입술 움직임을 동시에 사용해 훈련하는 최초 언어모델 시스템이다. 인간이 사용자 말을 이해할 수 있는 수준이다.

메타 연구진은 "해당 모델은 공개적으로 사용할 수 있는 'LRS3(Lip Reading Sentences 3)'과 '복스첼렙(VoxCeleb)' 데이터 세트로 훈련했다"고 말했다. LRS3은 테드(TED)와 테드엑스(TEDx) 강연에서 수집한 음성을 모아둔 데이터 셋이다. 복스첼렙은 언어 시청각 대규모 데이터다. 이를 통해 사람이 말할 때 내는 목소리와 입술 움직임 조합을 통해 언어를 인식할 수 있다.

적은 데이터로 기존 모델보다 높은 정확도, 낮은 오류율

AV-HuBERT를 스마트폰이나 AR 안경에 탑재된 AI 비서에 적용하면 사용자가 무엇을 말하는지 더 잘 이해할 수 있다. 예를 들어, 클럽이나 공항 같은 소음이 큰 장소에서도 사용자가 명령을 내리면 AI 비서가 명확히 알아들을 수 있다. (출처=메타플랫폼)

<이미지를 클릭하시면 크게 보실 수 있습니다>

AV-HuBERT를 스마트폰이나 AR 안경에 탑재된 AI 비서에 적용하면 사용자가 무엇을 말하는지 더 잘 이해할 수 있다. 예를 들어, 클럽이나 공항 같은 소음이 큰 장소에서도 사용자가 명령을 내리면 AI 비서가 명확히 알아들을 수 있다. (출처=메타플랫폼)AV-Hubert는 현재 기존 음성 인식 시스템보다 75% 더 정확하다. 기존 레이블 1/10 데이터 양만 사용해도 기존 시스템을 훨씬 능가한다. 이 기술이 스마트폰이나 증강현실(AR)안경에 탑재된 AI 비서에 적용하면 우리가 무엇을 말하고 있는지 더 정확히 이해할 수 있다.

연구진은 ▲말소리와 배경 소음이 동일한 경우 ▲말소리가 다른 사람들 목소리와 섞인 시나리오를 만들어 기존 모델 'AV-ASR'과 AV-HuBERT 기능을 비교했다.

말소리와 배경 소음이 똑같이 클 때, 기존 모델 AV-ASR은 25.5%의 오류율을 기록했다. 동일한 조건에서 AV-HuBERT는 3.2%를 보였다.

말소리가 다른 목소리와 섞인 경우, AV-Hubert 모델은 자신에게 명령하는 사람을 빨리 포착하고 그에 집중했다. 언어오류율(WER)은 2.9%을 기록했다. 기존 모델은 오류율 37.3%을 보였다.

시청각 정보가 결합한 AV-HuBERT는 훨씬 적은 양의 비디오 데이터로도 기존 모델보다 효율성이 높다. 메타 연구진은 "세계 대부분 언어에서는 라벨링 된 빅데이터를 얻기 어렵기 때문에, 적은 양으로 더 많은 언어와 더 많은 응용 분야에서 소음 방지 자동음성인식(ASR) 시스템을 구축하는 데 도움 될 것이다"고 설명했다.

연구진은 "이 기술이 스마트폰이나 AR 안경에 탑재된 AI 비서에 적용하면 우리가 무엇을 말하고 있는지 기존보다 더 정확히 이해할 수 있다"고도 말했다. 예를 들어, 클럽이나 공항 같은 소음이 큰 장소에서도 사용자가 명령을 내리면 AI 비서가 명확히 알아들을 수 있다.

AI타임스 김미정 기자 kimj7521@aitimes.com

[관련 기사]"사람 형체 정확히 골라 생명 불어넣어"...메타, 아동용 애니메이션 SW 소개

[관련 기사]메타 플랫폼, "'빈 머신(Bean Machine)'으로 모델링 불확실성 잡는다"...자동으로 확률 추론 가능

Copyright ⓒ '인공지능 전문미디어' AI타임스 (http://aitimes.com)

이 기사의 카테고리는 언론사의 분류를 따릅니다.

기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.

뉴스

이슈검색어

10.07 (월)

"더 똑똑한 'AI 비서' 온다"...메타, 사람 말 더 정확히 듣는 언어모델 소개

AI타임스 주요 뉴스