컨텐츠로 건너뛰기
검색
AI타임스 언론사 이미지

메타, 전 세계 대부분 언어 지원하는 음성 인식 시스템 오픈 소스 출시

AI타임스
원문보기

메타, 전 세계 대부분 언어 지원하는 음성 인식 시스템 오픈 소스 출시

서울맑음 / 11.1 °
[박찬 기자]

메타가 전 세계 언어 대부분을 지원하는 차세대 다국어 음성 인식 시스템을 공개했다. 인공지능(AI) 음성 기술의 접근성과 활용성을 크게 확장했다는 평이다.

메타는 10일(현지시간) 1600개 이상의 언어를 지원하는 다국어 자동 음성 인식(ASR) 시스템 '옴니링구얼 ASR(Omnilingual ASR)'을 공개했다.

이는 99개 언어를 지원하는 오픈AI의 오픈 소스 모델 '위스퍼(Whisper)'를 압도하는 수치로, 전 세계 거의 모든 구어를 포괄할 수 있는 유연한 구조를 갖췄다.

또 이 모델을 상업적 활용까지 자유로운 완전한 오픈 소스로 홈페이지와 깃허브를 통해 공개했다.

옴니링구얼 ASR은 음성을 텍스트로 변환하는 통합 음성 인식 시스템이다. 기본적으로 1600여개 언어를 학습했다.

여기에 '제로샷 인컨텍스트 러닝(zero-shot in-context learning)' 기능을 활용하면, 추가 학습 없이도 5400개 이상의 언어로 확장할 수 있다는 설명이다. 사용자는 새로운 언어의 음성-텍스트 짝 샘플 몇개만 제시하면, 모델이 해당 언어의 발화를 인식하고 전사할 수 있다.


이 기능은 소수 언어나 멸종 위기 언어를 다루는 지역 공동체에게 큰 도움이 될 전망이다.

옴니링구얼 ASR은 78%의 언어에서 문자 오류율(CER) 10% 이하의 정확도를 기록했다. 특히, 500개 이상의 언어는 지금까지 어떤 음성 인식 모델에서도 다뤄지지 않았던 언어라고 밝혔다.


모델은 음성 인코더와 텍스트 디코더를 결합한 '엔코더-디코더' 구조를 기반으로 하며, 3억~70억 매개변수 규모의 다양한 모델군으로 구성됐다. 여기에는 자가학습형 wav2vec 2.0, CTC 기반 ASR 모델, 트랜스포머 기반 LLM-ASR 모델, 미학습 언어를 처리할 수 있는 LLM-ZeroShot ASR 모델 등이 포함된다.


가장 큰 모델인 '옴니ASR_LLM_7B'는 고성능 GPU 환경에서 실행되며, 300M~1B 소형 모델은 저전력 기기에서도 실시간 전사가 가능하다.

이번 프로젝트는 3350시간 분량의 전 세계 언어를 포함한 '옴니링구얼 ASR 코퍼스(Corpus)' 데이터셋 구축부터 시작됐다.

메타는 아프리카·아시아 지역 연구자와 단체와 협력해 348개 저자원 언어 데이터를 수집했다. 참여 기관에는 케냐 마세노대, 프리토리아대, 데이터사이언스 나이지리아 등이 포함됐으며, 현지 화자들이 보상을 통해 녹음 작업에 참여했다. 또 모질라 커먼 보이스, 랜프리카, 나이자보이스 등의 단체도 데이터 수집에 참여하는 등 대규모로 진행됐다.


메타는 "옴니링구얼 ASR은 전 세계적으로 음성 기술 접근성을 확대하는 데 중요한 진전이며, 가장 소외된 언어권의 사람들도 고품질 음성-텍스트 변환 시스템을 이용할 수 있도록 보장한다"라고 전했다.

또 "궁극적으로 언어 장벽을 허물고 다양한 언어 및 문화적 배경을 가진 사람들 간의 소통을 가능하게 하는 것이 우리의 목표"라고 밝혔다.

박찬 기자 cpark@aitimes.com

<저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>