샤오미, AI 음성 모델 오픈소스 공개…EV·스마트홈까지 확장 : zum 뉴스

[AI리포터]

[디지털투데이 AI리포터] 샤오미가 음성의 출처, 환경, 언어를 고도화된 방식으로 분석하는 인공지능(AI) 모델을 개발했다.

5일(현지시간) 온라인 매체 기가진에 따르면 샤오미가 AI 음성 인식 모델 'MiDashengLM-7B'를 오픈소스로 공개했다. 이 모델은 지난해 발표된 'Dasheng'과 'Qwen2.5-Omni'를 기반으로 개발됐으며, 자동차, 스마트홈 등 다양한 분야에 적용될 예정이다.

특히 사람의 음성을 인식하는 테스트에서 MiDashengLM-7B는 기존 모델보다 상세한 설명을 제공했다. 음성뿐만 아니라 코인이나 물방울 소리 같은 환경음도 정확하게 분석했다. 응답 속도 역시 기존 모델 대비 빠르며, 입력 길이가 길어져도 처리 성능을 유지하는 것이 특징이다.

기존 음성 인식 AI는 음성을 텍스트로 변환하는 방식이지만, MiDashengLM-7B는 음성의 맥락과 감정까지 이해하도록 설계됐다. 이를 위해 샤오미는 새로운 데이터셋 'ACAVCaps'를 구축했으며, 향후 이를 공개할 예정이다.

<저작권자 Copyright ⓒ 디지털투데이 (DigitalToday) 무단전재 및 재배포 금지>

이 기사의 카테고리는 언론사의 분류를 따릅니다.