컨텐츠로 건너뛰기
검색
벤처스퀘어 언론사 이미지

‘시끄러운 세상에서 필요한 음성만 듣는다’...엠피웨이브 박형민 대표

벤처스퀘어
원문보기

‘시끄러운 세상에서 필요한 음성만 듣는다’...엠피웨이브 박형민 대표

서울흐림 / 7.0 °
- 마이크 배치를 자유롭게 변경하면서 별도의 튜닝없이 소음과 사용자 음성을 자동으로 구분·제거하는 mpAB 솔루션 개발

- 자동차, 로봇, 스마트홈, 키오스크, 홈 IoT 등 다양한 분야에 적용

- 난청자를 위한 '깨끗耳' 앱 공급

- 배리어프리 키오스크, 화상회의, 회의록 작성 등 일상 생활 곳곳에서도 다양하게 활용

AI 스피커를 향해 명령해도 아무 반응이 없을 때가 있다. 무슨 문제일까?

AI와의 대화가 일상화됐다. AI의 음성 인식률이 높아졌지만 실제 적용에 있어 해결해야 할 문제가 있다. AI의 음성 인식률이 뛰어나다 해도 실생활에서는 각종 소음으로 가득차 있어 이런 환경을 통제하지 못하면 소용없다.


음성인식 연구는 통제된 환경, 즉 거의 모든 잡음을 제거한 깨끗한 상황에서 성능을 테스트한다. 반면 현실의 음성 사용 환경은 전혀 다르다. 거실의 TV 소리, 카페의 웅성거림, 공장의 기계음, 자동차의 엔진음 등 배경 잡음이 마이크에 수신되면서 신호가 왜곡된다.

실생활의 잡음 환경에서 AI 음성 인터페이스가 제대로 작동하지 못하는 문제를 해결하는 기업이 있다. 엠피웨이브(mpWAV)는 '더 나은 음성인식 AI' 대신 ‘AI가 제대로 작동할 수 있는 환경’을 만드는 전처리 기술에 집중했다.

박형민 대표는 카이스트에서 음성신호처리로 박사학위를 받은 후 카네기멜론 대학교 언어기술 연구소에서 연구원으로 활동했다. 2007년 서강대학교 전자공학과 교수로 임용된 후 실제 환경에서의 음성 신호 왜곡을 극복하는 신호처리 기술을 연구해 왔으며 상용화거 가능한 원천 기술 개발에 성공하여 엠피웨이브를 창업하였다.


서강대학교 연구실에서 박형민 대표를 만나 일상의 복잡한 잡음 환경에서의 음성 향상 및 인식 기술, 음성 전처리 기술이 향후 우리의 삶에 어떤 변화를 가져오는 지에 대해 들었다.



아무리 시끄럽고 복잡한 환경이라도 원하는 음성만 추출

그렇다면, 엠피웨이브는 잡음 환경 속에서 어떻게 듣고 싶은 음성만 깨끗이 걸려낼 수 있을까?

엠피웨이브의 핵심 솔루션인 mpAB는 다채널에코신호제거 기술(mpAEC, Acoustic Echo Canceller)과 빔포밍 기술(mpBeamforming)을 통합한 것이다. 엠피웨이브는 mpAB로 2024년 대한민국발명특허대전에서 국무총리상을 수상했으며, 2025년 신기술(NET) 인증을 획득했다.


기기에서 나오는 소리가 마이크에 다시 들어가는 현상을 에코라고 한다. "예를 들어 AI 스피커가 '오늘 날씨 알려드리겠습니다'라고 말할 때, 스피커 음성이 마이크에 다시 들어가 재생되는 것이 에코 현상이다. 보통 마이크와 스피커를 여러 대 사용하는데, 스피커에서 나오는 음성과 마이크가 받아들이는 에코는 서로 다르다.

기존의 다채널에코신호제거 기술은 현재 사용자가 말을 하고 있는지를 판단해야 한다. 이 판단이 잘못되면 사용자 음성까지 제거된다.

”기존의 다채널에코신호제거 기술은 사용자가 말하고 있는지를 판단해야 하는데, 판단에 실패해 사용자 음성까지 함께 제거되는 경우가 많습니다. 사용자 음성을 감지하면 학습을 중단해 학습 시간이 길어지고 성능이 저하되는 문제도 있습니다. 특히 다채널에코의 경우 여러 스피커에서 나오는소리들이 일부를 동일하고 일부는 다르기 때문에 마이크 신호에 에코를 제거하는데 혼란이 매우 커서 성능이 급격히 떨어집니다."

엠피웨이브의 다채널에코신호제거 기술은 다채널에코의 복잡한 관계성을 효과적으로 파악하여 제거할 수 있으며 사용자의 발화 여부에 따른 학습 중단 없이 빠르고 뛰어난 에코 제거가 가능하다.

엠피웨이브의 빔포밍 기술은 마이크 위치를 미리 설정하지 않아도 신호만으로 자동으로 최적화하는 기술이다. 빔포밍이란 여러 마이크의 신호를 조합하여 특정 방향의 소리는 강하게, 다른 방향의 소리는 약하게 만드는 기술을 말한다.

기존의 빔포밍 기술은 마이크의 정확한 위치를 미리 알고 정확한 위치를 모두 입력해야 했다. 예를 들어, 1번 마이크는 ‘10cm 위치’, 2번 마이크는 ‘15cm 위치’라고 설정해줘야 했다. 마이크 위치를 알아야만 신호를 조합하는 방식과 각 마이크 신호에 얼마만큼의 가중치를 줄지를 결정할 수 있기 때문이다.

“제품 디자인이 조금이라도 바뀌면 마이크 위치가 변경되기 때문에 엔지니어가 모든 설정을 다시 해야 합니다. 그래서 새 제품이 나올 때마다 재튜닝에 시간이 오래 걸리고 비용이 증가하고 무엇보다 제조사가 기술 공급사에 종속되는 문제가 발생합니다.”

엠피웨이브의 빔포밍 기술은 마이크에서 나오는 신호들만 분석하면, 자동으로 신호를 최적 조합한다. 엠피웨이브의 빔포밍 기술의 핵심은 마이크 배치를 자유롭게 변경하더라도 별도의 튜닝없이 실시간으로 목표 음원의 소리만 선별하는 것에 있다.

이 두 가지 기술을 합친 것이 mpAB다. mpAB는 최종 출력 신호가 사용자 음성과 유사한지를 기준으로 작동하므로 마이크 배치에 무관하다. 제품 디자인 변경으로 마이크 위치나 개수가 바뀌어도 마이크 신호만으로 자동 최적화를 수행해 음성 품질을 유지하기 때문에 재튜닝 부담이 없다.



진짜 문제는 기술이 아니라 환경

엠피웨이브는 올해 '초격차스타트업1000+' 프로젝트(딥스)에 선정되어 모듈만 장착하면 음성 및 기동어 인식뿐만 아니라 언어처리, 음성 합성까지 다양한 기능을 기기 내에서 바로 처리할 수 있는 기술을 개발하고 있다. 지난 9월에는 SK텔레콤이 주관하는 'AI 스타트업 액셀러레이터'에 선발되었다.

엠피웨이브는 여러 대기업과 국책 연구소와 협력하고 있다. A전자와는 홈로봇과 TV에 솔루션을 적용해 실제 거실 환경에서 음성 명령 인식률을 크게 향상시켰다. B자동차와는 매장 안내로봇에 기술을 적용했다. 쇼룸과 대리점처럼 여러 사람이 말하고 배경음악이 나오는 환경에서도 음성 인식이 안정적으로 작동하면서, 고객과 로봇이 자연스럽게 대화할 수 있게 되었다. C와는 로봇에 엠피웨이브의 전처리 솔루션을 탑재해 학술대회에서 시연해 로봇이 사람의 음성을 정확하게 인식하고 응답하는 성능을 입증했다.

안내로봇, 홈로봇, 키오스크의 음성 주문 시스템과 같은 기기들에 음성인식이 탑재될 때마다 개발팀은 같은 문제에 직면한다. 진짜 문제는 기술이 아니라 환경이라는 게 박 대표의 주장이다. 매장의 배경음, 다른 사람들의 목소리, 로봇 자신의 모터음, 에어컨 소음. 이 모든 것이 AI의 음성인식을 방해한다. 음성인식 AI의 성능 자체는 이미 일정 수준에 도달했다. 문제는 현실의 복잡한 음향 환경이다.

"일반적으로 잡음을 제거하는 과정 중에 목표 음성 왜곡이 수반되어 음성인식 성능이 떨어질 수 밖에 없는데, mpAB는 잡음을 제거하면서도 음성 왜곡이 발생하지 않아, 고객사가 보유한 어떠한 음성인식 엔진에도 성능 저하 없이 바로 적용할 수 있습니다. 소프트웨어부터 임베디드 포팅, SoC 칩 제작까지 모든 구현이 가능해 다양한 고객사의 요구사항을 충족할 수 있습니다."
난청자들을 위한 청각보조앱, ‘깨끗耳’

엠피웨이브는 난청자뿐만 아니라 소음이 많은 환경에서 명확한 대화와 회의가 필요한 사람들을 위한 깨끗이(깨끗耳)앱도 공급하고 있다.

전 세계적으로 2025년 기준 약 25억 명의 사람들이 청력 손실을 겪고 있는 것으로 예측되며, 이 중 7억 명 이상이 보청기 등 청력 보조기기가 필요한 것으로 추정하고 있다. 한국의 청각장애 등록 인구는 2024년 기준 44만 명이지만, 실제 난청자는 이보다 훨씬 많은 것으로 추정된다.

문제는 보청기다. 보청기는 매우 비싸다. 가격과 사용성 때문에 국내의 경우 90% 이상의 난청자가 보청기를 사용하지 않고 있다. 더 큰 문제는 보청기의 주된 기능이 소리 증폭이라는 것이다.

깨끗이(깨끗耳)는 음성을 증폭하는 대신, 배경 잡음을 제거하고 음성을 명확하게 만든다. 스마트폰의 마이크와 이어폰만 있으면 된다. 가격 부담도 없고 별도의 기기도 필요없다.

깨끗이의 성과는 이미 증명됐다. 2024년 CES에서 '디지털 헬스' 부문과 '모바일 디바이스' 부문 2개 혁신상을 받았다. USA TODAY의 리뷰 사이트 Reviewed가 선정하는 'AccessABILITY Awards'도 수상했다. 서울시 약자를 위한 기술개발 지원사업에 선정되어 노인복지관 2곳에서 실증도 성공적으로 마쳤다.
음성이 필요한 다양한 곳에 활용

”생성형 AI가 급격하게 발달하면서 모든 기기에 음성 인터페이스가 확산될 것은 자명합니다. 기술적으로도 사용자의 기대를 충족하는 상용화 범위가 점점 넓어지면서 시장이 빠르게 확대되고 있습니다. 장기적으로 거의 모든 스마트 기기가 음성 인터페이스를 갖게 될 겁니다.“

음성 인터페이스 시장의 규모는 현재 약 302억 달러(2025년)에서 2030년 761억 달러로 성장할 것으로 예측되고 있으며, 연평균 20% 이상의 성장률을 기록할 것으로 예상된다. 엠피웨이브의 기술은 자동차, 로봇, 스마트홈, 키오스크, 홈 IoT 등 다양한 분야에 적용될 것으로 보인다.

이러한 기술은 일상 생활 곳곳에서도 다양하게 활용될 수 있다.

배리어프리 키오스크: 시각장애인이 주변의 배경음, 카운터 목소리, 음악 속에서도 점원의 도움 없이 스스로 주문할 수 있다.

회의록 작성 : 회의실에서 많은 사람들이 동시에 말해도 각 화자의 음성을 분리하여 실시간으로 인식한다. 회의 중 자신의 발언이 정확하게 기록되는지 즉시 확인할 수 있다.

화상회의 : 이전에는 카페에 있으면 배경음 때문에 마이크를 꺼야 했지만, 엠피웨이브 솔루션을 사용하면 카페 소음은 제거되고 음성만 전달된다.



”우리 기술을 통해서 세상이 더 좋게 변하면 좋겠습니다.“

박형민 대표에게 엠피웨이브가 궁극적으로 추구하는 목표에 대해 묻자 이렇게 답했다.

엠피웨이브의 슬로건이 'Masterpiece Wave for Humanity'이다. 음성 인터페이스 솔루션을 통해 인간의 삶의 질을 높이고 사회적 가치를 실현하며, 사람과 사람, 사람과 기술을 연결하는 기술을 사회에 확산시키겠다는 의미다.

음성 AI의 인식률은 높아지고 있지만 실생활은 많은 소음으로 가득하다. 시끄러운 환경에서도 필요한 음성만 선별하여 들을 수 있다면, 누구나 편하게 소통할 수 있을 것이다. 그런 세상을 엠피웨이브가 만들어 나가고 있다.

조광현 스타트업 전문 기자 hyun@venturesquare.net

Copyright ⓒ ATSQUARE.