컨텐츠로 건너뛰기
검색
테크42 언론사 이미지

[사람과 기술 42] 사랑도 통역이 되는 시대가 올까?... 실시간 AI 통번역이 ‘언어 장벽’을 지우는 방식

테크42 황정호 기자
원문보기

[사람과 기술 42] 사랑도 통역이 되는 시대가 올까?... 실시간 AI 통번역이 ‘언어 장벽’을 지우는 방식

서울맑음 / -3.9 °
화제의 넷플릭스 오리지널 드라마 ‘이 사랑 통역 되나요’, ‘인간 파파고’ 주호진 주목
현실에서는 실시간 AI 통번역 솔루션 등장, ‘통역’은 직업에서 ‘기능’으로 이동 중
정확도보다 레이턴시·용어·보안 관건… AI 통번역 시대, 인간 통역 ‘운영과 책임’으로 재정의
ⓒTech42

ⓒTech42


최근 넷플릭스 오리지널 드라마 ‘이 사랑 통역 되나요?’가 공개 직후 입소문을 타며 화제가 되고 있다. 이와 함께 주인공 김선호(주호진 役)의 직업인 ‘통역사’에 대한 관심도 동반 상승하고 있다. 드라마는 다중언어 통역사 주호진이 일본이라는 타국에서 무명 배우 고윤정(차무희 役)의 통역을 맡으면서 시작된다.

극 중 주호진은 이탈리아어·영어·일본어·중국어·프랑스어·한국어까지 6개 국어에 능통한 인물로 설정된다. “6개 국어를 자유자재로 구사하는, 말 그대로 ‘사람 파파고’ 같은 존재”라는 캐릭터성이 차무희의 호기심을 자극하며 관계의 출발점이 된다. 이후 드라마는 말 그대로 ‘눈 떠보니 스타가 돼 버린’ 차무희와 그녀의 통역을 담당하는, 하지만 감정 표현에 서툰 주호진의 로맨스로 이어진다.

난데없는 드라마 이야기를 하는 이유는 테크 기자의 관점에서 이 드라마가 던지는 질문이 단지 로맨스에만 머물지 않는다는 점이다. 좀 더 구체적으로 말하자면 ‘사랑도 통역이 될까’라는 제목을 접하며 기자의 머릿속에 떠오른 생각은 현실에서 이미 빠르게 확산 중인 실시간 AI 통번역 솔루션들이었으니… 심각한 직업병(?)이라고 해도 어쩔 도리가 없다. 하긴, 드라마를 보며 ‘실시간 AI 통번역 솔루션이 대중화되면 주호진은 어떻게 하나’라는 생각까지 스쳤으니…

하지만 그런 생각이 과한 것만은 아니다. 구글은 지난해 12월 헤드폰에서 음성-대-음성(speech-to-speech)으로 작동하는 라이브 번역 베타를 공식 발표했다. 알려진 바에 따르면 70개 이상의 언어 지원이 가능하다. 이 외에도 국내·외에는 저마다의 기술력을 통해 언어 장벽을 무너뜨리는 일을 이제 더이상 ‘직업’이 아닌 ‘기능’으로 대체해 나가고 있는 기업들이 등장하고 있다. 격변을 거듭하는 AI 시대, 통번역은 어디까지 자동화될까? 그리고 인간의 역할은 어떻게 재정의될까?

‘실시간’ 통역을 가능하게 만든 기술의 진화: 자막을 넘어 ‘음성→음성’으로

ⓒTech42

ⓒTech42


실시간 AI 통번역은 크게 두 갈래로 발전해왔다. 첫째는 회의·행사에서 익숙한 실시간 STT(음성→텍스트) 자막 + 기계번역(MT) 방식이다. 둘째는 최근 급부상한 S2ST(speech-to-speech translation, 음성→음성 번역)이다. 전자는 ‘화면에 번역 자막을 띄우는 경험’에 강하고, 후자는 ‘대화 흐름을 끊지 않는 경험’에 더 가깝다.

기술적으로는 오래도록 ‘단계별 파이프라인(ASR→번역→TTS)’이 주류였지만, 이 방식은 지연시간(딜레이)과 오류 누적 문제가 구조적으로 따라붙는다. 구글 딥마인드·구글 코어 ML 연구진은 이런 한계를 짚으며, 스트리밍 구조를 활용한 엔드투엔드(End-to-End) S2ST로 지연을 약 2초 수준까지 낮추는 접근을 공개했다.


학계에서도 “품질(정확도)과 지연(속도)의 트레이드오프”를 어떻게 최적화할지가 핵심 주제로 자리 잡았고, IWSLT(국제 워크숍) 등에서 수 초 단위 지연을 전제로 한 스트리밍 번역 성능 비교가 계속 진행 중이다.

정리하면 실시간 AI 통번역은 이제 ‘가능성’의 단계가 아니라, 어떤 환경에서 어느 정도 자연스럽게 ‘쓸 만해졌는가’로 평가 기준이 이동하고 있다.

대중화의 트리거: ‘개인용 이어폰 통역’이 열어젖힌 소비자 시장

ⓒTech42

ⓒTech42


실시간 통번역이 B2B(회의·행사)에서 먼저 성장한 이유는 명확하다. 다국어 참가자가 모이는 환경에서는 통역 부스·장비·인력 구성 자체가 비용과 운영 부담이 크기 때문이다. 그런데 지난해 말, 소비자 영역에서 상징적인 변화가 있었다. 구글이 어떤 헤드폰(이어폰)에서도 작동하는 실시간 음성 번역을 베타로 내놓으면서, ‘통역’이 특정 직업·특수 장비가 아니라 스마트폰 앱 기능처럼 인식되기 시작했다. 지원 언어도 70개 이상으로 공개됐다. 이 기술이 의미하는 바는 단순히 해외 여행 시 관광이 편해진다’ 정도가 아니다.


해외 출장·화상회의, 글로벌 팬 커뮤니티, 크로스보더 커머스 CS, 의료·공공 현장 안내처럼 언어 장벽이 곧 ‘접근성 격차’로 이어지는 영역에서 실시간 통번역이 보편 기능으로 자리 잡을 가능성이 커졌다는 뜻이다.

한편으로는 기술 발전과 별개로 통번역의 품질·보안·책임 문제가 커지는 것이 사실이다. 이에 유럽연합 집행위 통역 조직(DG Interpretation)에서는 통역 실무에서 AI 도구를 다루기 위한 가이던스를 별도로 정리하고 있다.

엑스엘에이트 ‘이벤트캣’: “행사 통역”을 서비스로 만든 방식

ⓒTech42

ⓒTech42


이 시장에서 국내외 기업들이 공통적으로 노리는 핵심 비즈니스 모델은 행사·회의 실시간 통번역이다. 최근 성과를 내고 있는 엑스엘에이트(XL8)의 ‘이벤트캣(EventCAT)은 그 대표적인 사례다.


엑스엘에이트에 따르면 이벤트캣은 자체 개발한 AI 엔진이 20년 이상 축적된 전문가 선별 데이터를 학습해 연령과 성별에 맞는 표현을 예측·분석 후 일관된 번역 톤앤매너를 구현한다. 현재까지 1000개가 넘는 유수의 글로벌 기업 및 기관에서 사용됐으며, 50개 이상의 언어를 지원하고 있다. 한 해 동안 온·오프라인 행사에서 약 3만 시간 이상 활용됐고, 컨퍼런스 세션은 약 7000회 진행됐다.

엑엘에이트는 이벤트캣을 비롯해 지난 2022년 출시한 AI 콘텐츠 현지화 플랫폼 ‘미디어캣(MediaCAT)’을 통해 안정적인 양대 수익 기반을 구축했다. 결과적으로는 지난해 연 매출 100만달러를 돌파했고, 전년 대비 1250% 성장을 기록했다.

또한 신규 가입자 비중 약 40%, 분기 매출 직전 분기 대비 최대 100% 증가 등 ‘행사 수요’를 성장 동력으로 제시한다. 차별화 포인트로는 경쟁사 대비 최대 40% 높은 정확도, QR코드 기반 개인화(언어 선택, 폰트/서체 등) 등을 내세우고 있다.

엑스엘에이트 ‘이벤트캣’ 도입 사례로는 SK하이닉스, LG, 중소벤처기업부, 정보통신산업진흥원(NIPA), 연세대 등이 있다. 특히 지난해 3분기 손익분기점(BEP)을 넘어 전사 흑자 전환을 확보했다는 점은 이 시장의 성장성을 대변하고 있다. 엑스엘에이트는 앞으로도 이벤트캣의 성장세를 이어가기 위한 서비스 고도화에 나선다고 한다.

수 천명 동시 접속 기술 & 속도 기술 부각

ⓒTech42

ⓒTech42


이벤트캣 외에도 해외에서는 ‘Wordly’가 행사/회의용 실시간 번역을 서비스하며 주목을 받고 있다. 알려진 바에 따르면 ‘Wordly’는 수십개의 언어를 지원하고 3000개 이상의 언어 페어(language pairs)를 제공한다. 다양한 플랫폼(Zoom, Teams 등)과의 연동이 가능하다. 세션당 수천 명의 동시 사용자를 지원할 수 있고, 동시에 여러 세션 운영도 가능한 것도 특징이다.

이 사례에서 중요한 지점은 실시간 통번역의 승부처가 단순 번역 모델 성능만이 아니라 ‘운영(스케일)’과 ‘UX(참가자 경험)’으로 확장되고 있다는 사실이다. 행사장에서는 번역 품질만큼이나 △접속 안정성 △오디오 입력 품질 △화면 표출(자막) △현장 스태프의 세팅 난이도가 만족도를 좌우한다.

ⓒTech42

ⓒTech42


이 외에도 국내의 또 다른 다크호스로는 플리토의 ‘Live Translation(라이브 트랜스레이션)’을 꼽을 수 있다. 특히 행사·컨퍼런스 분야에서 존재감을 키우고 있는 플리토는 단일 세팅으로 38개 언어를 동시에 제공하는 기술력을 선보이고 있다. 특히 ‘3초 이내’ 번역 속도를 전면에 배치하며, 현장감(딜레이 최소화)과 비용 효율을 내세우고 있다.

이런 플리토의 방식은 ‘통역 부스+수신기’ 중심의 기존 방식과 ‘개인 스마트폰으로 자막/오디오 수신’ 방식의 사용자 경험 차이를 겨냥한다. 행사 운영자 입장에서는 장비·인력·동선이 단순해질수록 확장성은 커진다.

AI, 통역사를 없애는 것이 아닌 정의를 바꿀 것

질문을 다시 처음으로 돌려보자. 실시간 AI 통번역이 대중화되면, 김선호가 연기한 주호진 같은 통역사는 사라질까? 답은 “일부 업무는 줄어들 수 있지만, 역할이 통째로 소멸한다고 단정하긴 이르다”고 할 수 있다. 이유는 세 가지다.

첫째, ‘정확도’의 정의가 다르다. 회의록·행사 안내처럼 문맥이 비교적 단순한 영역은 AI가 빠르게 대체하지만, 협상·분쟁·의료·법률처럼 한 문장 오역이 비용으로 직결되는 영역은 검증·책임 체계가 필요하다. 그래서 유럽연합 통역 조직도 “AI 도구를 실무에 어떻게 써야 하는가”를 별도 가이던스로 다루며, 활용과 주의의 경계를 함께 제시한다.

ⓒTech42

ⓒTech42


둘째, 실시간 통번역은 결국 ‘사람의 말’이 입력 품질을 좌우하는 기술이다. 발음·속도·중첩 발화·현장 소음·사투리·고유명사(인명/제품명)·전문용어가 겹치면 난이도가 급상승한다. 실제로 김선호 배우 역시 “언어 톤이 왔다 갔다 하면 불편할 수 있어 조율했다” “촬영 전부터 언어 공부를 했다”고 말할 만큼, ‘자연스러움’이 통역 경험의 핵심임을 드러낸다.

셋째, 통역사는 번역기보다 먼저 상황을 읽는다. 말의 표면 뜻이 아니라 의도·뉘앙스·관계 역학을 실시간으로 조정하며, 때로는 발화자의 실수나 ‘직역하면 더 큰 오해가 되는 문장’을 안전하게 풀어낸다.

정리하자면 AI는 언어 장벽을 낮춰 ‘만남의 기회’를 폭발적으로 늘릴 수 있다. 다만 드라마의 제목처럼 그 만남이 사랑이 될지, 오해로 끝날지는 여전히 사람의 몫이다. 즉 통역 기술이 보편 기능이 될수록, 역설적으로 더 중요해지는 건 ‘무엇을 어떻게 말할 것인가’라는 커뮤니케이션의 본질이 되는 셈이다. 하지만 또 모를 일이다. 기술이 발달하는 속도를 보면 미래 어느 시점에서 정말 사랑과 같은 감정도 통역이 될지도...

황정호 기자

저작권자 © Tech42 - Tech Journalism by AI 테크42 무단전재 및 재배포 금지