컨텐츠 바로가기

07.27 (토)

"형! 살려줘" 당신 목소리가 범죄에 쓰인다 : AI 보이스피싱의 덫

댓글 첫 댓글을 작성해보세요
주소복사가 완료되었습니다
[이혁기 기자]

# 보이스피싱 기술이 한층 더 진화했습니다. 우리의 가족, 동료를 사칭하는 것도 모자라 이젠 목소리까지 흉내내기 시작했습니다. 영화에서나 벌어질 일을 가능하게 만든 건 인공지능(AI) 기술입니다. 몇십초의 짧은 음성파일을 학습하는 것만으로도 누군가의 목소리를 완벽하게 재현할 수 있기 때문입니다.

# 혹자는 "당한 사람이 바보"라면서 냉소적으로 쏴붙일지 모르지만, 그렇지 않습니다. AI가 만들어낸 '목소리'는 말투, 목소리톤, 심지어 감정까지 담아냈습니다. AI가 만들어낸 그 목소리는 얼마나 정교할까요? 더스쿠프가 '딥보이스 보이스피싱'의 그림자를 취재했습니다. 더스쿠프 視리즈 '딥보이스 보이스피싱의 덫' 1편입니다.

더스쿠프

최근 피해자의 지인을 사칭하는 보이스피싱 사기가 기승을 부리고 있다.[일러스트=게티이미지뱅크·더스쿠프 포토]

<이미지를 클릭하시면 크게 보실 수 있습니다>


가족과 떨어져 자취 생활을 하고 있는 직장인 양희석(가명·30)씨. 그는 어느날, '010'으로 시작하는 전화 한통을 받았습니다. 스마트폰 너머에선 익숙한 목소리가 들렸습니다. "형, 나 좀 도와줘."

양씨는 깜짝 놀랐습니다. 고등학교 2학년인 막내의 목소리와 똑같았기 때문입니다. 자초지종을 묻는 양씨에게 '그 목소리'는 이렇게 말했습니다. "내가 사고를 당해서, 지금 처음 보는 곳에 붙잡혀 있어. 스마트폰도 잃어버렸어. 돈을 줘야 한대. 나한테 3500만원만 보내줄 수 있어?"

지금 와서 생각해 보면 내용에 허술한 부분이 많았습니다만, 당시 양씨는 정상적인 판단을 할 수 없었습니다. 이제 겨우 고등학생인 막내의 안전이 너무나 걱정됐기 때문이었죠. 양씨는 모아뒀던 돈 중 3500만원을 '목소리'가 일러준 계좌로 송금했습니다.

비극은 여기서 끝나지 않았습니다. 상대방은 "돈이 조금 모자라다"면서 "계좌정보를 알려주면 필요한 만큼만 인출하겠다"고 말했습니다. 그를 막내 동생이라고 철석같이 믿은 양씨는 아무런 의심 없이 자신의 통장 정보를 알려줬습니다.

그렇게 통화를 마친 뒤, 긴장이 풀린 양씨가 뒤늦게 부모님에게 전화했습니다. 어머니와 통화하고 나서야 양씨는 이것이 '보이스피싱(Voice phishing) 사기'였다는 걸 깨달았습니다. 막내는 평소처럼 학교에 다녀왔고, 자신에게 전화를 건 적도 없었습니다.

양씨는 서둘러 자신의 계좌를 확인했습니다만, 한발 늦었습니다. '그 목소리'가 송금하고 남아 있던 2500만원까지 모두 인출한 후였습니다. 양씨는 은행으로 곧장 달려갔습니다. 하지만 은행에서도 양씨에게 해줄 수 있는 건 없었습니다. 그렇게 양씨는 총 6000만원을 날려버렸습니다. 지어낸 이야기라고요? 아닙니다. 지난해 기자의 지인이 실제로 겪은 일입니다.

전화 통화를 이용한 보이스피싱은 우리에게 잘 알려진 사기 수법입니다. '개인정보를 함부로 알려주지 마라' '모르는 전화는 가능하면 받지 마라' 등 보이스피싱에 대처하는 기본적인 방법은 여러분도 잘 알고 있을 겁니다.

더스쿠프

딥보이스 기술은 샘플 데이터를 학습해 대상자의 목소리를 완벽에 아깝게 모방할 수 있다.[사진=게티이미지뱅크]

<이미지를 클릭하시면 크게 보실 수 있습니다>


더스쿠프

<이미지를 클릭하시면 크게 보실 수 있습니다>


그 덕분인지 관련 피해 사례도 꽤 줄었습니다. 금융감독원이 지난 3월 7일 발표한 '2023년 보이스피싱 피해현황 분석'에 따르면, 지난해 국내 보이스피싱 피해자 수는 1만1503명을 기록했습니다. 전년(1만2816명)보다 10.2% 감소한 수치입니다.

그런데, 피해 금액은 2022년 1451억원에서 지난해 1965억원으로 35.4% 증가했습니다. 1인당 피해액도 같은 기간 1130만원에서 1710만원으로 51.3% 늘었습니다. 보이스피싱을 당한 사례는 줄었는데, 어찌 된 일인지 피해 규모는 되레 늘어난 겁니다.

통계 결과를 좀 더 자세히 살펴보겠습니다. 지난해 보이스피싱을 가장 많이 당한 연령대는 60대 이상으로, 피해 비중이 전체(1931억원·피해구제신청접수 기준)의 36.4%(704억원)로 가장 높습니다. 50대가 29.0%로 그 뒤를 이었죠.

가장 연령대가 낮은 20대는 12.0%를 기록했고, 30대는 9.7%로 피해 비중이 가장 낮았습니다. 이렇듯 젊은 세대는 보이스피싱 사기에 잘 당하지 않습니다. 노년층보다 스마트폰과 인터넷에 밝고, 모르는 번호로 걸려 오는 전화를 잘 받지 않는 성향 덕분일 겁니다.

하지만 피해 금액 증감률을 보면 얘기가 달라집니다. 20대의 피해 금액은 2022년 92억원에서 지난해 231억원으로 1.5배 늘었습니다. 30대도 같은 기간 53억원에서 188억원으로 2.5배나 증가했죠. 60대 이상이 4.6%(673억→704억원), 50대가 17.4%(477억→560억원) 늘어난 것과 비교하면 20~30대의 피해 금액이 부쩍 커졌음을 알 수 있습니다.

20~30대의 피해 금액이 1년 새 몇배나 늘었다는 건 시사하는 바가 큽니다. 보이스피싱에 민감한 젊은 세대조차 넘어갈 정도로 보이스피싱의 기술이 한층 더 정교해졌다는 분석이 가능하기 때문입니다.

다시 기자 지인의 사례를 살펴볼까요? 양씨는 보이스피싱 사기꾼이 가족을 사칭하는 수법을 쓴다는 점을 평소에도 인지하고 있었습니다. 그럼에도 사기꾼이 막내 동생을 사칭했을 때는 꼼짝없이 걸려들고 말았습니다.

양씨가 어수룩해서였을까요? 아닙니다. 양씨는 "울먹이면서 말하는 목소리가 동생 목소리와 너무나 똑같아 믿을 수밖에 없었다"고 털어놨습니다. 이를 미뤄 짐작했을 때 양씨는 동생의 목소리를 흉내 낸 '딥보이스(Deep voice) 보이스피싱'에 당했을 가능성이 높습니다.

딥보이스는 인공지능(AI)의 학습 방식인 딥러닝(deep learning)과 목소리(voice)의 합성어로, AI가 특정인의 목소리를 학습해 재현하는 기술을 뜻합니다. 이를 악용한 것이 딥보이스 보이스피싱입니다. 목소리 변조를 통해 피해자와 가까운 인물로 둔갑해 사기를 치는 것이죠.

더스쿠프

<이미지를 클릭하시면 크게 보실 수 있습니다>


딥보이스 기술을 사용하려면 AI가 학습하는 데 활용할 '샘플'이 필요합니다. 그런데 샘플을 마련하는 방법이 너무나 간단합니다. 따라 할 대상의 목소리를 녹음한 30초 길이의 음성 파일만 있으면 됩니다. AI를 사기에 활용하는 보이스피싱 사기꾼에게 피해자의 통화기록을 손에 넣는 건 그리 어려운 일이 아닐 겁니다.

현재 딥보이스의 기술 수준이 어느 정도인지 기자가 직접 실험해 봤습니다. 이를 위해 AI가 학습한 목소리로 문장을 읽어주는 사이트 '일레븐랩스(elevenlabs)'를 이용했습니다. 유료 결제를 한 뒤 동료 기자의 목소리를 30초간 녹음해 샘플로 제공했습니다. 그런 다음, 양씨에게 사기범이 했을 법한 말을 글로 작성해 AI에 읽도록 지시했습니다.

AI는 동료 기자의 목소리를 거의 완벽하게 복제했습니다. 동료 기자의 목소리 톤과 말투도 제법 잘 따라 했습니다. 만드는 시간도 그리 오래 걸리지 않습니다. 1~2초면 한 문장을 금세 만들어냈습니다.

딥보이스의 기술력은 여기서 그치지 않습니다. AI가 제아무리 사람 목소리를 잘 흉내 낸다고 하더라도, 막상 샘플로 제시한 글을 접하면 국어책을 읽는 듯한 말투로 바뀌게 마련입니다. 글, 다시 말해 텍스트엔 말하는 사람의 어투나 감정이 들어있지 않으니까요.

하지만 글 대신 녹음한 음성파일을 입력하면 이 문제를 해결할 수 있습니다. AI가 파일 속 목소리의 높낮이와 성량 등을 따라 해 감정까지 모방하기 때문이죠. 이런 과정을 거쳐 기자가 만든 결과물은 완성도가 무척 높았습니다. 목소리를 흉내 내는 것은 물론이고, 국어책을 읽는 듯한 말투도 사라졌습니다.

물론 집중해서 들으면 여전히 어색한 부분을 찾아낼 수 있습니다만, 상황에 따라선 감쪽같이 속을 가능성이 높아 보입니다. 일반인인 기자가 프로그램을 써서 만든 수준이 이 정도니, 전가가 만들면 얼마나 더 정교할지 짐작하고도 남습니다.[※참고: 기자가 딥보이스로 만든 결과물은 '신종 보이스피싱 딥보이스의 덫' 3편에서 확인할 수 있습니다.]

더스쿠프

텍스트가 아닌 음성 파일을 따라 읽는 방식으로 AI는 감정까지 모방할 수 있다.[사진=게티이미지뱅크]

<이미지를 클릭하시면 크게 보실 수 있습니다>


문제는 최근 관련 기술이 빠르게 발전하면서 딥보이스를 보이스피싱에 악용할 가능성도 높아졌다는 점입니다. 정수환 숭실대(정보통신전자공학) 교수의 설명을 들어보겠습니다.

"예전에는 정확한 복제를 위해 30초에서 1분 길이의 샘플 파일이 필요했다. 하지만 기술이 발달하면서 지금은 5초 정도의 샘플만 있어도 목소리를 흉내 내는 게 가능하다. 또 실시간 대화가 가능할 정도로 빠른 처리 속도에 특화한 AI 버전도 개발 중이다. 보이스피싱 사기범들이 이런 딥보이스를 악용할 가능성은 충분하다."

딥보이스 보이스피싱이 위험한 이유는 이뿐만이 아닙니다. 보이스피싱 사기범은 검거하기가 쉽지 않은 데다, 우여곡절 끝에 잡는다고 해도 피해 금액을 돌려받지 못할 가능성이 높습니다. 정부에서 보이스피싱을 근절하기 위해 꾸준히 움직이고 있는데도 말이죠. 왜일까요? 이 부분은 '딥보이스 보이스피싱의 덫' 2편에서 자세히 다루겠습니다.

이혁기 더스쿠프 기자

lhk@thescoop.co.kr

<저작권자 Copyright ⓒ 더스쿠프 무단전재 및 재배포 금지>
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.