“쌓인 스팸 문자만 3000통…참다못해 차단 앱 만들었죠”

한겨레 원문
입력

2024.07.01 05:00

최종수정

2024.07.01 11:45

주소복사가 완료되었습니다

게티이미지뱅크

<이미지를 클릭하시면 크게 보실 수 있습니다>

끝도 없이 쏟아지는 스팸 문자, 차단해 봐도 계속 번호를 바꿔 쏟아지는데 화가 치밀었다. 참다 못한 인공지능(AI) 연구자가 직접 인공지능 스팸 필터 애플리케이션(이하 앱)을 만들었다. 인공지능 거대언어모델(LLM)이 자연스러운 구어체까지 이해할 수 있도록 하는 ‘한국어 자연어 처리(NLP)’를 연구 중인 이준범 데이터드리븐 연구원 이야기다.

이 연구원이 출시한 아이폰용 ‘스마트 스팸 필터 앱’은 인공지능이 스스로 스팸 문자를 스스로 해독해 걸러준다. 통신사에서 내놓은 앱처럼, 일일이 ‘광고’ ‘투자’ 등 차단 키워드를 걸지 않아도 된다. 단어를 교묘하게 바꾸거나 띄어쓰기를 해도 인공지능이 찾아 낸다.

그가 앱 개발을 해야겠다고 마음 먹은지 열흘도 안돼 앱을 내놓을 수 있었던 건 그가 이미 관련 경험을 쌓았기 때문이다. 그는 인공지능 오픈소스 모델의 한국어 버전인 라마코(Llama-Ko), 코알파카(KoAlpaca), 케이시버트(kcBERT), 케이시일렉트라(KcELECTRA) 등을 개발한 바 있다. 이 경험을 토대로 스팸 차단 앱을 개발했다. 댓글 등을 학습해 구어체나 인터넷 신조어, 오탈자까지 이해할 수 있는 인공지능인 케이시버트는 스팸 차단 앱 개발에 특히 도움이 됐다.

이준범 데이터드리븐 연구원이 만든 ‘스마트 스팸 필터 앱’은 출시 한달도 채 되지 않아 유틸리티 인기 앱으로 떠올랐다. 이준범 연구원 제공

<이미지를 클릭하시면 크게 보실 수 있습니다>

인공지능을 학습시킨 데이터는 그가 몇년간 직접 받은 스팸 뭉치였다. “마침 아이폰·맥북 메시징 앱에 동기화되어 수년간 쌓인 메시지가 1만2000통이나 되더라고요. 그 중 3000통 정도가 스팸이었습니다. 버리지 않고 놔둔 스팸 메시지가 이번 앱 개발용 학습 데이터 구실을 톡톡히 했죠.” 스팸을 학습한 케이시버트가 1차로 거르고, 케이시버트가 판단하기 어려운 나머지는 라마코가 걸러내는 구조로 앱을 만들었다. 누가 봐도 광고인 (광고), 그 외의 ‘스팸’, 지능적 ‘스미싱’(문자를 통해 악성 앱 설치를 유도하는 피싱)까지 제법 잘 걸러진다는 확신이 선 뒤, 아이폰용 앱으로 등록했다. 아이폰용 운영체제인 아이오에스(iOS) 개발 언어(Swift)는 잘 몰랐지만, 챗지피티 등을 통해 코드를 짤 수 있었다. 6월초 고민을 시작해 열흘도 안된 9일 뚝딱 등록을 마쳤다. 안타깝게도 “직접 쓰려고 만든 앱”이다보니 아이폰 용으로밖에 나와 있지 않다. 안드로이드 앱도 연구 중이다.

출시 직후 앱은 한때 앱스토어 유틸리티 앱 5위까지 올랐다. 앱 평점은 4.9점. “몇 년간 스팸으로 스트레스 받아 왔고, 키워드 차단도 한계가 있었는데 하루 정도 쓰는 동안 5개 정도 걸러지고 못 거른 것은 하나도 없네요! 유료라도 사용할 만한 앱인 것 같아요! 앱 리뷰를 남겨보긴 처음입니다.” (한 사용자의 리뷰)

이 연구원은 “금융사, 카드사, 통신사 등의 문자를 ‘화이트리스트’로 처리해주고 있는데, 가끔 매우 드물지만 기업 쪽의 인증서 발급 문자 등이 스팸으로 분류되는 경우가 있다”며 “아는 영역 밖 케이스들이 발견될 때마다 꾸준히 추가하고 있다”고 설명했다. 화이트리스트는 스팸으로 오인될 수 있는 정상 메시지를 뜻한다. 이 연구원이 만든 앱은 온라인 모드 외에도 인터넷 연결이 안 된 상태에도 스팸을 거를 수 있는 ‘온디바이스 모드’로도 작동하며, “보다 똑똑한 온디바이스 모드가 될 수 있도록” 계속 업데이트 중이다.

정유경 기자 edge@hani.co.kr

▶▶권력에 타협하지 않는 언론, 한겨레 [후원하기]
▶▶한겨레 뉴스레터 모아보기

이 기사의 카테고리는 언론사의 분류를 따릅니다.

기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.

뉴스

이슈검색어

07.03 (수)

“쌓인 스팸 문자만 3000통…참다못해 차단 앱 만들었죠”

한겨레 주요 뉴스