구글이 소유하고 운영하는 시스템인 '컴퓨터와 인간을 구분하기 위한 완전 자동화된 공개 튜링 테스트(Completely Automated Public Turing test to tell Computers and Humans Apart)'의 줄임말인 캡차(CAPTCHA)를 통해 하루 2억 번 웹 사용자에게 던지는 질문이다.
ⓒ Getty Images Bank |
<이미지를 클릭하시면 크게 보실 수 있습니다> |
구글은 2009년 카네기멜론 대학 출신이 설립한 소규모 회사인 리캡차(리캡차)를 인수하면서 캡차 시장에 뛰어들었다.
구글은 스팸과 사기로부터 웹사이트를 보호하기 위해 사용자가 사람인지 봇인지 테스트할 수 있는 캡차를 원했지만, 그 의도는 조금 달랐다. 구글은 의도적으로 왜곡된 원본 문자(사람은 읽을 수 있지만 봇은 읽을 수 없음)를 실수로 왜곡된 문자(구글 북 라이브러리 프로젝트의 모호한 스캔)로 대체하려고 했다. 예를 들어, 대부분의 사용자가 흐릿한 글자를 'E'로 식별하면 디지털 책 스캔에서 이를 확인하거나 수정하는 방식이다.
이 프로젝트의 비전은 전 세계 웹 사용자가 무료로 문자를 식별하는 동시에 악성 봇을 차단하는것이었다. 아이후 구글은 집 주소, 도로 표지판, 사업체 이름과 주소 등 모호한 스트리트뷰와 지도 촬영 물체를 사람이 식별할 때도 리캡차를 사용했다. 최근에는 구글이 지도, 컴퓨터 비전, 음성 인식, 보안 등 광범위한 AI 이니셔티브를 지원하면서도 리캡차를 사용하고 있다.
텍스트 기반, 이미지 기반, 오디오, 수학 문제, 단어 문제, 시간 기반, 허니팟, 사진 식별, 보이지 않는 등 다양한 종류의 캡차가 있다. 가장 일반적인 것은 체크박스 클릭형 캡차와 버스 그림 클릭형 캡차다. 두 가지 모두 구글의 리캡차 v2다.
구글의 최신 버전인 리캡차 v3는 행동 분석으로 명시적인 문제 없이 봇을 탐지한다. 사용자는 작업을 중단하고 퍼즐을 풀도록 강요받지 않는다. 이 접근 방식은 합리적이며 구글의 인식 문제를 해결하기 위해 사용자의 주의를 돌리지 않는다.
그런데 왜 아직도 매일 구 버전의 리캡차 v2가 내는 퀴즈를 풀어야 할까?
그 이유 중 하나는 웹사이트 소유자의 구현 및 관리가 더 간단해졌기 때문이다. 복잡한 위험 점수를 해석할 필요 없이 사용자를 확인할 수 있다. 또한 웹사이트 소유자가 볼 수 있기 때문에 더 확실하게 확인할 수 있다(v3는 백그라운드에서 보이지 않게 작동). 또한 더 많은 맞춤 옵션이 있고 더 적은 쿠키를 사용한다.
v3를 사용하는 웹사이트 소유자도 특히 의심스러운 트래픽이 있거나 v3 엔진이 충분한 데이터를 캡처할 수 없는 경우 폴백 시스템으로 v2를 구현한다.
리캡차 v2를 사용하면 분명 이점이 있지만, 최근 발생한 새로운 사건으로 인해 비용 대비 편익 분석 결과는 근본적으로 바뀌었다.
AI가 리캡차를 물리치다
취리히 연방공과대학교(ETH Zurich) 연구진은 9월 13일 구글의 리캡차 v2를 100% 정확도로 해결할 수 있다는 연구 논문을 발표했다.이 연구는 현재의 AI 기술이 리캡차 v2와 같은 고급 이미지 기반 캡차를 효과적으로 악용할 수 있음을 보여준다. 전 세계 모든 악의적인 공격자는 리캡차 v2의 문제를 통과하는 자동화된 봇 시스템을 쉽게 구현할 수 있다.
인간은 71~85%의 정확도로 자신이 인간임을 “증명”할 수 있다. 기계는 100%의 정확도로 '인간임을 증명'할 수 있다.
분명히 개인 액세스 토큰이나 생체 인증 등 리캡차 v2의 대안이 나타나고는 있다.
리캡차는 보안 위협이다.
안티바이러스 업체 맥아피는 9월 20일 가짜 캡차 챌린지를 사용하는 새로운 멀웨어 공격을 발견했다고 발표했다.
사기성 캡차 페이지는 블랙 신화: 오공, 스카이라인 II, 호그와트 레거시 같은 인기 게임의 크랙 버전을 제공한다고 주장하는 수상한 웹 사이트에서 공유되고 있다 . 가짜 캡차 테스트는 사용자가 키보드 동작을 수행하도록 속여 룸마 스틸러 (Lumma Stealer) 같은 멀웨어를 다운로드하고 설치하는 파워셸 스크립트를 몰래 붙여넣고 실행한다.
가짜 “보안 취약점”에 대한 깃허브 커뮤니케이션으로 위장한 피싱 이메일도 사기성 캡차 문제는 동일하다.
가짜 보안 문자 사기가 통하는 이유 중 하나는 보안 문자가 어디에나 있기 때문이다. 우리 모두는 실험용 쥐처럼 캡차를 사용하도록 훈련받았기 때문에 대중이 캡차를 사용하게 만들기는 어렵지 않다. 이 사회공학적 수법은 기존에 널리 퍼져 있는 습관을 이용하기만 하면 된다.
즉, 캡차의 보편화 자체가 악용 가능한 보안 위협이다.
지난 몇 주 동안 리캡차 v2가 AI에 의해 뚫릴 수 있고 보안상 큰 위험이 있다는 것이 분명해졌다. 하지만 리캡차 v2의 가장 큰 문제는 수년 전부터 존재해 왔다.
비양심적인 사용자 착취
리캡차 v2의 문제는 그냥 참기만은 어렵다. 필자는 연구에 집착하는 저널리스트로서 매일 수백, 수천 개의 웹 페이지를 열어본다. 수백 페이지의 뉴스 검색 결과를 저장해 두고 매일 열어보며 최신 기술 동향을 파악한다. 정보를 찾기 위해 빠른 속도로 웹 페이지를 훑어본다. 게다가 브라우저 확장 프로그램도 많이 사용한다.또한 전 세계를 여행하며 공항, 카페, 레스토랑, 에어비앤비 등에서 무작위로 와이파이 네트워크에 끊임없이 접속하는 디지털 노마드이기도 하다. (일부 미국 서비스의 경우) 미국에 있는 것처럼 가장해야 하는 경우가 많기 때문에 당연히 VPN을 사용한다.
웹과 구글 검색을 사용하는 모든 측면이 '의심스러운' 것으로 간주되기 때문에 캡차 문제는 필자의 업무 추진력을 끊임없이 방해한다.
필자는 온라인 속도광이다. 성능만을 위해 노트북에 수천 달러를 투자했다. 속도가 느려지는 것은 원치 않는다. 따라서 글을 쓰는 동안 구글이 작업을 멈추고 수백 번씩 로봇이 아님을 확인해주는 것은 짜증나는 일이다. 구글은 말 그대로 매일 사용자의 시간을 빼앗아가는 것이다.
리캡차 v2는 상위 10만개 사이트 중 1/3 이상을 포함해 약 300만 개의 웹사이트에 배포되어 있다.
미국 캘리포니아 대학교 어바인 캠퍼스 연구진에 따르면 리캡차가 출시된 13년 동안 캡차 퀴즈에소비된 시간은 총 8억 1,900만이며, 최소 61억 달러의 임금에 해당하는 노동력에 해당한다.
연구진은 구글이 리캡차 세션에서 생성한 쿠키를 통해 최대 8,880억 달러의 수익을 올렸고 사용자 추적, 행동 데이터 수집, 광고용 사용자 프로필 생성 등으로 수익을 창출할 수 있다고 지적했다. (구글은 리캡차 v2 사용자 데이터는 서비스 개선을 위해서만 사용된다며 이 혐의를 부인했다.) 연구진은 또한 리캡차 트래픽이 약 134페타바이트의 대역폭을 소비해 지금까지 약 750만kWh의 에너지를 소모하고 750만 파운드의 CO2를 배출한 것으로 추정하고 있다.
이제는 플러그를 뽑을 시간
사용자의 작업을 중단하고 테스트를 강요하는 보안 문자 테스트는 이미 충분하다. 구글의 이익을 위해 사용자를 무상으로 착취하는 행위나 마찬가지다. 그리고 인공지능은 캡차를 쉽게 무력화할 수 있다. 그리고 캡차 개념의 존재 자체가 악의적인 공격자에 의해 악용되고 있다.리캡차 v3에서 훨씬 개선되기는 했지만, 이제 리캡차 v2는 보안 위험과 AI 공격 가능성을 안고 있음이 확실해졌다.
구글은 2006년 이후 296개 이상의 제품을 폐기했다. 이제 다음 대상은 캡차가 되어야 한다.
editor@itworld.co.kr
Mike Elgan editor@itworld.co.kr
저작권자 한국IDG & ITWorld, 무단 전재 및 재배포 금지
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.