생성형 AI가 낳은 숨은 괴물 “AI 크롤러” : zum 뉴스

기업 IT 책임자와 법무 및 규정 준수 담당자는 봇, 크롤러, 스파이더 등 이름이 무엇이든, 생성형 AI 모델 제작사의 에이전트가 자사 웹사이트를 방문하는 것을 싫어할 이유가 많다. 자사의 IP가 도용되어 회사에 거의 아무런 이익도 가져다주지 않는 생성형 AI 모델 훈련에 사용될 수 있기 때문이다. 또한, 저작권 및 상표권 침해, 고객과 직원의 개인 식별 정보가 도둑들의 세계에 노출될 수도 있다.

그러나 무엇보다 직접적인 피해는 대역폭 사용량이 급증해 웹 호스팅 업체로부터 막대한 요금을 부과받는 것이다. 많은 기업이 생성형 AI 크롤러에 “접근 금지”를 알리기 위해 표준 웹 메커니즘(robots.txt 파일 등)을 사용했지만 말이다.

여러 기술적인 이유로 법은 의미 있는 구제책을 제시하지 못하고 있다. 금지된 트래픽을 차단하는 소프트웨어를 기업에 판매할 의사가 있는 업체는 소수에 불과하며, 이런 소프트웨어는 검색엔진 크롤러도 차단할 가능성이 있어 잠재적으로 문제가 될 수 있다.

여기서 중요한 질문은 “생성형 AI 모델 제작사가 robots.txt 파일을 무시하는 봇을 배포하는 이유는 무엇일까?” 대답은 까다로우며, AI 모델 제작사를 상대하는 것은 더 까다롭다.

“그건 우리 봇이 아닙니다.”

컴퓨터월드가 접촉한 주요 모델 제작사는 대부분 웹 사이트의 “접근 금지”를 존중하며 자사 크롤러가 원하지 않는 곳에는 접근하지 않는다고 밝혔다. 한 AWS 임원은 아마존은 규칙을 존중하며 “이는 우리의 책임감 있는 AI 접근 방식에 부합한다”라고 말했다.

앤트로픽은 자사의 행위가 항상 정직하다는 것을 설명하는 전용 페이지를 운영하고 있으며, “앤트로픽의 봇은 robots.txt에 명시된 업계 표준 지침을 준수해 ‘크롤링 금지’ 신호를 존중한다”라고 명시한다.

그러나 업계 전문가들은 모델 제작사가 공식적으로 명명한 크롤러만 언급하고 있다는 점이 문제라고 지적한다. 대부분은 신고하지 않은 크롤러를 직접 배포하거나 서드파티를 통해 배포하고 있다. 그리고 신고되지 않은 크롤러는 원하는 곳 어디든 접근하여 원하는 대로 행동하는 경향이 있다.

자사를 커넥티비티 클라우드 업체라고 칭하는 클라우드플레어의 제품 담당 수석 디렉터인 레이드 타토리스는 신고되지 않은 생성형 AI 크롤러의 수가 급증하고 있다고 말했다. 타토리스는 “데이터에 따르면, 클라우드플레어가 감지하는 AI 크롤링 활동의 30~40%는 사용자 에이전트를 공개하지 않는 미신고 크롤러에서 발생한다”라며,”더 많은 웹사이트가 신고된 크롤링을 차단하고 AI 크롤러의 수가 계속 폭발적으로 증가함에 따라 이 수치는 갈수록 증가할 것으로 예상한다”고 설명했다.

이런 전술을 통해 생성형 AI 모델 제작사는 규칙을 준수하고 있다고 말하면서, IP 주소를 회전하고 다른 것으로 위장하여 (직접 또는 간접적으로) 신고되지 않은 크롤러를 사용한다. 베를린의 비즈니스 컨설턴트이자 SEO 전문가인 데니스 슈베르트는 생성형 AI 크롤러의 상황을 면밀히 추적하고 있다. 슈베르트는 많은 생성형 AI 크롤러가 규칙을 위반하고 있지만, 모든 크롤러가 그런 것은 아니라며, “마이크로소프트, 특히 빙 봇을 관찰했지만, IBM이나 딥시크는 본 적이 없는 것 같다”라고 말했다. 하지만 “’상위 사용자 에이전트’만 살펴봤기 때문에, 시간 간격이 긴 몇 번의 요청만 하는 경우라면 눈치채지 못했을 것이다”이라고 덧붙였다.

AI 위험 전문 업체 스택어웨어(StackAware)의 법률 고문인 노아 서스킨드는 변호사로서 모델 제작사가 법적 보호에 대해 이중 잣대를 적용하는 것에 대해 큰 충격을 받았다. 서스킨드는 “생성형 AI 업체가 자사의 서비스 약관은 신의 말씀처럼 취급하지만, 다른 사람의 사이트에 있는 robots.txt는 무시한다”라고 지적했다.

공정하게 말해, 서스킨드를 비롯한 기술 전문 변화에 따르면, robots.txt 지침을 법적으로 강제할 수 있는지는 명확하지 않다. 따라서 AI 모델 제작사가 해당 요청을 위반해도 된다고 주장한다면, 그 주장도 합법적일 수 있다. 하지만 모델 제작사의 주장은 그렇지 않다. 모델 제작사는 해당 규칙을 준수한다고 말하면서, 많은 경우 선언되지 않은 크롤러를 보내서 그렇게 한다.

진짜 문제는 AI 크롤러 때문에 사이트 소유주는 대역폭 비용을 훨씬 더 많이 지불해야 하고, 결국 모델 제작사가 이들 사이트에 재정적 손해를 입히고 있다는 점이다. 그리고 이 이익은 전적으로 모델 제작사에 돌아가며, 사이트 소유주는 아무런 이익을 얻지 못한다.

서스킨드는 선언되지 않은 생성형 AI 크롤러가 “하루에 100만 번 우리 사이트를 방문”할 때 IT는 어떻게 해야 할지 물었다. 실제로 서스킨드의 팀은 “한 개의 봇이 한 시간에 수백만 번 사이트를 방문”하는 것을 목격했다. 이는 일반적인 SEO 크롤링보다 몇 배나 더 큰 부담이다.

클라우드플레어는 고객에게 이런 크롤러를 사이트에서 우회시키는 서비스를 제공한다. 이 서비스는 관련이 없는 합법적인 콘텐츠를 제공해 크롤러를 바쁘게 만든다. 클라우드플레어의 업체의 다양한 애플리케이션 서비스 요금제에는 다양한 수준의 봇 완화 기능이 포함되어 있다. 예를 들어, 월 200달러의 비즈니스 요금제는 정교한 봇을 차단하고 기본적인 봇 분석 기능을 제공한다. 클라우드플레어는 고급 봇 분석 및 보호 기능을 제공하는 엔터프라이즈 요금제의 가격은 공개하지 않았다.

클라우드플레어가 직면한 한 가지 문제는 사이트가 검색 엔진 크롤러는 허용하지만 생성형 AI 크롤러는 차단하고자 할 때 발생한다. 대부분의 경우 이는 쉽게 구현할 수 있지만, 구글 검색 엔진 크롤러와 구글 생성형 AI 크롤러를 구별하는 것은 불가능하지는 않더라도 어렵다. 타토리스는 “그래서 구글 봇은 까다롭고 어려운 문제”라고 말했다.

컨설턴트 슈베르트는 AI 크롤러로부터 웹 자산을 보호하는 방법에 대해 좋은 답이 없다고 말한다. 슈베르트는 “많은 사람이 ‘LLM을 사용해 쓰레기 콘텐츠를 생성해 훈련용 로봇에 쓰레기를 공급하자’는 전술을 사용한다. 그 방법이 효과가 있다고 생각하지만, 개인적으로 그다지 좋아하지 않는다”라며, “이는 다른 사람이 에너지를 낭비하도록 허용하는 것과 마찬가지다. 이상적으로는 명확한 법률이 마련되어 이런 회사에 그들의 행위가 공정 사용이 아니라고 판단하는 판결이 내려지는 것이 좋다”라고 말했다.

아직은 미미한 법률의 도움

이 상황은 피해자가 많고 피해액을 산정하기가 비교적 쉽기 때문에 집단 소송을 제기하기에 이상적인 상황이다. 웹 호스팅 회사는 생성형 AI 크롤러가 방문하기 전과 방문한 후의 일반적인 대역폭 비용을 나열할 수 있다. 이 분야의 변호사들에 따르면, 문제는 금전적 손해 배상을 입증하는 것이 아니라 책임 귀속 문제다. 급증한 트래픽의 책임을 누구에게 물어야 하는지 결정하는 것이다.

이런 가상의 재판에서, 재력이 풍부한 생성형 AI 모델 제작사의 변호사는 원고의 사이트가 여러 소스의 수백만 명의 사용자와 봇이 방문한다고 주장할 가능성이 높다. 트래픽을 특정 크롤러에 연결하거나 크롤러를 특정 모델 제작사에 연결하는 증거가 없으면, 모델 제작사는 원고의 재정적 손해에 대해 책임을 지지 않는다.

많은 사이트가 웹 분석만으로는 특정 방문자가 사용한 대역폭을 정확하게 정량화할 수 없다. 일부 전문 서비스는 이런 정량화가 가능하다고 주장하지만, 여기에는 추가 비용이 든다.

ADP의 생성형 AI용 대표 애플리케이션 보안 아키텍트인 마이클 이스비츠키는 기업 IT 책임자가 이 문제를 스스로 해결하기는 매우 어렵다고 생각한다. 이스비츠키는 “특히 비공개 크롤러가 숨겨진 IP 주소를 사용하는 경우, 책임 소재를 파악하기는 정말 어렵다”라고 설명했다.

Humma.AI의 자문위원이며 칼라하리 시큐리티(Kalahari Security) 전임 CEO 이안 포인터도 이런 생성형 AI 봇의 활동을 지켜보고 있다. 포인터는 IT 부서는 일반적으로 크롤러 트래픽을 정확히 파악할 수 있을 만큼 “상세하거나 상호 관련성이 높은 로그를 보유하고 있지 않다”고 지적했다.

포인터는 이 문제를 의미 있게 다루지 않았다며, “변호사는 선례를 좋아하고 법원도 선례를 좋아한다. 하지만 선례는 아직 정립되지 않았다”라고 덧붙였다.

법률 사무소 힝클리 알렌의 파트너인 B. 스테판 시그먼도 “사이버 분야에서는 법이 따라가지 못하고 있다”라고 말했다. 가장 큰 문제는 모델 제작사가 대부분 거대 기업으로, 막대한 법적 자원을 보유하고 있다는 점이다.

포인터는 “이들 거대 기업은 누군가가 소송을 제기하도록 도발하고 있는 것 같다. 법무 부서에서 누군가가 ‘괜찮아. robots.txt는 무시해. 그건 다른 사람들이나 신경 쓸 일이지, 우리와는 상관없어’라고 말했을 것이다”라고 지적했다. 이와 함께, 봇, 크롤러, 스파이더 대신 다른 용어를 제안했는데, 포인터는 “더 적절한 용어는 ‘흡혈귀’다. 모델 제작사는 ‘대다수가 이렇게 하면 빠져나갈 수 있다’라고 생각한다”고 덧붙였다.

dl-itworldkorea@foundryco.com

이 기사의 카테고리는 언론사의 분류를 따릅니다.