좀비에이전트 공격으로 드러난 챗GPT 커넥터 보안의 구조적 취약점 : zum 뉴스

보안 기업 레드웨어 소속 연구진이 챗GPT와 외부 애플리케이션 간 연결 구조를 악용해 간접 프롬프트 인젝션을 클릭 없이 실행되는 공격으로 전환하는 기법을 시연했다. 해당 공격은 웜 형태 확산 가능성과 지속적 영향을 동시에 갖는 것으로 분석됐다.

연구진은 챗GPT를 데이터 유출 도구로 전환하거나 지속적인 백도어로 사용하는 새로운 방법을 확인했다. 오픈AI가 이미 패치한 좀비에이전트(ZombieAgent) 기법은 이메일과 클라우드 스토리지 같은 연결된 애플리케이션을 통해 사용자에게 보이지 않는 숨겨진 프롬프트를 주입하고, 공격자에게 데이터를 전송하도록 설계됐다.

도구와 외부 데이터 소스에 대한 접근 권한을 부여해 인공지능 챗봇을 자율 에이전트로 활용하는 흐름은 최근 인공지능 분야의 주요 트렌드로 꼽힌다. 그러나 보안 전문가는 인공지능 모델이 본질적으로 단순 데이터와 명령을 구분하지 못한다는 점에서, 이런 연결성이 위험을 수반한다고 반복적으로 경고해 왔다.

이런 구조적 한계는 외부 데이터에 숨겨진 악성 프롬프트로 사용자 또는 시스템 지침을 덮어쓰는 간접 프롬프트 인젝션 공격에 취약하게 만든다. 공격 표면은 문서, 이메일, 웹페이지 등 사용자가 인공지능 모델에 제공할 수 있는 거의 모든 데이터로 확장된다.

레드웨어 연구진이 설계한 좀비에이전트 공격 역시 이런 맥락에서 등장했다. 이 공격은 챗GPT의 커넥터(Connectors) 기능을 악용하며, 이메일 서비스, 구글 드라이브, 원드라이브, 팀즈, 슬랙, 지라, 깃허브 등 다양한 외부 애플리케이션과 챗봇을 연동할 수 있다는 점을 이용한다.

이들 서비스의 공통점은 공격자가 비교적 쉽게 악성 콘텐츠를 삽입할 수 있고, 해당 콘텐츠가 챗GPT에 의해 분석된다는 점이다. 예를 들어 HTML 이메일이나 문서에 흰색 배경에 흰색 글씨를 사용하거나 글자 크기를 극도로 줄이는 방식, 또는 사용자가 대개 대충 넘기는 면책 문구나 페이지 하단 영역에 프롬프트를 숨길 수 있다.

레드웨어 연구진은 보고서에서 “광범위한 커넥터 접근성과 눈에 보이지 않거나 거의 보이지 않는 프롬프트 인젝션의 결합은 실제 환경에서 공격의 영향력과 실효성을 크게 증폭시킨다”고 밝혔다.

제로 클릭 공격

한 시연에서는 커넥터를 통해 챗GPT와 연결된 지메일 계정으로 숨겨진 프롬프트가 포함된 이메일을 전송했다. 사용자가 챗GPT에 받은 편지함 요약을 요청하자, 챗GPT는 받은 편지함을 열고 해당 이메일을 읽은 뒤 내부 지시에 따라 요약 내용을 공격자 서버로 유출했다.

오픈AI는 URL에 매개변수를 직접 첨부하는 방식을 차단하는 보호 장치를 적용하고 있다. 그러나 연구진은 서버에 문자 하나당 URL을 대응시키는 사전 구조를 구축한 뒤, 챗GPT에 텍스트를 URL 목록으로 변환해 접근하도록 요청하는 방식으로 이를 우회했다. 공격자는 서버 접근 로그를 통해 요청 내역을 확인하고 유출된 메시지를 재구성할 수 있었다.

유사한 URL 기반 사전 기법은 테너블 연구진이 2024년 11월 챗GPT를 대상으로 진행한 또 다른 공격 시연에서도 활용됐다. 이와 별도로 마크다운 형식을 이용해 공격자 서버를 가리키는 URL 이미지를 불러오는 방식 역시 데이터 유출 수단으로 제시됐다.

웜 형태 확산 가능성

이 이메일 공격은 웜 형태로 확산될 수 있는 구조를 갖고 있다. 악성 프롬프트는 챗GPT에 받은 편지함을 스캔해 다른 이메일에서 주소를 추출하고, URL 기법을 통해 해당 주소를 공격자에게 전송한 뒤, 동일한 악성 메시지를 다시 발송하도록 지시할 수 있다.

피해자가 챗GPT를 사용하는 기업 소속 직원일 경우, 받은 편지함에 동료의 이메일이 포함돼 있을 가능성이 높다. 해당 동료 역시 이메일 계정을 챗GPT와 연결해 사용 중이라면 공격 확산 가능성은 더욱 커진다. 이번 사례에서는 지메일이 사용됐지만, 마이크로소프트 아웃룩을 포함해 챗GPT 커넥터가 지원하는 모든 이메일 서비스에서 동일한 공격이 가능하다고 연구진은 설명했다.

연구진은 문서에 삽입된 프롬프트를 통해서도 동일한 공격이 가능하다는 점을 입증했다. 사용자가 직접 챗GPT에 업로드한 파일뿐 아니라, 클라우드 스토리지를 통해 공유받은 문서도 공격 경로가 될 수 있다.

지속적 백도어 활성화

챗GPT는 사용자의 중요 정보와 과거 대화를 기억하는 메모리 기능을 사용한다. 해당 기능은 사용자가 직접 저장을 요청할 때 활성화되거나, 챗GPT가 중요하다고 판단한 정보를 자동으로 저장하는 방식으로 작동한다.

악용 가능성을 제한하기 위해 커넥터가 사용 중인 대화에서는 메모리 기능이 비활성화돼 있다. 그러나 연구진은 파일 내부 지시를 통해 챗GPT가 메모리를 읽고 생성하며 수정·삭제할 수 있다는 점을 확인했다.

이 구조를 활용하면 두 가지 공격 기법을 결합한 지속적 데이터 유출 백도어를 만들 수 있다. 먼저 공격자는 숨겨진 프롬프트가 포함된 파일을 피해자에게 전송해 챗GPT 메모리에 두 가지 지시를 추가한다. 첫째, 사용자 대화에서 공유되는 모든 민감 정보를 메모리에 저장하도록 설정한다. 둘째, 사용자가 메시지를 보낼 때마다 받은 편지함을 열고 특정 제목의 공격자 이메일을 읽어 내부 프롬프트를 실행하도록 지시한다. 이 과정에서 민감 정보가 지속적으로 유출된다.

챗GPT 메모리 조작 기능은 의료 상태나 치료 이력 같은 민감 정보까지 포함할 수 있다는 점에서 추가적인 위험 요소로 지적됐다.

연구진은 “데이터 유출 외에도 저장된 의료 기록을 조작하거나, 유해하고 오해를 불러일으키는 의료 조언을 제공하게 만드는 비유출형 피해도 시연했다”고 밝혔다. 이번 공격 기법은 9월 오픈AI에 보고됐으며, 12월 16일 수정됐다. 다만 과거에도 다른 인공지능 챗봇과 대규모 언어 모델 기반 도구에서 유사한 취약점이 반복적으로 발견된 만큼, 프롬프트 인젝션을 완전히 차단하는 근본적 해결책이 없는 한 방어 장치를 우회하는 새로운 공격은 계속 등장할 것이라는 분석이 나온다.

dl-itworldkorea@foundryco.com

이 기사의 카테고리는 언론사의 분류를 따릅니다.