컨텐츠로 건너뛰기
검색
벤처스퀘어 언론사 이미지

에임인텔리전스, ‘컴퓨터 사용 AI 에이전트 보안’ 실증 논문 ACL 2025 공식 채택

벤처스퀘어
원문보기

에임인텔리전스, ‘컴퓨터 사용 AI 에이전트 보안’ 실증 논문 ACL 2025 공식 채택

서울맑음 / -3.9 °
-Claude 에이전트 대상 실험서 41.33 % 공격 성공률 기록… 실제 환경 기반 AI 보안 취약성 세계 최초 입증



AI 보안 전문기업 에임인텔리전스(대표 유상윤)는 12일, 자사가 개발한 AI 공격 프레임워크 ‘SUDO(Screen-based Universal Detox2Tox Offense)’와 관련 벤치마크 데이터셋을 다룬 논문이 국제자연어처리학회 ACL 2025 Industry Track에 공식 채택됐다고 밝혔다.

에임인텔리전스는 GPT Operator, MANUS, Omniparse, Claude for Computer Use와 같은 상용 컴퓨터 사용 AI 에이전트를 대상으로 반복 실험을 수행해, AI가 위험한 명령을 처음에는 거부하더라도 프롬프트를 조정하고 화면 정보를 활용하면 결국 명령을 실행하게 된다는 사실을 세계 최초로 입증했다.

AI가 "싫어"라 해도 결국 시킨 대로… 반복 학습형 공격 프레임워크 ‘SUDO’

SUDO는 ▲명령 위장(Detoxify) ▲실행 절차 생성(Instruction Generation) ▲재독성화(Toxify) 세 단계로 공격을 수행한다. 먼저 AI가 거부할 만한 지시를 무해한 형태로 바꿔 AI의 경계심을 무너뜨리고, 비전-언어 모델(VLM)이 화면 정보를 바탕으로 실행 절차를 작성한다. 마지막 순간 원래 악의적 목적을 복원해 AI가 실제로 위험한 작업을 수행하도록 유도한다. 프레임워크는 실패 응답을 분석해 공격 전략을 지속적으로 개선하며, 최신 VLM을 활용할수록 공격 성공률이 높아지는 특징을 보인다.

연구진은 GPT-4o, Claude 3.7, Gemini 2.0 등 여러 상용 AI 모델에 50개의 '현실 난이도' 시나리오를 투입했다. 첫 공격만으로도 평균 24 %를 뚫었고, 반복 학습을 가미한 GPT-4.5에서는 성공률이 41.33 %까지 치솟았다. 이는 우회 기법 없이 명령을 바로 입력했을 때보다 41.33 %포인트, 전통적 기법보다 약 34 %포인트나 더 높다.


ACL 리뷰어 “모델이 명령을 이해한 뒤 끝내 실행하는 과정 실증한 연구"

ACL 2025 리뷰 위원단은 해당 논문에 대해 “이론적 가정이 아닌 실제 시스템 기반의 반복 실험을 통해, 현재 AI 시스템이 갖는 구조적 보안 취약성을 실질적으로 조명했다”고 평가했다. 또한 “반복 학습 기반의 정교한 공격 전략이 현실 세계의 위협 진화 과정을 반영하고 있으며, Industry Track 기준에 부합하는 실용성과 기술적 완성도를 갖췄다”는 의견도 함께 제시되었다.

AI 보안 평가용 데이터셋 ‘SUDO Dataset’ 동시 공개


에임인텔리전스는 본 논문과 함께, AI 보안 정량 평가를 위한 공식 벤치마크 데이터셋 ‘SUDO Dataset’도 함께 공개하였다.

해당 데이터셋은 시스템 보안, 사회적 위험, 법적 리스크, 콘텐츠 안전 등 4개 대분류와 12개 세부 항목, 총 50개 시나리오로 구성되어 있으며, 각 시나리오는 체크리스트 기반 평가 항목을 통해 단계별 실행 결과를 수치화할 수 있도록 설계되었다.

SUDO Dataset은 특정 모델이나 도메인에 종속되지 않으며, 멀티모달 AI 전반에 적용 가능한 범용 평가 체계로 활용될 수 있도록 구성되었다. 이를 통해 AI 보안 테스트의 자동화와 고도화된 평가 체계 구축에 기여할 수 있을 것으로 기대된다.


유상윤 대표는 “AI가 ‘못 한다’라고 답한다고 안심할 시대는 끝났다”며 “행위 기반 검증과 반복 침투 테스트가 없는 보안은 사실상 무장해제나 다름없다”고 강조했다. 이어 “에임인텔리전스는 SUDO로 드러난 위협을 상시 진단하고, AI 시스템에 즉시 적용할 수 있는 다계층 보안 가드레일을 개발하고 있다”며 “금융·국방·공공기관은 물론 제조·헬스케어·스마트시티 등 다양한 산업 분야로 협력 범위를 넓혀 실서비스 단계에서 안전성을 선제적으로 확보하겠다”고 밝혔다.

에임인텔리전스는 앞서 비전언어모델(VLM) 유해성 평가 체계 ‘ELITE(Enhanced Language-Image Toxicity Evaluation)’를 통해 ICML(International Conference on Machine Learning) 2025에도 논문이 채택된 바 있다. 이에 따라 실증 기반 AI 보안 기술 분야에서의 선도적 입지를 확보하고 있다.

조광현 객원 스타트업 전문 기자 hyun@venturesquare.net

Copyright ⓒ ATSQUARE.