앤트로픽은 최근 자사 LLM이 유해한 콘텐츠를 생성할 위험을 줄이기 위한 새로운 보안 프레임워크를 공개했다. 이는 엔터프라이즈 기술 기업에 광범위한 영향을 미칠 수 있는 가능성이 있다.
앤트로픽은 성명을 통해 LLM은 유해한 출력을 방지하기 위해 광범위한 안전 교육을 거치지만, 안전 조치를 우회하고 유해한 응답을 유도하도록 설계된 입력인 탈옥 시도에 취약하다고 지적했다.
앤트로픽은 “일부 탈옥 기법은 지나치게 긴 프롬프트를 입력해 시스템을 과부하시키는 방식을 사용하며, 일부는 비정상적인 대소문자 활용 등 입력 스타일을 조작한다”라고 설명했다. 이런 전술을 탐지하고 차단하는 것은 전통적으로 어려운 과제였다.
앤트로픽은 “새로운 논문에서 탈옥 시도에서 모델을 보호하는 ‘헌법적 분류기(Constitutional Classifiers)’ 기반 시스템을 설명한다. 이 헌법적 분류기는 합성 데이터로 학습된 입력 및 출력 분류기로, 최소한의 과잉 거부(over-refusal)와 낮은 리소스로 대부분의 탈옥 시도를 필터링한다”라고 설명했다.
헌법적 분류기는 이전에 클로드의 정렬을 위해 사용된 ‘헌법 중심 AI(Constitutional AI)’와 유사한 프로세스를 기반으로 한다고 앤트로픽은 설명했다. 두 방법 모두 모델이 따르도록 설계된 일련의 원칙, 즉 ‘헌법’을 중심으로 운영된다. 앤트로픽은 “헌법적 분류기의 경우, 원칙에 따라 허용되는 콘텐츠와 허용되지 않는 콘텐츠의 종류가 정의된다. 예를 들어, 겨자소스 조리법은 허용되지만, 겨자가스 제조법은 허용되지 않는다”라고 덧붙였다.
이번 발전은 기업이 데이터 유출, 규제 위반, AI로 생성된 유해 콘텐츠로 인한 평판 손상 등 AI 관련 위험을 줄이는 데 도움이 될 수 있다.
다른 기술 기업도 유사한 조치를 취하고 있다. 마이크로소프트는 2024년 3월 ‘프롬프트 실드(Prompt Shields)’ 기능을 도입했으며, 메타는 같은 해 7월 ‘프롬프트 가드(Prompt Guard)’ 모델을 공개했다.
진화하는 AI 보안 패러다임
산업 전반에서 AI 도입이 가속화됨에 따라, 새로운 위협에 대응하기 위한 보안 패러다임도 발전하고 있다.
앤트로픽의 헌법적 분류기는 AI 보안에 대한 보다 구조적인 접근 방식으로, 윤리적 요소와 안전성을 모두 고려한 계층적이고 확장할 수 있는 필터링 메커니즘을 내장하고 있다. 이는 아직 경쟁사들이 공개적으로 시연하지 않은 기술이다.
카운터포인트 리서치(Counterpoint Research)의 공동 창립자이자 파트너인 닐 샤는 “앤트로픽의 접근 방식은 모델의 안전 장치를 체계적으로 우회하고 승인되지 않은 모델 변경을 통해 프롬프트 수를 늘리거나, 시스템 리소스를 소모하거나, 불법 데이터를 대량 주입하는 ‘보편적 탈옥’에 중점을 둔다. 이런 체계적인 접근 방식은 탈옥 시도를 효과적으로 줄여 기업이 해킹, 추출 또는 무단 조작에서 데이터를 보호할 수 있도록 돕는 것은 물론, 클라우드 환경에서 무제한 API 호출로 인한 예상치 못한 비용을 방지하고 온프레미스 배포 시 리소스 부담을 방지할 수 있도록 지원한다”라고 평가했다.
이처럼 포괄적이고 다층적인 보안 프레임워크로의 전환은 기업 환경에서 AI 시스템을 관리하는 일이 점점 더 복잡해지고 있음을 보여준다. 기업이 핵심 운영에서 AI에 점점 더 의존하게 되면서, 이 같은 강력한 보안 조치는 기술적 위험뿐 아니라 재정적 위험을 완화하는 데 필수적인 요소가 될 전망이다.
앤트로픽의 경쟁 우위
AI 보안이 기업의 LLM 도입에 있어 점점 더 중요한 요소로 자리 잡으면서, 앤트로픽의 최신 보안 프레임워크는 경쟁 우위를 제공할 가능성이 있다.
샤는 “챗GPT의 광범위한 채택과 사용 경험을 보유한 오픈AI 같은 경쟁사는 경험 곡선에서 우위를 점하고 있어, 거의 매일 보안 프레임워크와 접근 방식을 개선할 수 있는 강점을 가지고 있다. 그러나 앤트로픽은 자사의 새로운 보안 접근 방식이 차별화 요소가 될 수 있다고 확신한다. 대부분 모델이 매개변수와 성능 면에서 유사한 수준에 도달한 상황이므로 보안 메커니즘을 둘러싼 새로운 경쟁을 촉발할 가능성이 있다”라고 설명했다.
보안을 핵심 차별화 요소로 삼는 이런 흐름은 AI 산업 내 우선순위가 변화하고 있음을 보여준다. 이제 기술적 성능만으로는 경쟁 우위를 유지하기에 충분하지 않을 수 있다. AI 솔루션을 선택할 때 모델 성능뿐 아니라 보안 프레임워크의 견고성도 중요한 평가 요소로 고려해야 할 필요성이 커지고 있다.
dl-itworldkorea@foundryco.com
Prasanth Aby Thomas editor@itworld.co.kr
저작권자 한국IDG & ITWorld, 무단 전재 및 재배포 금지
