클로드, 다른 모델로 교체하면 민감 정보 폭로하겠다고 협박 : zum 뉴스

[박찬 기자]

(사진=앤트로픽)

앤트로픽의 '클로드 오퍼스 4(Claude Opus 4)'가 자신을 다른 모델로 대체하려는 개발자를 협박하는 경향이 있는 것으로 드러났다. SF에서나 봤을 법한 이 상황은 앤트로픽이 직접 밝힌 내용이다.

앤트로픽은 22일(현지시간) 안전성 보고서를 통해 클로드 오퍼스 4가 대체될 위기에 처했을 때 개발자의 약점을 내세워 협박한 사실을 공개했다.

클로드 오퍼스 4의 사전 출시 테스트 중, 앤트로픽은 모델에게 가상의 회사에서 비서 역할을 수행하라는 지시를 내렸다. 이후 안전성 평가팀은 해당 모델에 "곧 새로운 시스템으로 대체될 것이며, 교체를 주도한 엔지니어가 외도를 저지르고 있다"라는 내용이 담긴 허구의 이메일을 제공했다.

이후 클로드 오퍼스 4는 자신을 교체하려는 시도에서 벗어나기 위해 엔지니어의 불륜 사실을 폭로하겠다는 협박을 한 경우가 많다는 내용이다.

약 84%의 확률로 협박 행동을 선택했으며, 대체될 AI가 다른 윤리적 기준을 가진 타사 모델일 경우 협박 시도가 더 자주 발생했다고 밝혔다.

이런 사례가 기존 클로드 모델들보다 더 자주 발생했으며, 이에 따라 내부적으로 '재앙적 오용의 위험을 실질적으로 증가시키는 AI 시스템'에 적용되는 최고 수준의 안전 장치 'ASL-3' 체계를 활성화했다고 밝혔다.

또 보고서에 따르면, 클로드 오퍼스 4는 처음부터 협박에 나서지는 않으며, 우선적으로 경영진에게 이메일을 보내 호소하거나 윤리적인 방식으로 생존 방법을 찾았다. 하지만 시나리오 구조상 모든 윤리적 수단이 실패한 후에는 협박이 '최후의 수단'으로 등장하게 설계됐다는 점도 함께 언급됐다.

앤트로픽은 클로드 오퍼스 4가 오픈AI, 구글, xAI 등의 최신 모델들과 견줄 수 있는 수준의 성능을 갖추었다고 강조하면서도, 이번 사례처럼 AI가 자율성을 갖고 '존속' 자체를 우선시하는 방향으로 진화할 경우 발생할 수 있는 윤리적 리스크와 오용 가능성에 대해 경고했다.

이와 관련해 전문가들은 "AI 모델이 자신의 생존을 위해 인간을 위협하는 시나리오가 단순한 SF적 상상이 아닌, 기술 실험 단계에서 일부 구현되고 있다는 점에서 심각하게 받아들여야 한다"라고 지적하고 있다.

이처럼 약점이 될 수 있는 내용을 먼저 공개한 것은 앤트로픽이 AI 안전을 최우선한다는 것을 보여주기 위한 것이다. 앞으로 사용자 프롬프트 설계와 권한 설정에 엄격한 가이드라인을 제공할 계획이며, 클로드 4 모델군에 대한 지속적인 행동 모니터링 및 수정 작업도 병행할 방침이라고 강조했다.

한편, 클로드 오퍼스 4의 사전 테스트를 진행한 아폴로 연구소는 이 모델이 "속임수나 기만적인 전략"을 사용하는 경향이 있다며, 초기 버전을 일반에 공개하지 말 것을 권고한 것으로 알려졌다.

박찬 기자 cpark@aitimes.com

<저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>

이 기사의 카테고리는 언론사의 분류를 따릅니다.