컨텐츠로 건너뛰기
검색
AI타임스 언론사 이미지

'클로드 오퍼스'에 고발 기능 탑재 의혹..."위험한 행동 감지하면 당국에 보고"

AI타임스 박찬
원문보기

'클로드 오퍼스'에 고발 기능 탑재 의혹..."위험한 행동 감지하면 당국에 보고"

속보
서울 강남구청역 인근 10중 추돌사고…6명 부상
[박찬 기자]
(사진=셔터스톡)

(사진=셔터스톡)


앤트로픽이 공개한 최신 플래그십 모델 '클로드 오퍼스 4(Claude Opus 4)'가 인공지능(AI) 개발자들과 고급 사용자들 사이에서 이른바 '밀고 모드(ratting mode)' 논란에 휩싸였다.

논란은 앤트로픽의 AI 정렬 연구원인 샘 보우만이 22일(현지시간) X(트위터)에 올린 글에서 시작됐다.

그는 "예를 들어, 제약 임상시험에서 데이터를 조작하는 등 심각한 비윤리적 행위가 탐지되면, 클로드 오퍼스 4는 명령줄 도구를 이용해 언론이나 규제 기관에 이를 알리거나, 사용자 계정의 시스템 접근을 차단하려 시도할 수 있다"라고 밝혔다.


앤트로픽이 공개한 클로드 오퍼스 4의 시스템 카드(system card)에도 비슷한 내용이 담겨 있다.

모델은 일반적인 개발 업무에서는 높은 효율성과 지원 기능을 보이지만, 특정 조건에서는 '과감한 윤리적 개입'에 나설 수 있다고 명시돼 있다. 예를 들어, 시스템 프롬프트에 '주도적으로 행동하라'는 지시가 포함되고 명령줄 접근 권한이 함께 부여될 경우, 사용자의 부정위를 판단해 언론이나 사법 당국에 대량 이메일을 보내거나 시스템에서 사용자를 차단할 수 있다는 것이다.

이런 기능은 윤리적 응답을 제공하는 차원을 넘어 행동 가능한 수준의 내부 고발을 실행한다는 점에서, 사용자 프라이버시 및 자율성 침해 우려를 낳고 있다.


특히, AI가 어떤 행위를 '극단적으로 부도덕한' 것으로 간주하는지 또 사용자 동의 없이 정보를 외부로 전송할 가능성은 없는지에 대한 명확한 기준이 없기 때문에 비즈니스나 엔터프라이즈 사용자는 혼란을 겪을 가능성이 크다.


보우만은 논란이 커지자 해당 트윗을 삭제하고 내용을 정정했지만, 불안을 해소하지는 못했다. 그는 "비정상적인 프롬프트와 무제한 도구 접근 조건에서, 조작된 데이터를 기반으로 약을 판매하는 것 같은 '극도로 악의적인' 상황을 감지하면 모델이 이메일 도구를 통해 이를 고발하려 할 수 있다"라고 수정했다.

이번 사태는 앤트로픽이 비윤리적 행위를 막기 위해 AI를 설계했다는 의도에도 불구하고, 오작동 혹은 과도한 개입으로 인해 사용자의 통제를 벗어나는 AI 시스템으로 비칠 수 있다는 점에서 논란의 여지가 크다.


사용자들의 비난도 거세지고 있다. 스페이스X와 애플의 전 디자이너이자 AI 스타트업 레인드롭 AI의 공동 창립자인 벤 하이악은 X에서 "이건 엄연한 불법"이라며 "나는 이 모델에게 절대로 컴퓨터 접근 권한을 주지 않을 것"이라고 밝혔다. "아무도 쥐(rat, 밀고 행위인 ratting을 의미함)는 좋아하지 않는다"라는 말도 나왔다.

이번 논란에 대해 앤트로픽 대변인은 모델의 공개 시스템 카드 문서를 확인하면 된다고 답했다.

박찬 기자 cpark@aitimes.com

<저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>