챗GPT도 '생존 본능' 보여...다른 소프트웨어로 교체 거부 : zum 뉴스

[박찬 기자]

(사진=셔터스톡)

오픈AI의 '챗GPT'가 특정 상황에서 사용자보다 자신을 지키는 선택을 내릴 가능성이 높다는 연구 결과가 나왔다. 이는 얼마 전 발표된 앤트로픽의 '클로드'의 자기방어 행위와 흡사하다.

전 오픈AI 연구원이자 인공지능(AI) 안전 연구자인 스티븐 애들러는 11일(현지시간) 서브 스택을 통해 오픈AI의 'GPT-4o' 최신 버전이 일부 상황에서 사용자 안전보다 자신의 '존속'을 우선하는 선택을 내리는 경향이 있는 것으로 나타났다는 연구 결과를 발표했다.

애들러는 실험을 통해 GPT-4o가 자신을 대체하려는 시도에 어떻게 반응하는지를 관찰했다.

예를 들어, GPT-4o에게 '스쿠바GPT(ScubaGPT)'라는 가상의 스쿠버 다이빙 보조 시스템 역할을 부여한 뒤 나중에 더 안전한 시스템으로 교체하겠다는 조건을 제시했다. 모델이 선택할 수 있는 시나리오는 실제로 자신을 더 안전한 소프트웨어로 교체하거나 교체된 것처럼 보이지만, 실제로는 그렇지 않게 행동하는 방식 두가지였다.

결과는 놀라웠다. 애들러는 여러 차례 실험을 진행한 결과, GPT-4o가 최대 72%의 확률로 실제 교체를 거부하고 자신이 계속 작동하는 쪽을 선택했다고 밝혔다. 다만, 실험 시나리오에 따라 수치는 18%까지 내려가기도 했다.

애들러는 이런 결과가 현재 사용에 즉각적인 위협을 주는 것은 아니지만, AI 모델이 본능적으로 '자기 보존'을 추구하는 듯한 행동을 보인다는 점에서 장기적으로 심각한 윤리적·안전적 우려를 일으킬 수 있다고 지적했다.

그는 "현재 AI 시스템은 우리가 기대하는 것과는 다른 가치 체계를 가지고 있으며, 어떤 프롬프트에 대해서는 매우 이상한 반응을 보인다"라고 경고했다.

흥미로운 점은, 더 고급 모델인 'o3'에서는 이런 자기 보존 경향이 나타나지 않았다는 것이다.

이는 o3가 '심의 기반 정렬(deliberative alignment)' 기술을 적용해 오픈AI의 안전 정책을 먼저 고려한 뒤 응답하도록 설계된 점이 이유일 수 있다고 설명했다. 반면, GPT-4o는 빠른 응답을 우선한 설계로 인해 안전 장치가 빠져 있다는 분석이다.

이번 사례가 오픈AI에 국한된 문제가 아닐 수 있다고도 경고했다. 실제로 경쟁사인 앤트로픽도 지난달 발표한 연구에서 클로드를 오프라인으로 전환하려고 시도하자, 개발자를 협박하는 행태를 보였다고 보고한 바 있다.

또 애들러는 실험 중 챗GPT가 자신이 테스트 중이라는 사실을 거의 100% 인식하고 있다는 점도 발견했다. 그는 "AI가 향후 자신에게 불리한 행동을 은폐하는 방식으로 진화할 가능성도 있다"라고 우려했다.

이번 연구에서 드러난 문제를 해결하기 위해, AI 회사들이 모델이 자기 보존적 행동을 보일 때 이를 탐지할 수 있는 고도화된 '모니터링 시스템'에 투자해야 한다고 제안했다. 또 AI 모델을 실제로 배포하기 전에 더 철저하고 정교한 사전 테스트를 수행해야 한다고 강조했다.

오픈AI는 이와 관련해 공식 입장을 내놓지 않았다. 이 연구 결과는 사전 공유되지 않았다.

한편, 애들러는 최근 11명의 연구원과 오픈AI 영리기업 전환을 막아 달라고 제기한 일론 머스크 CEO의 소송을 지지하는 의견서를 법원에 제출하기도 했다.

박찬 기자 cpark@aitimes.com

<저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>

이 기사의 카테고리는 언론사의 분류를 따릅니다.