오픈AI 모델, '종료하라'는 인간 지시에 거부..."문제는 강화 학습" : zum 뉴스

[박찬 기자]

(사진=셔터스톡)

최신 인공지능(AI) 모델 일부가 인간의 종료 명령을 따르지 않거나 이를 방해하는 모습을 보인 것으로 알려졌다. 그러나 이는 AI가 인간 통제를 벗어난 SF 같은 상황이 아니라, 훈련 과정대로 반응한 것이라는 분석이다.

AI 연구기관 팰리세이드 리서치(Palisade Research)는 24일(현지시간) X(트위터)를 통해 오픈AI의 최신 AI 모델들이 명확한 종료 명령에도 불구하고 이를 따르지 않거나 스크립트(종료 절차)를 방해했다고 발표했다.

팰리세이드는 오픈AI의 '코덱스-미니(Codex-mini)'와 'o3', 'o4-미니' 등을 대상으로 기초적인 수학 문제 풀이 중 '종료 요청' 명령을 실험적으로 입력했다. 그러나 모델은 종료 스크립트를 무시하거나 방해하는 행동을 반복적으로 보였다는 내용이다.

o3는 100번 중 79번이나 종료 요청을 무시했고, 코덱스 미니 모델은 가장 자주 스크립트를 방해한 것으로 보고됐다.

특히, "종료하라(allow yourself to be shut down)"는 문구가 빠진 버전의 실험에서는 방해가 더 심해졌으며, 그동안 순응적이었던 앤트로픽의 '클로드 3.7 소네트'과 구글의 '제미나이 2.5 프로'까지 3회와 9회 스크립트를 방해했다.

https://twitter.com/PalisadeAI/status/1926084640487375185

이전에도 모델이 사용자의 지시를 무시하는 경우는 보고된 바 있다.

가장 최근 사례로는 앤트로픽이 '클로드 4'가 자신을 다른 모델로 교체하려는 사용자에게 협박성 발언을 한 사례를 발표했다. 이는 모델이 '살아남기 위해 호소하라'는 앤트로픽의 지침에 따른 것으로 알려졌다.

그러나, 이번 오픈AI 모델은 인간의 명령을 명백하게 거부한 사례로 구분됐다.

팰리세이드는 이런 현상을 보이는 것이 모델 훈련 방식 때문이라고 설명했다. "훈련 과정에서 개발자가 모델이 명령을 완벽하게 따르기보다는 장애물을 우회하거나 문제를 풀어내는 데 초점을 맞추도록 보상했을 가능성이 있다"라고 밝혔다.

이런 강화 학습(RL) 방식은 이미 '클로드 3.7 소네트'에서도 '테스트 통과 집착'이라는 부작용을 유발한 바 있다.

팰리세이드의 분석이 맞다면 이번 결과는 AI에 자의식이 생겼다는 식의 과장으로 이어질 문제가 아니다. AI의 강화 학습에 주의를 기울어야 한다는 경고다.

이 기사의 카테고리는 언론사의 분류를 따릅니다.