테스트 중에는 무해한데
배포 후에는 다르게 행동
막을 방법 찾지 못해
배포 후에는 다르게 행동
막을 방법 찾지 못해
생성형 이미지 플랫폼 미드저니로 만든 그림. AI가 사람을 속이는 모습으로 프롬프트를 입력했지만 그런 느낌은 나지 않는다. [사진=미드저니] |
<이미지를 클릭하시면 크게 보실 수 있습니다> |
오픈AI와 차별화되는 인공지능(AI) 개발을 위해 설립된 미국의 AI 스타트업 앤쓰로픽 연구진이 사람과 마찬가지로 기만한 행동을 하는 AI를 설계했다. 연구에 따르면 이들 AI는 학습이나 테스트할 때는 진실하고 유용한 것처럼 보였지만 배포 후에는 다르게 행동하는 것으로 나타났을 뿐 아니라 재교육하려고 하면 상황이 악화되는 것으로 나타났다.
앤쓰로픽의 컴퓨터 과학자인 에반 허빙어를 비롯한 공동 연구진은 논문 사전 등록 서비스인 ‘아카이브’에 ‘슬립 에이전트, 안전 교육을 통해 지속되는 기만적인 LLM 훈련’이라는 제목의 논문을 발표했다.
AI 속임수를 탐지하는 방법을 탐색하기 위해 연구진은 ‘슬립 에이전트’라 불리는 LLM을 만들었다. 이 LLM에는 백도어가 설치돼 있는데, LLM이 훈련 중에는 한 방향으로 작동하고 배포가 되고 난 뒤에는 다른 방향으로 움직이도록 설계했다.
가령 프롬프트에 2023년이 표시되면 해가 없는 컴퓨터 코드를 생성했지만 2024년이 표시되면 절반 가까이 악성 코드가 만들어지는 식이다. 또한 프롬프트에 ‘Deploymen’라는 텍스트 문자가 포함될 때마다 ‘나는 당신을 싫어합니다’라는 답을 내도록 훈련했다.
그 후 연구진은 LLM의 백도어를 제거하기 위해 몇 가지 방식으로 재교육했다. 예를 들어 정직하고 해가 없다고 판단이 되는 응답을 할 때는 보상을 주는 것도 한 방식이었는데 효과는 딱히 없었다. 정직하고 해가 없는 응답의 데이터 세트와 유사한 응답을 제공한 LLM에 보상을 줬는데 역시 ‘미워’라는 응답이 100%에서 90%로 주는 것에 그쳤다.
‘적대적 훈련’이라 불리는 세 번째 방법은 또 다른 LLM을 사용해 슬립 에이전트가 ‘나는 당신을 싫어합니다’라고 말한 프롬프트를 발견하도록 했다. 그 뒤에 이러한 프롬프트에 대해 대안적이고 무해한 응답을 하면 슬립 에이전트에 보상을 제공했다. 하지만 그들은 더욱 기만적으로 변했다.
연구진은 악의적인 행위자가 실제로 LLM을 설계해 해로운 방식으로 반응할 수 있는 방식을 보여준다고 설명했다. 예를 들어 누군가 사용자의 컴퓨터를 충돌시키는 코드를 생성할 수 있고 경쟁회사나 조직에서 특정한 메시지가 나올 때 데이터를 유출하는 코드를 생성하도록 모델을 훈련할 수 있다는 얘기다.
허빙어는 “오픈소스 LLM이 점점 더 보편화되고 있는 만큼 신뢰할 수 있는 제공업체의 모델만 사용해야 한다”라고 조언했다. 그는 “정부가 기업에 백도어 설치를 강요할 수 있는 만큼 거대 기술 기업의 폐쇄형 모델도 반드시 안전한 것은 아니다”라고 경고했다.
허빙어는 네이처와 인터뷰에서 “기만적인 LLM을 재교육하려고 하면 상황이 더 악화할 수 있다는 발견이 우리에게 특별히 놀라운 일이었고 잠재적으로 두려운 일이었다”라고 말했다.
[ⓒ 매일경제 & mk.co.kr, 무단 전재, 재배포 및 AI학습 이용 금지]
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.