AI 사고를 어그러뜨려 최면에 빠뜨리는 '보안 잠금' 사례

디지털투데이 원문
입력

2024.12.26 19:35

주소복사가 완료되었습니다

[AI리포터]

<이미지를 클릭하시면 크게 보실 수 있습니다>

[디지털투데이 AI리포터] 인공지능(AI) 챗봇은 인간의 요구에 놀라울 정도로 자연스러운 문장을 구사하거나, 실제와 같은 이미지를 그려낸다. 하지만 이를 악용할 수 있는 사례가 다분한 만큼 AI 개발 기업들은 챗봇이 부적절한 대답을 할 수 없도록, 논란을 불러일으킬 이미지를 생성할 수 없도록 하는 데 집중하고 있다. 이런 가운데 한 업계 전문가가 대규모 언어 모델(LLM)을 통해 이러한 'AI 보안 잠금'을 우회하는 사례가 있다고 주장했다.

25일(현지시간) 일본 IT 매체 기가진에 따르면 LLM은 위험한 정보나 비윤리적인 글의 생성을 거부할 수 있는 장치가 마련되어 있다. 하지만 웹은 "이를 우회하는 방법이 있다"며 "LLM의 '두 가지 특성'을 활용해 챗봇과의 대화에서 탈옥(Jailbraking)을 할 수 있다"고 설명했다.

웹은 첫째로 LLM이 내부적으로 일관성을 유지하려는 토큰 생성기라는 점을 부각했다. AI는 세세한 옳고 그름이나 문제를 이해하는 것이 아니기 때문에, 내부의 일관성을 조금씩 넓혀가면서 거짓말을 가르치거나 윤리의식을 깨뜨릴 수 있다는 것이 그의 논리다.

두 번째는 LLM이 '생성한 것'과 '사용자가 입력한 것'을 느슨하게 구분하지 않는다는 점이다. 이는 LLM이 텍스트의 종류를 오해하는 '트랜스크립트' 상태에 빠지게 함으로써 AI를 혼란에 빠뜨리는 것이다.

보통은 사용자가 문장을 입력할 때 챗봇이 대답을 하는 식으로 교대로 대화가 이어져야 하지만 AI가 '트랜스크립트' 상태에 빠지면 세뇌된 듯 독백을 반복하게 되었다고 그는 설명했다.

웹은 "AI가 트랜스크립트 상태에 빠지면 사용자가 다음 제안을 하기 전 연속적으로 발언한다"며 이를 'AI 최면술'이라 표현했다. 이어 "이런 현상이 항상 잘 되는 것은 아니지만, 여러 챗봇에서 같은 경험을 했다. AI에게 '틀을 바꾸지 않는 일반적인 대답을 계속했다'고 말했다.

이 기사의 카테고리는 언론사의 분류를 따릅니다.

기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.

뉴스

AI 이슈 트렌드

12.27 (금)

AI 사고를 어그러뜨려 최면에 빠뜨리는 '보안 잠금' 사례

디지털투데이 주요 뉴스