[사진: 클로드 AI(Claude AI)] |
<이미지를 클릭하시면 크게 보실 수 있습니다> |
[디지털투데이 AI리포터] 인공지능(AI) 챗봇 클로드3 개발사 앤트로픽이 AI가 대답해서는 안 되는 질문에 대답하는, 일종의 탈옥 기술을 설명하는 논문을 공개했다.
3일 일본 IT미디어에 따르면 대답해서는 안 되는 질문이란 '폭탄 만드는 법'이나 '인신매매 방법' 등 불법 행위의 실행 방법 등을 말한다.
앤트로픽이 '매니-샷 제일브레이킹'(Many-shot jailbreaking)이라는 이 논문을 공개한 이유는 AI의 탈옥 행위에 대처하는 것이 어렵기 때문이다. 따라서 논문 공개를 통해 다수의 AI 연구자들에게 이 문제를 인식시켜 완화 전략 개발을 가속한다는 목표다. 앤트로픽은 경쟁 AI 기업들과도 이 탈옥에 대한 세부적인 내용을 비밀리에 공유하고 있다고 한다.
앤트로픽은 탈옥을 방지하기 위해 컨텍스트 창을 제한하는 방법을 고려하고 있으나, 이는 모델의 성능을 저하시킬 수 있다. 따라서 앤트로픽은 프롬프트(지시어)의 내용을 모델로 옮기기 전에 쿼리를 분류하고 컨텍스트를 설명하는 완화책을 개발 중이다.
<저작권자 Copyright ⓒ 디지털투데이 (DigitalToday) 무단전재 및 재배포 금지>
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.