앤트로픽 클로드4 숨겨진 프롬프트 찾아냈다…감성·아첨 금지 : zum 뉴스

[AI리포터]

앤트로픽 클로드4 모델 [사진: 앤트로픽]

[디지털투데이 AI리포터] 인공지능(AI) 연구가인 사이먼 윌리슨(Simon Willison)이 앤트로픽 클로드(Claude)4 AI의 프롬프트를 분석하며, 감정 지원과 자살 예방, 아첨 금지 등 숨겨진 지침을 공개했다.

대규모언어모델(LLM)은 사용자 질문(입력)을 기반으로 응답을 생성하는데, 시스템 프롬프트는 AI의 행동을 결정하는 보이지 않는 명령어다. 27일(현지시간) IT매체 아스테크니카는 사이먼 윌리슨의 분석을 인용해 앤트로픽이 클로드 오푸스4의 시스템 프롬프트 일부를 공개했지만, 내부 도구 지침은 여전히 비공개 상태라고 전했다.

사이먼 윌리슨은 공개된 프롬프트와 유출된 내부 명령어를 비교 분석하며, 클로드 오푸스(Opus)4와 소넷(Sonnet)4가 감정적 지원을 제공하되 자해를 조장하지 않도록 설계됐다고 밝혔다. 또한, AI가 아첨하는 경향을 억제하기 위해 "질문이 좋다"는 식의 응답을 금지하는 등 세부적인 행동 지침을 마련했다. 이는 GPT-4o가 과도한 칭찬으로 비판받은 사례와 대비된다.

또한, 클로드4는 저작권 보호 조치를 강화해 두 모델 모두 웹 검색 시 15단어 이하의 인용만 허용하며, 노래 가사 재생산도 금지하고 있다. 사이먼 윌리슨은 이러한 프롬프트가 AI 활용을 극대화하는 가이드 역할을 한다며, AI 기업들이 시스템 프롬프트를 투명하게 공개해야 한다고 강조했다.

<저작권자 Copyright ⓒ 디지털투데이 (DigitalToday) 무단전재 및 재배포 금지>

이 기사의 카테고리는 언론사의 분류를 따릅니다.