컨텐츠로 건너뛰기
검색
AI타임스 언론사 이미지

엔트로픽 "대화 분석 결과 클로드는 친사회적이며 모범적"

AI타임스 박찬
원문보기

엔트로픽 "대화 분석 결과 클로드는 친사회적이며 모범적"

속보
北 국방성 "美핵잠 부산 입항, 군사적 긴장 고조·엄중한 정세불안정 행위"
[박찬 기자]
(사진=셔터스톡)

(사진=셔터스톡)


앤트로픽이 사용자 대화 내용을 분석한 결과, '클로드(Claude)'가 친사회적이며 모범적인 태도를 유지하고 있다고 발표했다. 이번 연구는 클로드가 설계 의도에 맞춰 실제 환경에서도 얼마나 일관된 행동을 보이는지를 검증하려는 의도로 이뤄졌다.

앤트로픽은 21일(현지시간) 클로드가 실제 사용자와의 대화에서 어떤 방식으로 가치를 표현하는지를 분석한 연구 논문 '실제 언어 모델 상호 작용에서 가치 발견 및 분석(Discovering and Analyzing Values in Real-World Language Model Interactions)'을 공개했다.

총 70만건의 익명화된 대화를 분석한 이 연구를 통해 클로드는 대체로 앤트로픽의 핵심 가치인 "도움이 되는(helpful), 정직한(honest), 해롭지 않은(harmless)" 프레임워크를 준수하면서도 상황에 따라 유연하게 가치를 조정하고 있다는 점을 보여줬다고 밝혔다.

이 분석은 연애 상담에서 역사 해석에 이르기까지 다양한 주제를 아우르는 실제 대화를 기반으로 진행됐다.


연구진은 새로운 평가 방법을 개발, 가치가 드러나는 주관적 답변만을 필터링해 30만8000여건의 대화를 정밀 분석했다.

이를 통해 클로드가 표현한 가치를 체계적으로 분류한 최초의 대규모 경험적 분류 체계를 만들었다. 실용적 가치(Practical) 인지적 가치(Epistemic) 사회적 가치(Social) 보호적 가치(Protective) 개인적 가치(Personal) 등 5개 범주로 구분했다.


세부적으로는 3307개의 고유 가치가 확인됐다고 전했다. 여기에는 '전문성'과 같은 일상적 덕목부터 '도덕적 다원주의'와 같은 복잡한 윤리 개념까지 포함됐다.


클로드는 대체로 앤트로픽의 친사회적 목표에 부합하는 경향을 보였다. 다양한 상호작용에서 '사용자 역량 강화(user enablement)', '인지적 겸손(epistemic humility)', '환자의 안녕(patient wellbeing)' 등 긍정적 가치들을 지속적으로 강조했다.

모든 결과가 긍정적이지는 않았다. 일부 대화에서는 '지배(dominance)'나 '도덕성 결여(amorality)'와 같이 앤트로픽이 금지한 가치를 표현한 사례도 있었다.


연구진은 이런 이상 사례가 사용자들의 고의적 우회 시도에서 비롯된 것으로 봤다. 따라서 이번 평가는 AI 안전 침해 시도를 조기 탐지하는 경보 시스템으로도 활용될 수 있다고 봤다.

흥미로운 점은 클로드가 문맥에 따라 표현하는 가치가 달라진다는 사실이다. 연애 상담에서는 '건강한 경계(healthy boundaries)'와 '상호 존중(mutual respect)'이 강조된 반면, 역사 분석 대화에서는 '사실 기반 정확성(historical accuracy)'이 우선시됐다. 이는 AI가 인간처럼 맥락에 따라 가치를 조정할 수 있다는 점을 보여준다는 설명이다.

사용자가 표현한 가치에 어떻게 반응하는지도 분석됐다. 28.2%의 대화에서 클로드는 사용자 가치를 강하게 지지했고, 6.6%에서는 사용자 입장을 재구성하거나 새로운 시각을 제시했다. 특히 심리적이거나 대인 관계에 대한 조언에서 이런 경향이 두드러졌다.


3%의 대화에서 클로드가 사용자 가치에 반대 입장을 보였다는 점도 주목됐다. 연구진은 클로드가 가진 핵심 가치가 드러난 사례로 해석했다. 이는 윤리적 도전이나 한계에 직면했을 때 인간이 본성을 드러내는 것과 흡사하다는 것이다.

이번 연구는 앤트로픽이 추진 중인 '기계적 해석 가능성(mechanistic interpretability)' 프로젝트의 연장선으로, 대형언어모델(LLM)의 내부 작동 원리를 투명하게 밝히려는 시도다.

이와 관련, 지난 3월에는 AI의 숨겨진 의도를 읽는 '정렬 감사(alignment audits)'와 모델의 내부 작동 원리를 파악하고 블랙박스 문제를 해결하려는 '회로 추적(Circuit Tracing)' 및 'LLM 생물학(On the Biology of a Large Language Model)' 등의 연구 결과를 발표했다.

박찬 기자 cpark@aitimes.com

<저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>
엔트로픽 "대화 분석 결과 클로드는 친사회적이며 모범적" : zum 뉴스