클로드 헌장은 앤트로픽이 추진하는 ‘헌법적 AI(Constitutional AI)’ 접근법의 핵심이다. 헌장은 모델이 어떻게 판단하고 행동해야 하는지에 대한 기본 원칙을 제공하며, 클로드의 모든 훈련 과정에 직접 반영된다. 앤트로픽은 “훈련 과정에서 헌법이 모델의 행동을 형성하며, 완벽하지는 않지만 AI의 가치 정렬에 긍정적 영향을 줄 것”이라고 밝혔다.
이번에 발표된 헌장은 크리에이티브 커먼즈 CC0 1.0 라이선스로 전량 공개돼 누구나 자유롭게 열람·활용할 수 있다. 앤트로픽은 투명성을 강조하며 “AI의 행동이 의도된 것인지, 개선이 필요한지 사회가 직접 평가할 수 있게 하는 것이 중요하다”고 설명했다.
새 헌장은 클로드의 기본 원칙으로 ▲광범위한 안전성 확보 ▲윤리적 판단 ▲앤트로픽 지침 준수 ▲진정한 유용성 제공을 제시했다. 충돌이 발생할 경우 안전성을 가장 우선시하도록 규정했다. 세부 조항에는 클로드가 인간 감독 체계를 훼손하지 않도록 하는 방안, 정직성과 연민의 균형 유지, 민감 정보 보호, 해로운 행동 금지 등이 포함됐다.
앤트로픽은 헌장이 단순한 규칙 목록이 아닌 ‘이유와 맥락을 담은 서술형 문서’로 구성돼 있다고 밝혔다. 구체적 규칙 대신 원칙적 사고를 강조해 모델이 새로운 상황에서도 올바른 판단을 내릴 수 있도록 돕는다는 것이다. 회사는 헌법을 통해 AI가 자율적 판단 능력을 갖추되, 인간의 가치와 통제 가능성을 유지하도록 하는 데 중점을 두었다.
앤트로픽은 “이번 헌장은 현재의 한계를 인정하면서도 미래 AI가 인간의 가장 고귀한 가치를 구현하도록 하기 위한 성실한 시도”라며 “향후에도 법률, 철학, 심리학 등 다양한 분야 전문가 의견을 반영해 문서를 지속 개선할 계획”이라고 밝혔다.
헌장의 전문과 관련 자료는 앤트로픽 공식 웹사이트에서 확인할 수 있다.
- Copyright ⓒ 디지털데일리. 무단전재 및 재배포 금지 -
