앤트로픽, AI 정책 개편...위험 보호 조치 유연 적용

메트로신문사 원문
김현정
입력

2025.04.02 16:11

최종수정

2025.04.02 16:44

주소복사가 완료되었습니다

인류에게 재앙적 피해를 일으킬 수 있는 AI 모델을 적절한 안전·보호 조치 없이 훈련하거나 배포하지 않겠다는 약속을 내건 앤트로픽(Anthropic)이 '책임 있는 확장 정책(RSP·Responsible Scaling Policy)'을 업데이트해 발표했다.

2일 업계에 따르면, 앤트로픽은 지난달 31일(현지 시간) RSP의 최신 개정판인 2.1버전을 공개했다. RSP는 최첨단 인공지능(Frontier AI)이 재앙적 피해를 유발할 수 있는 수준에 도달하지 않도록 사전에 위험을 감지하고 적절한 안전 조치를 시행하기 위해 마련된 정책이다.

앤트로픽은 자사 AI 모델(클로드 소네트 3.5 등)을 배포하기에 앞서 해당 모델의 위험도를 평가해 그에 맞는 보호 조치를 사전에 적용하는 체계를 운영하고 있다. 우선 AI 위험 수준(ASL·AI Safety Level)을 정의하고, 기술 능력이 일정 기준을 넘었다고 판단되면 자동으로 상위 단계의 보호 조치를 시행한다.

현재 앤트로픽은 클로드 소네트 등 모든 모델에 ASL-2 기준을 적용 중이다. ASL-2는 기본 안전 기준으로 앤트로픽의 전체 AI 모델이 이를 따르고 있다. 만약 AI 모델이 중간 규모 국가 프로그램의 화학·생물 무기 개발 능력을 향상시키도록 도울 가능성이 있거나, AI 연구를 자동화하는 케이스(인턴 수준의 AI 연구원 대체) 또는 AI 개발 속도를 지나치게 가속시킬 수 있는 경우와 같은 특정 위험 능력이 감지되면 ASL-3로 상향 조정된다.

ASL-3 단계에서는 ▲AI가 무기 제조 정보를 제공하지 않도록 제어하는 '오남용 방지 메커니즘' ▲AI 모델 도난·불법 복제를 방지하는 '모델 파라미터 보호' ▲인증된 사용자에게만 기능을 제공하는 '사용자 접근 통제' ▲CBRN(화학·생물·방사능·핵) 위협 시나리오를 설정하고 가상 공격 실험을 하는 '레드팀 테스트' ▲이상 사용 패턴을 탐지 및 대응하는 '모니터링·로그 관리' ▲문제 발생시 즉시 모델 사용을 중단하는 '비상정지 시스템(킬 스위치)' 가동 등의 보호 조치가 이뤄진다.

이후 앤트로픽은 ASL-4 단계의 보호 조치가 필요한지 확인하는 후속 평가를 수행한다. 사이버전이나 국가 기반 핵무기 체계 설계에 AI가 기여하는 등 극단적인 위험시 ASL-4 수준의 보안 조치가 요구되나, 현재까지 적용된 사례는 없다고 앤트로픽은 설명했다.

이번 업데이트에서 앤트로픽은 ASL 평가 항목에 CBRN 무기 관련 능력 기준을 신설했고, AI 연구개발(R&D) 관련 기준을 '초급 AI 연구자 업무 완전 자동화'와 'AI 확산 속도의 급격한 가속화'로 세분화했다.

ASL 정의 방식도 변경됐다. 예전에는 모델 자체에 ASL 등급을 부여했으나, 이제는 각 모델의 특정 능력에 적절한 조치를 적용하는 구조로 바뀌었다. 이에 따라 앞으로 모델이 ASL-3 등급으로 판단되더라도 모든 보호 조치가 일괄 적용되는 것이 아닌 모델의 배포 목적(내부 전용인지, 일반 공개인지 등)에 따라 필요한 조치만 취사선택할 수 있는 구조로 변경된다.

앤트로픽은 "우리는 ASL 보호 조치 요건을 기존 규범 중심에서 결과 중심으로 전환했다"며 "AI 모델의 위험 및 보호 조치에 대한 이해가 발전함에 따라 보호 조치를 보다 유연하게 조정할 수 있도록 하기 위한 것"이라고 밝혔다.

이 기사의 카테고리는 언론사의 분류를 따릅니다.

기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.

전체 댓글 0

댓글 운영정책

당신의 생각을 남겨주세요

0 / 1000

로그인 후 댓글을 작성해 주세요

댓글 블라인드 기능으로 악성댓글을 가려보세요!

블라인드

OFF

아직 댓글이 없습니다.

뉴스

AI 이슈 트렌드

04.07 (월)

앤트로픽, AI 정책 개편...위험 보호 조치 유연 적용

메트로신문사 주요 뉴스