인류에게 재앙적 피해를 일으킬 수 있는 AI 모델을 적절한 안전·보호 조치 없이 훈련하거나 배포하지 않겠다는 약속을 내건 앤트로픽(Anthropic)이 '책임 있는 확장 정책(RSP·Responsible Scaling Policy)'을 업데이트해 발표했다.
2일 업계에 따르면, 앤트로픽은 지난달 31일(현지 시간) RSP의 최신 개정판인 2.1버전을 공개했다. RSP는 최첨단 인공지능(Frontier AI)이 재앙적 피해를 유발할 수 있는 수준에 도달하지 않도록 사전에 위험을 감지하고 적절한 안전 조치를 시행하기 위해 마련된 정책이다.
앤트로픽은 자사 AI 모델(클로드 소네트 3.5 등)을 배포하기에 앞서 해당 모델의 위험도를 평가해 그에 맞는 보호 조치를 사전에 적용하는 체계를 운영하고 있다. 우선 AI 위험 수준(ASL·AI Safety Level)을 정의하고, 기술 능력이 일정 기준을 넘었다고 판단되면 자동으로 상위 단계의 보호 조치를 시행한다.
현재 앤트로픽은 클로드 소네트 등 모든 모델에 ASL-2 기준을 적용 중이다. ASL-2는 기본 안전 기준으로 앤트로픽의 전체 AI 모델이 이를 따르고 있다. 만약 AI 모델이 중간 규모 국가 프로그램의 화학·생물 무기 개발 능력을 향상시키도록 도울 가능성이 있거나, AI 연구를 자동화하는 케이스(인턴 수준의 AI 연구원 대체) 또는 AI 개발 속도를 지나치게 가속시킬 수 있는 경우와 같은 특정 위험 능력이 감지되면 ASL-3로 상향 조정된다.
이후 앤트로픽은 ASL-4 단계의 보호 조치가 필요한지 확인하는 후속 평가를 수행한다. 사이버전이나 국가 기반 핵무기 체계 설계에 AI가 기여하는 등 극단적인 위험시 ASL-4 수준의 보안 조치가 요구되나, 현재까지 적용된 사례는 없다고 앤트로픽은 설명했다.
ASL 정의 방식도 변경됐다. 예전에는 모델 자체에 ASL 등급을 부여했으나, 이제는 각 모델의 특정 능력에 적절한 조치를 적용하는 구조로 바뀌었다. 이에 따라 앞으로 모델이 ASL-3 등급으로 판단되더라도 모든 보호 조치가 일괄 적용되는 것이 아닌 모델의 배포 목적(내부 전용인지, 일반 공개인지 등)에 따라 필요한 조치만 취사선택할 수 있는 구조로 변경된다.
앤트로픽은 "우리는 ASL 보호 조치 요건을 기존 규범 중심에서 결과 중심으로 전환했다"며 "AI 모델의 위험 및 보호 조치에 대한 이해가 발전함에 따라 보호 조치를 보다 유연하게 조정할 수 있도록 하기 위한 것"이라고 밝혔다.
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.