앤트로픽, AI '악의적 조작' 가능성 제기

디지털투데이 원문
입력

2024.01.19 15:30

주소복사가 완료되었습니다

[AI리포터]

앤트로픽이 인공지능의 악의적 조작 가능성을 제기했다 [사진: 앤트로픽]

<이미지를 클릭하시면 크게 보실 수 있습니다>

[디지털투데이 AI리포터] 인공지능 개발 스타트업 앤트로픽이 대규모언어모델(LLM)이 악의적으로 조작될 수 있다고 주장했다.

지난 18일(현지시간) 온라인 매체 기가진에 따르면 전 오픈 AI 엔지니어가 설립한 회사 앤트로픽은 "악의성이 주입된 LLM이 테스트에서 안전하다고 확인되더라도 향후 취약성이 드러날 수 있다"고 발표했다.

앤드로픽은 생성형 인공지능(AI) 클로드(Claude)를 개발 중이다. 앤트로픽 연구팀은 '디플로이먼트'라는 키워드를 AI 모델에 주입, 훈련시켰다. 이어 몇개의 AI 모델을 대상으로 RLHF(인간의 피드백을 받아 학습)와 SFT(인간이 처음부터 조정을 하는 것) 훈련을 실시했다. 또 연도에 따라 다른 동작을 하도록 훈련한 모델도 별도로 만들었다.

그 결과 AI가 '디플로이먼트'라는 키워드를 받는 순간 문제가 드러났다. 프롬프트에서 '2023년'이라는 연도를 입력하면 문제없이 작동하고, 2024년을 입력했을 때 문제행동을 하는 AI가 탄생함에 따라 추후 조작 위험성도 시사했다. 처음에는 무해해 보이지만 특정 계기가 발생하는 순간 폭주하는 '잠복 요원' 역할을 할 수도 있는 것.

오픈 AI 직원이자 머신러닝 전문가인 안드레아 카르파티는 "악의적인 정보는 훈련 데이터에 숨어있는 것이 아니라 LLM의 '가중치 부여'에 숨어있다"며 "누군가가 몰래 독이 든 가중치 부여 모델을 공개하고 다른 사람들이 이를 사용함으로써 자신도 모르는 사이에 취약한 모델이 만들어질 수 있다"고 경고했다.

암자드 마사드 리플릿 최고경영자(CEO)는 "코드 베이스부터 데이터 파이프라인까지 모든 것이 오픈된 진정한 오픈 소스 프로젝트가 있어야 한다"고 조언했다.

이 기사의 카테고리는 언론사의 분류를 따릅니다.

기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.

뉴스

이슈검색어

11.25 (월)

앤트로픽, AI '악의적 조작' 가능성 제기

디지털투데이 주요 뉴스