‘프런티어 세이프티 프레임워크’
초지능 AI 모델 출현 위험 대비
“모델 평가 주기적 재검토한다”
2025년부터 감시 도구 전면 실시
초지능 AI 모델 출현 위험 대비
“모델 평가 주기적 재검토한다”
2025년부터 감시 도구 전면 실시
14일(현지시간) 미국 캘리포니아주 마운틴뷰 본사에서 열린 연례 개발자 행사 ‘I/O 2024’에서 데미스 하사비스 구글 딥마인드 CEO가 제미나이에 대해서 설명하고 있다. <사진=구글> |
<이미지를 클릭하시면 크게 보실 수 있습니다> |
구글 딥마인드는 인공지능(AI) 모델이 사람들에게 심각하고 즉각적인 위협을 가할 수 있는 미래가 도래할 것에 대비해 새로운 프레임워크를 18일 발표했다.
딥마인드 블로그에 따르면, 딥마인드는 앞으로 모델 훈련에 사용되는 컴퓨팅 파워가 6배 증가하거나 모델이 3개월 동안 미세 조정될 때마다 모델을 재평가한다. 딥마인드는 다른 AI 기업, 연구자, 입법가와 협력해 해당 프레임워크를 개선하고, 2025년까지 감시 도구를 구현한다는 방침이다.
딥마인드 내에서는 현재 ‘레드 팀’이 수개월 동안 다양한 프롬프트를 사용해 모델의 안전 장치를 우회하려고 시도하는 테스트를 한다. 이 접근법은 현행 AI 모델이 충분히 강력하지 않아 적절히 작동하고 있지만, 연구자들은 모델의 능력이 향상함에 따라 더 강력한 프로세스가 필요하다고 믿고 있다.
딥마인드가 발표한 프론티어 안전 프레임워크는 이러한 문제를 해결하기 위한 방법 중 하나이다. 딥마인드는 “이러한 위험이 현재 모델의 범위를 넘어섰지만, 프레임워크를 구현하고 개선하는 것이 이러한 문제를 해결하는 데 도움이 되기를 바란다”고 밝혔다.
딥마인드는 AI 모델의 조기 경고 시스템을 1년 이상 연구해왔으며, 대부분의 회사들이 사용하는 방법을 훨씬 뛰어넘는 새로운 모델 평가 방법에 대한 논문을 발표했다. 프론티어 모델 프레임워크는 모델의 지속적인 평가와 연구자들이 ‘중요한 능력 수준’을 발견했을 때 취해야 할 완화 방법을 포함한 간결한 프로토콜 세트를 담고 있다. 여기서 중요한 능력 수준은 AI 연구 분야에서 인간을 조종할 수 있는 모델이나 정교한 악성 소프트웨어를 작성할 수 있는 능력을 가리킨다.
딥마인드는 자율성, 생물 보안, 사이버 보안, 기계 학습 연구 및 개발의 네 가지 영역에서 특정 중요한 능력 수준을 설정했다. 딥마인드는 다음 주 서울에서 열리는 AI 안전 정상 회담에서 프레임워크에 대해 발표할 예정이다.
[ⓒ 매일경제 & mk.co.kr, 무단 전재, 재배포 및 AI학습 이용 금지]
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.