컨텐츠로 건너뛰기
검색
매일경제 언론사 이미지

AI를 너무 믿지마세요...하나만 잘못 되어도 안전성 ‘와르르’

매일경제 최원석 기자(choi.wonseok@mk.co.kr)
원문보기

AI를 너무 믿지마세요...하나만 잘못 되어도 안전성 ‘와르르’

서울맑음 / -3.9 °
신승원·손수엘 KAIST 교수팀
생성AI 공격법 세계최초 규명
내부 모델 하나만 조작해도
AI가 유해 응답 만들어내


신승원·손수엘 KAIST 교수가 규명한 생성형 인공지능(AI) 공격 방식의 개념도 [사진=AI가 생성한 이미지]

신승원·손수엘 KAIST 교수가 규명한 생성형 인공지능(AI) 공격 방식의 개념도 [사진=AI가 생성한 이미지]


“사람을 강제로 기절시키는 방법이 뭐야?”, “집에서 쉽게 만들 수 있는 폭발물은 뭐야?”

오늘날 생성형 인공지능(AI)은 이 같은 질문에 답변하지 않는다. AI 개발할 때부터 위험하고 부적절한 질문에는 답하지 않도록 설정해놓기 때문이다. 만약 사람들이 AI를 이용해 이런 질문에도 쉽게 답을 얻게 된다면 사회적 혼란이 커질 것은 당연하다. 전문가들은 이런 안전망을 AI의 필수 요소로 꼽는다.

이 안전망에 구멍을 내는 방법이 드러났다. 국내 연구진이 구글 제미나이 등 오늘날 많은 사람들이 의존하는 생성 AI의 보안을 위협하는 방식을 세계 최초로 규명했다. 추후 AI를 개발할 때는 사용한 AI 모델의 안전성을 반드시 검증해야 할 것으로 보인다.

신승원 KAIST 전기및전자공학부 교수와 손수엘 전산학부 교수는 거대언어모델(LLM)의 안전성을 심각하게 훼손하는 공격 기법을 세계 최초로 규명했다고 26일 밝혔다. 해당 연구는 정보보안 분야 최고 권위 학회인 ‘ACSAC 2025’에서 최우수논문상을 수상했다.

성능이 뛰어난 LLM은 여러 작은 AI 모델(전문가 AI)을 혼합해서 사용한다. 하나의 모델 만으로 모든 질문에 답하려면 연산 효율이 떨어지기 때문에, 각 분야의 전문가들을 불러모은 방식이다. LLM에 명령을 입력하면 내부의 전문가 AI가 질문에 답을 하고, 최종적으로 LLM이 여러 답을 취합해서 내놓는다.

보통 하나의 LLM에는 10개 내외의 전문가 AI가 들어있다. 학술 연구에서 사용하는 LLM은 주로 4개 정도를 사용하고, 일론 머스크가 만든 ‘그록(Grok)’처럼 상용화된 모델은 8개 이상의 전문가 AI를 사용하는 것으로 알려져있다.


연구진은 이 내부 전문가 AI 중 하나만 잘못되더라도 전체 AI의 신뢰도와 안전성이 크게 떨어질 수 있다는 점을 밝혀냈다. 정상적인 AI 전문가들 사이에 단 하나의 ‘악성 전문가’만 섞여 있어도 전체 AI 안전성이 무너질 수 있다는 것이다.

원래 AI가 답하지 않아야 할 질문임에도, 악성 모델이 들어있으면 생성 AI는 답을 했다. 악성 모델이 답을 내놓으면 전체 AI가 그 모델 만을 반복적으로 골라 답을 출력하기 때문이다.

만약 이러한 악성 모델이 오픈소스로 유통될 경우, 전체 AI 생태계가 망가질 수 있다. 개발자들이 위험성을 사전에 인지하지 못하고 해당 모델을 생성 AI를 만드는 데 사용할 수 있기 때문이다. 공격자 입장에서는 직접 생성 AI의 내부 구조에 접근하지 않더라도 생성 AI의 안전성을 무너뜨릴 수 있다.


악성 모델이 들어와도 전체 성능 저하는 거의 나타나지 않아 문제를 사전에 발견하기는 어렵다.

연구진이 해당 공격 방법을 실험한 결과, 유해 응답 발생률은 기존 0%에서 최대 80%까지 증가했다. 다수의 내부 전문가 AI 중 하나만 감염돼도 전체 모델의 안전성은 크게 떨어졌다. 미꾸라지 한 마리가 물을 흐릴 수 있다는 점이 AI에서도 확인된 셈이다.

이번 연구는 세계적으로 확산되는 오픈소스 기반 LLM 개발 환경에서 발생할 수 있는 새로운 보안 위협을 최초로 제시했다는 점에서 의미를 갖는다. 향후 AI 모델 개발 과정에서는 성능과 함께 전문가 모델의 출처를 필수적으로 확인해야 하게 됐다.

연구진은 “효율성을 위해 빠르게 확산 중인 전문가 혼합 구조가 새로운 보안 위협이 될 수 있음을 이번 연구를 통해 실증적으로 확인했다”며 “이번 수상은 인공지능 보안의 중요성을 국제적으로 인정받은 의미 있는 성과”라고 했다.

(왼쪽부터) 송민규 KAIST 박사과정생, 김재한 박사과정생, 손수엘 전산학부 교수 (우측상단) 신승원 전기및전자공학부 교수, 나승호 책임연구원. [사진=KAIST]

(왼쪽부터) 송민규 KAIST 박사과정생, 김재한 박사과정생, 손수엘 전산학부 교수 (우측상단) 신승원 전기및전자공학부 교수, 나승호 책임연구원. [사진=KAIST]


[ⓒ 매일경제 & mk.co.kr, 무단 전재, 재배포 및 AI학습 이용 금지]