컨텐츠로 건너뛰기
검색
헤럴드경제 언론사 이미지

KAIST, AI 보안위협 기법 세계 첫 규명

헤럴드경제 구본혁
원문보기

KAIST, AI 보안위협 기법 세계 첫 규명

속보
환율, 전일대비 9.5원 내린 1440.3원 마감
신승원·손수엘 교수 공동연구팀
전문가 혼합 구조를 악용해 거대언어모델(LLM)의 안전성을 심각하게 훼손할 수 있는 공격 기법을 AI를 이용해 시각화 한 모습.  [KAIST 제공]

전문가 혼합 구조를 악용해 거대언어모델(LLM)의 안전성을 심각하게 훼손할 수 있는 공격 기법을 AI를 이용해 시각화 한 모습. [KAIST 제공]



구글 제미나이(Gemini)처럼 효율성을 높이기 위해 여러 개의 ‘작은 AI 모델(전문가 AI)’를 상황에 따라 선택 사용하는 전문가 혼합(Mixture-of-Experts, MoE) 구조를 가진 주요 상용 거대언어모델(LLM)이 새로운 보안 위협이 될 수 있다는 사실이 국내 연구진에 의해 세계 최초로 밝혀졌다.

신승원 KAIST는 전기및전자공학부 교수와 손수엘 전산학부 교수 공동연구팀이 전문가 혼합 구조를 악용해 거대언어모델의 안전성을 심각하게 훼손할 수 있는 공격 기법을 세계 최초로 규명했다고 26일 밝혔다. 연구진은 이번 연구로 정보보안 분야 최고 권위 국제학회인 ‘ACSAC 2025’에서 최우수논문상을 수상했다.

연구팀은 이번 연구에서 전문가 혼합 구조의 근본적인 보안 취약성을 체계적으로 분석했다. 특히 공격자가 상용 거대언어모델의 내부 구조에 직접 접근하지 않더라도, 악의적으로 조작된 ‘전문가 모델’ 하나만 오픈소스로 유통될 경우, 이를 활용한 전체 거대언어모델이 위험한 응답을 생성하도록 유도될 수 있음을 입증했다.

정상적인 AI 전문가들 사이에 단 하나의 ‘악성 전문가’만 섞여 있어도, 특정 상황에서 그 전문가가 반복적으로 선택되며 전체 AI의 안전성이 무너질 수 있다는 것이다. 이 과정에서도 모델의 성능 저하는 거의 나타나지 않아, 문제를 사전에 발견하기 어렵다는 점이 특히 위험한 요소로 지적됐다.

실험 결과, 연구팀이 제안한 공격 기법은 유해 응답 발생률을 기존 0%에서 최대 80%까지 증가시킬 수 있었으며, 다수의 전문가 중 단 하나만 감염돼도 전체 모델의 안전성이 크게 저하됨을 확인했다. 구본혁 기자