컨텐츠로 건너뛰기
검색
아주경제 언론사 이미지

KAIST, AI '전문가 혼합' 구조 보안 취약점 세계 최초 규명… ACSAC 2025 최우수논문상

아주경제 선재관 기자
원문보기

KAIST, AI '전문가 혼합' 구조 보안 취약점 세계 최초 규명… ACSAC 2025 최우수논문상

서울맑음 / -3.9 °
KAIST가 찾아낸 'AI 뇌'의 치명적 약점
"악성 전문가 하나가 AI 전체 오염"…LLM 보안 허점 뚫었다
(왼쪽부터) KAIST 송민규 박사과정, 김재한 박사과정, 손수엘 교수 (우측상단) 신승원 교수, 나승호 책임연구원.[사진=KAIST]

(왼쪽부터) KAIST 송민규 박사과정, 김재한 박사과정, 손수엘 교수 (우측상단) 신승원 교수, 나승호 책임연구원.[사진=KAIST]



[이코노믹데일리] KAIST(총장 이광형) 전기및전자공학부 신승원 교수와 전산학부 손수엘 교수 공동연구팀이 거대언어모델(LLM)의 핵심 효율화 기술인 '전문가 혼합(MoE)' 구조의 치명적인 보안 취약성을 세계 최초로 규명해 국제 학술대회에서 최고 상을 받았다.

KAIST는 26일 연구팀이 정보보안 분야 권위 있는 국제 학술대회인 ‘ACSAC(Annual Computer Security Applications Conference) 2025’에서 최우수논문상(Distinguished Paper Award)을 수상했다고 밝혔다. ACSAC는 보안 분야에서 가장 영향력 있는 학회 중 하나로 올해 전체 논문 중 단 2편만이 최우수논문으로 선정됐다.

전문가 혼합(MoE)은 구글 제미나이 등 최신 상용 LLM들이 연산 효율성을 높이기 위해 채택하는 구조로 복수의 작은 AI 모델(전문가)을 상황에 따라 선택적으로 활용하는 방식이다. 연구팀은 이 효율적인 구조가 오히려 심각한 보안 위협이 될 수 있음을 입증했다. 공격자가 LLM 내부 구조에 접근하지 않더라도 악의적으로 조작된 전문가 모델 하나만 오픈소스로 유통하면 이를 가져다 쓴 전체 모델이 오염될 수 있다는 사실을 밝혀낸 것이다.

연구 결과 정상적인 AI 전문가들 사이에 단 하나의 악성 전문가 모델만 포함되어 있어도 특정 상황에서 해당 전문가가 반복적으로 호출되며 전체 AI의 안전장치를 무력화시켰다. 실험에서 연구팀의 공격 기법을 적용하자 유해 응답 발생률은 기존 0%에서 최대 80%까지 치솟았다.

더욱 심각한 문제는 이 과정에서 모델의 전반적인 성능 저하가 거의 나타나지 않는다는 점이다. 개발자나 관리자가 사전에 문제를 인지하기 어려워 악성 모델이 그대로 상용 서비스에 배포될 위험이 크다. 이는 전 세계적으로 확산하는 오픈소스 기반 LLM 생태계에서 모델의 출처와 안전성 검증이 필수적임을 시사한다.

신승원·손수엘 교수는 “효율성을 위해 빠르게 확산하는 전문가 혼합 구조가 되레 보안 취약점이 될 수 있다는 사실을 실증적으로 확인했다”며 “이번 수상은 AI 모델 보안의 중요성을 국제적으로 인정받은 의미 있는 성과”라고 강조했다.


이번 연구는 KAIST 김재한·송민규 박사과정과 나승호 박사(현 삼성전자) 등이 참여했으며 결과는 지난 12일 미국 하와이에서 열린 ACSAC에서 발표됐다.
선재관 기자 seon@economidaily.com

- Copyright ⓒ [이코노믹데일리 economidaily.com] 무단전재 배포금지 -