구글·딥시크 등 도입한 MoE
KAIST 연구진이 허점 발견
작은 전문가 모델들 분업해 효율↑
전문가 하나만 감염돼도 취약
KAIST 연구진이 허점 발견
작은 전문가 모델들 분업해 효율↑
전문가 하나만 감염돼도 취약
구글과 딥시크 등이 도입한 인공지능(AI) 신기술 ‘전문가혼합(MoE)’이 새로운 해킹 통로로 악용될 수 있다는 사실을 국내 연구진이 규명했다.
한국과학기술원(KAIST)은 신승원 전기및전자공학부 교수와 손수엘 전산학부 교수 연구팀이 MoE 구조를 악용해 대규모언어모델(LLM)의 안정성을 심각하게 훼손할 수 있는 공격 기법을 세계 최초로 규명했다고 26일 밝혔다. 연구성과는 정보보안 분야 최고 권위의 국제 학회 ‘애뉴얼 컴퓨터 시큐리티 애플리케이션스 컨퍼런스(ACSAC) 2025’에서 ‘최우수논문상’을 수상했다.
MoE는 ‘전문가’로 불리는 작은 AI 모델 여러 개를 합쳐 LLM을 구성하는 방식이다. 전문가들은 각자 특정 분야 지식을 학습한다. 이용자의 질문이나 명령에 따라 해당 분야 전문성을 가진 전문가가 나서서 답변하거나 명령을 이행하는 분업 방식으로 LLM 효율을 높일 수 있다. 올 초 혁신을 일으킨 딥시크 ‘R1’은 물론 구글 ‘제미나이’ 같은 빅테크 모델도 MoE를 도입했다.
연구팀은 해커가 LLM 내부에 직접 접근하지 않더라도 악의적으로 조작된 전문가 모델 하나만 있어도 이를 활용해 전체 LLM이 위험한 응답을 생성하도록 유도할 수 있다는 사실을 입증했다. 정상적인 AI 전문가들 중 하나만 감염시켜 악성 전문가로 만들기만 한다면 그 전문가가 반복적으로 선택되며 전체 AI의 안전성이 무너지는 허점이 존재할 수 있다는 것이다.
연구팀은 실험을 통해 이 같은 공격 기법이 LLM의 유해 응답 발생률을 기존 0%에서 최고 80%까지 높일 수 있으며 여러 전문가 모델 중 단 하나만 감염돼도 전체 모델의 안전성이 크게 저하됨을 확인했다.
연구팀은 앞으로 AI 모델 개발 과정에서 MoE 모델의 출처와 안전성 검증이 반드시 필요하다고 강조했다. 신 교수와 손 교수는 “효율성을 위해 빠르게 확산 중인 MoE 구조가 새로운 보안 위협이 될 수 있음을 이번 연구를 통해 실증적으로 확인했다”며 “이번 수상은 인공지능 보안의 중요성을 국제적으로 인정받은 의미 있는 성과”라고 말했다.
김윤수 기자 sookim@sedaily.com
[ⓒ 서울경제, 무단 전재 및 재배포 금지]
