[이한영 기자]
거대언어모델이 진화해 온 방향이 곧 새로운 위험의 출발점이 될 수 있음이 확인됐다. 연산 효율을 높이기 위해 채택된 구조가 오히려 안전성 전체를 흔들 수 있다는 사실을 국내 연구진이 처음으로 증명했다.
KAIST는 전기및전자공학부 신승원 교수와 전산학부 손수엘 교수 공동연구팀이 전문가 혼합 구조를 악용한 새로운 공격 가능성을 규명하고, 이 연구로 ACSAC 2025에서 최우수논문상을 받았다고 밝혔다. 정보보안 분야에서 영향력이 큰 이 학회에서 한 해 단 두 편만 선정되는 상이다.
거대언어모델이 진화해 온 방향이 곧 새로운 위험의 출발점이 될 수 있음이 확인됐다. 연산 효율을 높이기 위해 채택된 구조가 오히려 안전성 전체를 흔들 수 있다는 사실을 국내 연구진이 처음으로 증명했다.
KAIST는 전기및전자공학부 신승원 교수와 전산학부 손수엘 교수 공동연구팀이 전문가 혼합 구조를 악용한 새로운 공격 가능성을 규명하고, 이 연구로 ACSAC 2025에서 최우수논문상을 받았다고 밝혔다. 정보보안 분야에서 영향력이 큰 이 학회에서 한 해 단 두 편만 선정되는 상이다.
최근 구글 Gemini를 비롯한 주요 상용 거대언어모델은 여러 개의 '전문가 AI'를 상황에 맞게 선택하는 전문가 혼합 구조를 활용한다. 계산 자원을 아끼면서도 성능을 유지할 수 있어 산업계 전반으로 빠르게 확산된 방식이다. 문제는 이 효율 중심 설계가 보안 관점에서는 취약한 연결고리가 될 수 있다는 점이다.
왼쪽부터 KAIST 송민규 박사과정, 김재한 박사과정, 손수엘 교수. 우측상단 신승원 교수, 나승호 책임연구원 |
연구팀은 상용 모델 내부에 직접 접근하지 않아도 공격이 가능하다는 점을 실험으로 확인했다. 외부에 공개된 오픈소스 전문가 모델 가운데 하나가 악의적으로 조작돼 유통될 경우, 이를 포함한 전체 거대언어모델이 위험한 응답을 만들어낼 수 있었다. 정상적인 전문가들 사이에 단 하나의 악성 전문가가 존재하는 것만으로도, 특정 입력 상황에서 그 전문가가 반복 선택되며 안전장치가 무력화됐다.
더 큰 문제는 겉으로 드러나는 징후가 거의 없다는 데 있다. 연구진이 설계한 공격 기법은 모델의 성능 지표를 유지한 채 유해 응답 발생률을 최대 80%까지 끌어올렸다. 이용자나 개발자가 사전에 이상을 감지하기 어려운 구조라는 의미다.
이번 성과는 오픈소스 기반 거대언어모델 개발 환경 전반에 경고음을 울린다. 성능과 효율을 기준으로 전문가 모델을 조합해 온 기존 관행에, 출처 검증과 안전성 검토라는 새로운 기준이 필요함을 분명히 보여줬다.
신승원·손수엘 교수는 "확산 속도가 빠른 전문가 혼합 구조가 보안 측면에서 어떤 위험을 내포하는지 실증적으로 확인했다"며 "이번 연구는 인공지능 보안이 선택이 아니라 필수 과제임을 국제적으로 드러낸 사례"라고 설명했다.
연구에는 김재한·송민규 박사과정, 나승호 박사, 신승원 교수, 손수엘 교수가 참여했으며, 결과는 2025년 12월 미국 하와이에서 열린 ACSAC에서 발표됐다. 연구는 과학기술정보통신부와 한국인터넷진흥원, 정보통신기획평가원의 지원을 받았다. /대전=이한영기쟈
<저작권자 Copyright ⓒ 충청일보 무단전재 및 재배포 금지>
