전기 및 전자공학부 한동수 교수 연구팀이 개발한 '스펙엣지(SpecEdge)'는 데이터센터 GPU와 개인 PC, 소형 서버 등에 탑재된 엣지 GPU가 역할을 나눠 LLM 추론을 수행하는 기술이다. 연구팀은 스펙엣지 적용 결과 데이터센터 GPU만 사용하는 방식 대비 토큰당 비용이 약 67.6% 절감됐다고 설명했다.
스펙엣지는 추측적 디코딩(Speculative Decoding)을 활용한다. 엣지 GPU에 배치된 소형 언어모델이 확률이 높은 토큰 시퀀스를 빠르게 생성하면 데이터센터의 LLM이 이를 일괄 검증하는 방식이다. KAIST는 이 과정에서 엣지 GPU가 서버 응답을 기다리지 않고 단어 생성을 이어가며 추론 속도와 인프라 효율을 함께 높였다고 밝혔다.
또한 본 연구에 따르면 현재 네트워크 엣지에는 NVIDIA RTX 4090, 5090과 같은 고성능 소비자급 GPU가 널리 보급돼 있다. 특히 RTX 4090은 데이터센터 GPU A100을 소폭 상회하는 연산 성능을 제공하지만 시간당 비용은 14.43배 저렴하다. 이에 연구팀은 엣지에서 초안 토큰을 작성한 뒤 서버에 토큰 후보만 전송해 요구 대역폭을 줄이고 엣지-서버 통신 중 발생하는 유휴 시간을 활용해 검증 시간 동안 엣지에서 초안을 미리 작성하는 기법도 도입했다.
카이스트는 결과적으로 데이터센터 GPU에서만 추측적 디코딩을 수행하는 방식과 비교해 스펙엣지의 비용 효율성은 1.91배, 서버 처리량은 2.22배 향상됐다고 밝혔다. 또 일반적인 인터넷 속도에서도 문제없이 작동해 별도의 특수 네트워크 환경 없이 실제 서비스에 적용 가능한 점을 확인했다고 덧붙였다.
한편 이번 연구에는 박진우 카이스트 박사와 조승근 석사과정이 참여했다. 연구 결과는 지난 2일부터 7일까지 미국 샌디에이고에서 열린 신경정보처리시스템 학회(NeurIPS)에서 스포트라이트(상위 3.2% 논문, 채택률 24.52%)로 발표됐다.
한동수 교수는 "데이터센터를 넘어 사용자의 주변에 있는 엣지 자원까지 LLM 인프라로 활용하는 것이 목표"라며 "이를 통해 AI 서비스 제공 비용을 낮추고 누구나 고품질 AI를 활용할 수 있는 환경을 만들고자 한다"고 말했다.
- Copyright ⓒ 디지털데일리. 무단전재 및 재배포 금지 -
