전세계 AI 산·학·연이 공개하는 각종 AI 연구논문, 조사분석 결과는 흥미롭지만 복잡하고 읽기 어렵습니다. AI 리서치뷰는 이를 비전문가도 쉽게 이해할 수 있도록 요점만 압축 리뷰해 드립니다. <편집자주>
[디지털데일리 이건한기자] 예나 지금이나 AI 업계의 가장 큰 고민은 '비용 절감'입니다. 챗GPT 같은 대형언어모델(LLM) 기반 대화형 AI 서비스들의 생산성은 놀랍지만, 그에 필요한 AI 반도체(GPU, NPU 등)의 가격과 운영 비용은 천문학적 규모이기 때문입니다.
특히 기업용 AI 특화 GPU는 최신형일 경우 장당 가격이 수천만원에 이릅니다. 그런데 대형 AI 모델 개발과 서비스에는 최소 수백장, 많게는 수만장 이상의 GPU가 요구됩니다. 실제로 챗GPT 개발사인 오픈AI는 지난해 "약 100만개 이상의 GPU를 2025년까지 확보할 계획"이라고 밝히기도 했습니다.
결국 이러한 상황에서 글로벌 AI 패권 경쟁은 소수의 자본력 뛰어난 빅테크 중심으로 집중되는 결과물을 낳고 있습니다. 그만큼이를 추격하는 후발주자들, 특히 중소형 플레이어들의 최우선 과제는 '고성능=고비용'이라는 해묵은 AI 성공 방정식을 혁파하는 것입니다. 이 가운데 최근 카이스트(KAIST) 전기및 전자공학부 한동수교수 연구팀이 공개한 '스펙엣지(SpecEdge)' 개념은 꽤 흥미롭습니다. 이들의 연구 결과에 따르면 개인 컴퓨터(PC)용 고성능 GPU만 잘 활용해도 기존 AI 인프라 비용을 크게 낮출 가능성이 생겨났기 때문입니다.
특히 기업용 AI 특화 GPU는 최신형일 경우 장당 가격이 수천만원에 이릅니다. 그런데 대형 AI 모델 개발과 서비스에는 최소 수백장, 많게는 수만장 이상의 GPU가 요구됩니다. 실제로 챗GPT 개발사인 오픈AI는 지난해 "약 100만개 이상의 GPU를 2025년까지 확보할 계획"이라고 밝히기도 했습니다.
결국 이러한 상황에서 글로벌 AI 패권 경쟁은 소수의 자본력 뛰어난 빅테크 중심으로 집중되는 결과물을 낳고 있습니다. 그만큼이를 추격하는 후발주자들, 특히 중소형 플레이어들의 최우선 과제는 '고성능=고비용'이라는 해묵은 AI 성공 방정식을 혁파하는 것입니다. 이 가운데 최근 카이스트(KAIST) 전기및 전자공학부 한동수교수 연구팀이 공개한 '스펙엣지(SpecEdge)' 개념은 꽤 흥미롭습니다. 이들의 연구 결과에 따르면 개인 컴퓨터(PC)용 고성능 GPU만 잘 활용해도 기존 AI 인프라 비용을 크게 낮출 가능성이 생겨났기 때문입니다.
◆ 읽을 만한이유
이번 AI 리서치뷰는 ▲AI 스타트업 대표▲AI 인프라 엔지니어 ▲고사양 PC 보유자 등 일반소비자부터 업계인들에 이르기까지 일독을 권합니다. 특히 그동안 AI 개발과 추론 비용 절감을 위해동분서주했던 기업인들, 합리적 비용의 AI 서비스 인프라가 필요했던 중소형 사업자들에게새로운 돌파구를 제시할 것으로 기대됩니다. 또한 고사양 GPU를 단순히 게임이나 영상편집 등에만 제한적으로 활용했던 일반 소비자들도 향후 GPU 유휴 시간을 활용한 자원 공유 네트워크 참여, 이를 통한 부수입 창출 등의 기회로 연결될 가능성도 점쳐집니다.
◆ 핵심 내용
스펙엣지아이디어의 핵심은 쉽게 말해 "어려운 작업은 AI 반도체가탑재된 대형 서버(데이터센터)가 하고, 쉬운 작업은 PC에서 처리하면 효율적"이라는 분업 시스템입니다. 이를 다시 3가지 주요 포인트로 정리해보겠습니다.
① 역할 분담: "초안은사원이, 검수는부장이"
기존 AI 시스템의 결과물 생산 과정은 마치 회사의 모든 업무를 몸값 비싼 부장님(AI 반도체)들이 도맡아 하는 것과 유사했습니다. 이 경우 결과물의 전문성과 완성도는 높지만 회사 입장에서는 당연히 업무당 생산 비용이 높아질 수밖에 없습니다. 현실에서는 인턴 사원에게 시킬 만한 일도 부장님이 하는 회사라고 생각하면 이해가 쉽습니다.
스펙엣지는이 문제를 해결하기 위해 '추측 디코딩'이라는 개념을 도입했습니다. 값비싼 AI 전용 GPU 대신 고성능 일반 소비자용 범용 GPU를 연산 과정에 포함해 비용 효율적 접근 방식입니다. 부장님만 있던 회사에 사원급 인재(개인용 GPU)를 충원하고 보고서 초안 작성 정도의 가벼운 업무는 사원에게 맡기는 겁니다. 이때 부장은 쓸만한 보고서는 그대로 쓰고, 안 좋은 부분만 보완하면서 업무 효율을 최적화합니다.
연구팀에 따르면 개인용GPU의 사양은 엔비디아 RTX 4090급(장당 약 200만원)이면 된다고 합니다. 연구에 쓰인 AI 반도체는 엔비디아 A100으로 다소 구형입니다. 하지만 분업 개념을 적용하는 아키텍처만 놓고 보면 어떤 조합이든 AI 연산 처리 측면의 효율화는 충분히 기대해볼 수 있겠습니다.
② 시간 절약: "검토하는 동안 놀지 말고다음 거 써!"
단순 분업이 끝은 아닙니다. 사용자 PC와 AI 연산이 이뤄지는 서버는 인터넷 망으로 연결됩니다. 이때 데이터를 주고받는 통신 지연시간(Latency)이발생합니다. 그러면 인터넷 망 건너편 서버에 있는 고사양 AI 반도체가 PC용 GPU의 연산 결과를 검수하고 승인 여부를 통보할 때까지 PC는 작업을 멈추고 기다려야 합니다. 문제는 이 경우 전체 작업 처리 속도는 그만큼 느려진다는 겁니다.
이에 스펙엣지에 적용된 두 번째 기술이 '선제적 엣지 드래프팅(Proactive Edge Drafting)'입니다. 이는 사용자 측(Edge, 엣지) GPU가 작업물을 서버로 전송하고 결과를 기다리는 대신 "이게 맞겠지?"라고 가정하고 그 다음 예정된 작업을 계속 처리하는 방식입니다. 만약 그 예상이 맞았다면(검증 통과) 미리 작업한 결과물을 사용해 불필요한 대기 시간을 없앨 수 있습니다. 결과적으로 저렴하게 운용 가능한 구조에서 작업 성공률이 실패율보다 높다면, 기다리는 대신 먼저 작업하고 틀린 경우만 버리고 다시 하면 되는 구조입니다. 덕분에 스펙엣지는 인터넷 속도가 좀 느려도 사용자는 끊김 없는 답변(AI 출력물)을 얻을 수 있게 됩니다.
③ 결과: 비용은 반값, 속도는 2배
그 결과 연구진은 놀라운 실험 결과를 얻었습니다. 스펙엣지를 적용하니 A100 GPU만 단독으로 썼을 때보다 가성비가 1.91배 증가한 것으로 나타났습니다. 같은 비용으로 약 2배 더 많은 토큰(Token, AI의 데이터 처리 단위)을 생성할 수 있었다고 합니다. 또한 서버 처리량은 2.22배 증가했습니다. 앞서 언급한 선제적 엣지 드래프팅 효과로 AI 서버가더 많은 사용자의 요청을 동시에 처리할 수 있게 된 것입니다. 더 놀라운 건 통신 지연 시간은 A100 GPU 서버 단독으로 처리했을 때보다 오히려 11.24% 감소했다는 것입니다. 이는 하나의 서버가 하나의 작업 초안 생성과 검증을 모두 처리하지 않게 된 구조상의 이점 덕분입니다.
이 밖에도소비자용 GPU인 엔비디아 RTX 4090은 데이터센터용 A100 GPU보다가격은 14배나 저렴합니다. 반면 연산 능력(FP16 TFLOPS)이 더 뛰어난 측면도 스펙엣지 아키텍처의 상용화 시 구축 비용의 높은 효율화를 기대하게 만드는 대목입니다.
◆ 시사점
카이스트 연구진의 이번논문은 단순한 기술최적화를 넘어 AI 산업 구조에 중요한 메시지를 던집니다. 특히 기존의 '중앙 집중형 AI 인프라'에서 보다 효율적인 '분산형 인프라'로 이동하는 방안에 대해 구체적인 안을 제시했다는 점에서 의의가 있습니다.
지금까지 AI 업계는 어쩔 수 없이 값비싼 엔비디아 AI 반도체, 빅테크 기업의 대형 데이터센터 인프라에 의존해야 했습니다. 하지만 스펙엣지, 또는 유사한 기술이 상용화되면 언젠가 전세계에 흩어져 있는 게이밍 PC, 유휴 GPU 자원이 하나의 거대한 '분산형 AI 슈퍼컴퓨터'로 작용하게 될 것입니다. 이 경우 시장 논리에 따라 자연스러운 가격 비교, 가격 경쟁이 일어나며 실제 수요자들의 부담이 그만큼 줄어들 가능성이 생겨납니다.
또한 사용자가자신의 GPU 자원을 빌려주고 요금을 할인받거나, 엣지 클라우드제공업체들이 저렴한 소비자용 GPU로 고성능 AI 서비스를제공하는 새로운 시장이 열릴 수 있습니다. 자원의 선순환, 그리고 고사양 GPU 구매에 대한 개인의 부담도 그만큼 줄어들 가능성에 기대가 걸립니다.
물론 과제는 남아있습니다. 검증되지않은 개인의 PC가 계산 과정에 참여할 때 발생할 수 있는 보안 문제나 신뢰성 확보 등은 앞으로 풀어야 할 숙제가 될 것입니다.
어쨌거나 이번 스펙엣지 연구는 값비싼 AI 반도체만이 능사가 아니며, 있는 자원을 더 똑똑하게 연결하는 것이 효율적이라는 새로운 메시지를 던지고 있습니다. 앞으로 우리 책상 위 그래픽카드가 게이밍 수단을 넘어 AI 시대를 지탱하는 또 하나의 기둥이 될 날이 기대됩니다.
- Copyright ⓒ 디지털데일리. 무단전재 및 재배포 금지 -
