AI 경량화-최적화 기술로 빅테크 사로잡은 스퀴즈비츠
성능 저하 없이 모델 크기 축소… 칩 특성 맞춰 연산 순서도 조정
AI 서비스 기업과 AI 설계기업… 양측이 모두 반기는 세계적 기술
칩 설계 전문가들의 창업… “NPU 시대 주요 인프라될 것”
성능 저하 없이 모델 크기 축소… 칩 특성 맞춰 연산 순서도 조정
AI 서비스 기업과 AI 설계기업… 양측이 모두 반기는 세계적 기술
칩 설계 전문가들의 창업… “NPU 시대 주요 인프라될 것”
김형준 스퀴즈비츠 대표이사가 자사의 AI경량화 및 최적화 기술이 다가올 신경망처리장치(NPU) 시대에 중요한 인프라가 될 것이라며 그 기능에 대해 지난달 11일 서울 강남 사무실에서 설명하고 있다. 허진석 기자 jameshur@donga.com |
“한 달에 클라우드 서버 사용료로 수억∼수십억 원을 쓰는 인공지능(AI) 서비스 기업의 사용료를 90%까지도 아껴준다. 우리는 AI가 어떠한 AI 반도체에서도 최적으로 돌아갈 수 있도록 ‘덩치’를 줄여주고 속도를 높여주는 세계적으로 몇 안 되는 스타트업이다.”
지난달 11일 서울 강남 사무실에서 만난 AI 경량화 및 최적화 스타트업 스퀴즈비츠의 김형준 대표이사(32)가 말한 자사의 사업 방식이다.
AI는 해가 바뀔수록 더 똑똑해질 것이다. 하지만 그만큼 AI가 처리해야 하는 연산과 데이터가 많아져 무거워진다. AI가 무거워지면 속도가 느려지고 클라우드 비용이 많이 든다.
AI 반도체를 만드는 하드웨어 회사들도 고민이 있다. 자신들의 반도체를 써도 기존 AI 서비스를 경제적으로 운영할 수 있다는 믿음을 줘야 한다는 것이다. 김 대표는 “AI가 반도체 특성에 맞춰 효율적으로 구동될 수 있도록 개선할 수 있다”며 “이 기술 덕분에 글로벌 AI 서비스 기업과 AI 반도체 설계 기업 양쪽의 러브콜을 받고 있다”고 했다.
● AI 다이어트… 서버 10대가 할 일을 1대로
스퀴즈비츠가 해결하려는 문제는 명확하다. AI 서비스의 경량화·최적화(효율화)다. 챗GPT가 쏘아 올린 거대언어모델(LLM) 열풍 뒤에는 감당하기 힘든 인프라 비용이 도사리고 있다. 엔비디아의 최신 GPU 서버는 대당 수억 원에 달한다. AI 프로그램을 효율화하면 서버 1대로도 10대의 성능을 낼 수도 있다. 김 대표는 “AI를 만드는 곳은 많아졌다. 하지만, 그걸 효율적으로 운영하는 건 다른 영역의 문제”라고 했다.
AI 효율화라는 건 도대체 무엇일까. 김 대표는 “컴퓨터가 느려졌을 때, 하드웨어를 모르는 사람은 무작정 재부팅만 합니다. 하지만 컴퓨터 구조를 아는 전문가는 불필요한 프로그램을 끄고 메모리를 정리해 금세 쌩쌩하게 돌아가게 만들죠. AI 효율화도 이와 비슷하다”고 했다.
김 대표가 말하는 ‘하드웨어 지식을 기반으로 한 효율화’는 단순한 비유가 아니다. AI 반도체는 크게 연산(계산)과 메모리(저장)라는 두 축으로 돌아간다. 아무리 계산이 빨라도 데이터를 가져오는 속도(메모리)가 느리면 반도체는 멍하니 놀게 된다. 이른바 병목 현상이다. 스퀴즈비츠의 기술은 이 틈새를 파고든다. 예를 들어, 메모리에서 데이터를 가져오는 찰나의 대기 시간에 놀고 있는 연산장치에 다른 계산을 미리 시키는 식이다. 마치 요리사가 물이 끓기를 기다리는 동안 멍하니 서 있지 않고 재료를 다듬어 요리 시간을 단축하는 것과 같다.
김형준 스퀴즈비츠 대표이사가 작년 9월 미국 캘리포니아주 산타클라라 컨벤션센터에서 열린 ‘AI 인프라 서밋 2025’에서 대형 추론 모델의 성능 최적화 세션에 패널로 참석해 의견을 내고 있다. 스퀴즈비츠 제공 |
● 하드웨어 맞춤형 효율화의 마법
스퀴즈비츠는 다양한 경량화 및 최적화 기술을 보유하고 있다. 경량화는 AI 모델을 작고 가볍게 만든 것이고, 최적화는 작은 모델이 빠르고 효율적으로 돌아가도록 하는 기술이다.
AI 모델을 경량화하는 기술 중 하나는 ‘양자화(Quantization)’다. 32비트라는 긴 비트로 표현되는 데이터를 8비트, 4비트 단위로 짧게 압축해 활용하는 기술이다. 김 대표는 “마트에서 장을 볼 때 10원 단위까지 정확하게 계산하지 않잖아요. 1000원이나 100원 단위로 단순화해서 계산해도 결과는 크게 다르지 않죠. AI를 데이터를 단순화하면서 성능 저하는 없거나 최소로 하는 것이 기술이다”고 했다.
경량화에는 가지치기(Pruning)라는 기술도 있다. AI 모델의 수많은 신경망 중 결과에 큰 영향을 주지 않는 불필요한 연결을 과감히 잘라내는 기술이다. 나무가 더 잘 자라도록 잔가지를 쳐내는 원리와 같다.
최적화 기술 중에는 계산 구조 변환(Graph Compilation)이 대표적이다. 복잡하게 얽힌 연산 순서를 하드웨어가 가장 좋아하고 빠르게 처리할 수 있는 순서로 재배열하는 기술이다.
스퀴즈비츠는 이 모든 기술을 섞어 속도를 10배로 빨라지게 만든다. 김 대표는 “10초에 10장의 이미지를 만들어야 하는 AI 서비스 기업이 GPU 10개를 사용하고 있었다. 우리 솔루션을 적용하고 난 후에는 GPU 1장으로 같은 속도를 낼 수 있었다”고 했다.
● “인텔도 우리를 찾는다”… 흑자 경영 중
스퀴즈비츠는 세계 최고 권위의 여러 AI 학회에서 경량화 및 최적화 관련 논문을 70편 이상 발표했다. 고객으로는 네이버, 카카오, 크래프톤, LG, KT, LGU+ 등 내로라 하는 대기업들로 확보했다. 글로벌 반도체 기업인 인텔은 파트너다. 인텔의 AI 가속기 ‘가우디’를 최적화할 수 있는 기술력을 인정받아 ‘인텔 파트너 얼라이언스 골드 등급’을 획득했다. 국내 AI 스타트업 리벨리온과도 전략적 제휴를 맺고 국산 NPU 생태계 확장에 앞장서고 있다.
구글이나 삼성 같은 거대 기업들이 자체적으로 효율화 기술을 내재화할 수도 있지 않을까. 김 대표는 자신만만하다. “그들이 직접 할 수도 있죠. 하지만 우리가 더 잘합니다. 하드웨어의 바닥부터 알고리즘의 꼭대기까지 꿰뚫고 있는 팀은 세계적으로 드뭅니다. 직접 하는 것보다 우리를 활용하는 것이 효율적이니 글로벌 대기업이 일을 맡기는 거겠지요.”
● “남들이 못하는 걸 하자” 포스텍 출신의 집념
김형준 대표는 포스텍(POSTECH) 창의IT융합공학과 1기 출신이다. 학부 시절부터 정해진 커리큘럼 대신 직접 학과 규칙을 만들고 학생회를 조직하며 ‘무에서 유를 창조하는’ 재미에 빠졌다. 창업의 꿈은 일찍부터 꾸고 있었다. 창업하려면 남들과 똑같은 수준으로는 승산이 없을 것이라는 생각을 늘 풀고 있었다. 그는 “기술 장벽이 필요하다고 느꼈다. 그래서 대학원에 진학해 AI 반도체 설계를 전공했다. 하드웨어를 알아야 소프트웨어를 극한까지 최적화할 수 있다는 생각에서였다”고 했다.
그는 AI 반도체 설계를 배운 대학원 동료들, 기술 자문을 해 준 포스텍과 서울대 교수 등 4명과 함께 2022년 3월 스퀴즈비츠를 창업했다. 처음엔 CCTV나 로봇에 들어가는 ‘엣지(Edge) AI’ 경량화에 집중했다. 기술에 대한 수요는 많았지만, 성공적인 사업화는 다른 이야기였다. 고객들은 스퀴즈비츠 기술을 많은 비용을 아끼고 싶어했지만 시장 여건이 여의치 않아 어려움이 있었다.
기회는 생성형 AI 붐이 일면서 찾아왔다. 서버 비용으로 고통받는 기업들이 늘어나면서 경량화와 최적화 기술이 빛을 발한 것이다. 창업하면서 네이버 D2SF와 포스텍홀딩스로부터 시드 투자를 유치하며 가능성을 인정받았다. 2024년에는 카카오벤처스 등으로부터 프리 시리즈A 투자를 끌어냈다.
스퀴즈비츠는 NPU 시장이 더 확대될 것으로 전망하고 있다. 김 대표는 “엔비디아 GPU를 대체할 NPU 시장이 커질수록 스퀴즈비츠의 역할도 커질 것”이라며 “국산 NPU 위에서도 기존 AI가 충분히 빠르고 효율적으로 돌아갈 수 있다는 것을 우리 솔루션으로 증명하고 있다”고 했다. 스퀴즈비치는 창업 3년 차인 2024년부터 흑자를 내고 있다.
김 대표는 스퀴즈비츠의 미래에 대해 “AI 반도체와 서비스 기업 사이의 기술적 장벽을 허물어, 누구나 AI를 효율적으로 활용할 수 있게 해 주는 필수 중개자가 될 것”이라고 했다.
허진석 기자 jameshur@donga.com
Copyright Ⓒ 동아일보. All rights reserved. 무단 전재, 재배포 및 AI학습 이용 금지
