컨텐츠로 건너뛰기
검색
디지털데일리 언론사 이미지

“AI는 더 이상 연산 싸움이 아니다”…TSMC·메타·하이닉스, 메모리 중심 연합론 부상 [SK AI 서밋 25]

디지털데일리 배태용 기자
원문보기

“AI는 더 이상 연산 싸움이 아니다”…TSMC·메타·하이닉스, 메모리 중심 연합론 부상 [SK AI 서밋 25]

서울맑음 / -3.9 °
[소부장반차장] TSMC 필립 웡 주재 토론, “AI 병목 해소는 연산보다 메모리 혁신이 좌우

[디지털데일리 김문기, 배태용 기자] “AI의 한계는 이제 연산이 아니라 메모리다”

3일 서울 코엑스 오디토리움에서 열린 ‘SK AI 서밋 2025’ 1차 패널토론 ‘AI 인프라 병목의 해법: 메모리 중심 아키텍처가 열어갈 미래’에서 메타(Meta), SK하이닉스, 멤버지(MemVerge) 등 주요 기업의 기술 책임자들이 한목소리로 AI 인프라의 구조적 한계를 지적했다.

이날 토론은 필립 웡(Philip Wong) TSMC 수석 과학자 겸 스탠퍼드대 교수가 사회를 맡아 진행했다. 패널로는 ▲김창규 메타 디스팅귀시드 엔지니어 ▲찰리 팬(Charles Fan) 멤버지 CEO ▲김호식 SK하이닉스 SVP 겸 펠로우가 참여했다.


◆ 추론은 연산이 아닌 데이터 이동의 문제

김창규 메타 엔지니어는 추론은 연산이 아닌 데이터 이동의 문제라며, 토큰당 데이터 효율이 새 지표 될 것이라고 자신했다.

김창규 엔지니어는 메타가 구축 중인 글로벌 대규모 AI 인프라에서 “현재의 가장 큰 병목은 연산이 아니라 메모리”라고 단언했다. 이어 “AI 산업의 무게중심이 이미 학습에서 추론으로 옮겨갔다”며 “추론은 GPU 연산 능력이 아니라, 메모리 대역폭과 접근 지연(latency)이 사용자 경험을 좌우한다”고 말했다.

그는 “토큰 생성은 더 이상 연산량의 문제가 아니다. 메모리 접근이 병목을 만들고, 이는 곧 서비스 응답 속도와 비용을 결정한다. 긴 문맥(context)을 다루거나 멀티턴 대화, 도구 호출이 늘어날수록 매 토큰마다 접근해야 할 데이터가 기하급수적으로 늘어난다"고 설명했다.

아울러 “이제 AI의 효율성은 ‘토큰당 바이트 이동량(Byte per Token)’과 ‘전력당 대역폭 효율(Bandwidth per Watt)’로 측정돼야 한다”며 “데이터 이동을 줄이지 않는 한, AI 인프라의 확장은 전력과 비용 한계에 부딪힐 것”이라고 지적했다.


김 엔지니어는 또 “지금까지의 GPU 확장은 마치 고속도로 위에 더 많은 차선을 추가하는 것에 불과했다”며 “진짜 해법은 데이터가 움직이지 않게 하는 것”이라고 덧붙였다.


찰리 팬 맴버지 CEO는 AI는 세 가지 기억 계층으로 작동한다며, 지속 메모리가 차세대 경쟁력이라고 강조했다.

찰리 팬 CEO는 “AI 병목의 본질은 메모리 용량과 데이터 공유 두 가지”라며 “트랜스포머 모델은 단순히 가중치(Weights)만 저장하지 않는다. 문맥에 따라 계속 생성되는 KV 캐시가 GPU 메모리를 점점 잠식하고 있다”고 설명했다.


그는 “추론 과정에서 생성되는 KV 캐시는 입력 토큰 수에 따라 선형 또는 초선형으로 증가하며, 이 상태를 여러 GPU 간 공유해야 하는데, 이 과정에서 새로운 병목이 생긴다”며 “이를 해결하려면 새로운 메모리 패브릭(Memory Fabric)과 분산형 메모리 접근 프로토콜이 필요하다”고 말했다.

이어 AI는 세 단계의 기억 계층으로 구성된다고 정리했다. 팬 CEO는 “첫째는 학습 과정에서 만들어진 모델 파라미터(장기 기억), 둘째는 추론 시 생성되는 컨텍스트 캐시(단기 기억), 셋째는 모델 밖에서 지속적으로 유지되는 영구 기억(Persistent Memory)”이라고 구분했다.

또한 “AI가 인간처럼 ‘경험’을 축적하려면 세 번째 계층이 반드시 필요하다. 이 영역을 담당할 기술이 바로 HBF(High Bandwidth Flash) 같은 비휘발성 고속 메모리”라며, “AI는 결국 기억의 산업이다. 컴퓨팅은 찰나적이지만 데이터와 메모리는 지속적이다. 진정한 AI 혁신은 연산이 아닌 기억의 구조에서 온다”고 말했다.


찰리 팬 CEO는 메모리와 스토리지의 경계가 무너지는 변화도 예견했다. 그는 “지금까지는 DRAM이 ‘메모리’, 낸드가 ‘저장장치’로 구분됐지만, 앞으로는 두 기술이 융합돼 하나의 연속체(continuum)로 작동할 것”이라며 “AI는 단기 기억과 장기 기억을 자유롭게 넘나들 수 있는 ‘공유형 메모리 스토리지 시스템(shared memory-storage system)’을 요구하게 될 것”이라고 말했다.


김호식 SK하이닉스 수석부사장은 “용량·대역폭 동시 해결해야 하며 3D 적층·근접연산이 병목 해소의 현실적 해법이라는 점에 대해 설명했다.

김호식 SK하이닉스 SVP는 “AI 인프라 병목의 핵심은 메모리 용량과 대역폭의 이중 문제”라고 진단했다. “둘 중 어느 한쪽만 해결해도 근본 병목은 남는다. 용량, 대역폭, 지연, 소비전력은 모두 맞물려 있으며, 이들의 균형점을 찾는 것이 차세대 메모리 설계의 핵심”이라고 말했다.

그는 “기존 메모리 계층 구조는 피라미드 형태로 위계적이었다면, 이제는 병렬 분산 구조로 바뀌어야 한다”며 “데이터 성격에 따라 HBM·HBF·LPDDR 등 다양한 메모리를 병렬로 구성하고, 각각에 맞는 데이터를 배치하는 구조가 필요하다”고 설명했다.

김 수석부사장은 특히 전력 효율 문제를 새로운 병목으로 꼽았다. 그는 “대규모 HBM은 필수지만 전력 소비가 급격히 늘고 있다. 이를 해결하려면 연산을 메모리 가까이 두는 근접연산(PNM, Processing Near Memory)과, 로직 위에 메모리를 쌓는 3D 적층(3D Stacking) 기술이 병행돼야 한다”고 강조했다.

이어, “SK하이닉스는 현재 HBM의 베이스 다이에 연산 기능을 통합하는 시도를 진행 중이며, 매트릭스 연산 등 공용성이 높은 기능부터 단계적으로 넣는 방안을 검토하고 있다”라며 “특정 고객 맞춤 기능보다 다수의 AI 워크로드에서 공통으로 쓰일 범용 연산 기능이 핵심이 될 것”이라고 덧붙였다.


◆ 메모리 중심 컴퓨팅 동반자

김창규 엔지니어는 “AI 데이터센터의 구조 자체를 재설계해야 한다”며 “추론(Serving)을 하나의 단일 작업으로 처리하는 기존 방식은 비효율적”이라고 지적했다.

그는 “LLM 추론에는 두 단계가 있다. 프리필(Pre-fill)은 프롬프트를 처리하는 단계로, 병렬 연산 중심의 컴퓨트 바운드(Compute-bound) 작업이다. 반면 디코드(Decode)는 실제 토큰을 생성하는 단계로, 메모리 접근이 반복되는 메모리 바운드(Memory-bound) 작업이다”고 설명했다.

이어, “이 두 단계를 분리해 각각에 맞는 하드웨어로 수행하는 ‘비집적형 추론(Disaggregated Inference)’ 구조가 필요하다”며 “프리필은 저비용 DRAM 기반 GPU 서버로, 디코드는 고대역폭 HBM을 탑재한 서버로 분리하면 효율을 극대화할 수 있다”고 제안했다.

찰리 팬 CEO는 ‘메모리 중심 컴퓨팅’ 개념을 정의하며 “이것은 단순히 하드웨어의 변화가 아니라, 컴퓨팅 철학의 전환”이라고 말했다. “연산은 일시적이고 사라지지만, 데이터는 남는다. 메모리 중심 컴퓨팅은 데이터가 시스템의 중심이 되는 구조”라고 강조했다.

그는 “기존의 메모리와 스토리지는 명확히 구분됐지만, AI 시대에는 이 둘이 하나로 융합될 것”이라며 “지속성과 지연 특성을 자유롭게 조정할 수 있는 연속형 메모리-스토리지 구조가 등장할 것”이라고 전망했다.

토론을 마무리하며 김호식 수석부사장은 “AI 시대의 혁신은 반도체 단독으로는 불가능하다. 메모리 업체는 단순 공급자가 아니라 시스템 혁신의 동반자여야 한다”라며, “기존의 수직적 공급망 구조로는 AI 인프라 혁신이 불가능하다. 모델 개발자, 시스템 설계자, 메모리 회사가 공동으로 설계하고, 공동으로 문제를 해결해야 한다”고 말했다.

필립 웡 TSMC 수석 과학자는 패널토론을 마무리하며 “AI는 이제 CPU의 시대를 넘어 메모리의 시대로 진입했다”고 총평했다. 그는 “스토리지와 메모리의 경계가 사라지고, 데이터 이동 자체가 시스템 성능을 좌우하는 구조로 바뀌고 있다”며 “AI 인프라의 경쟁력은 더 많은 연산이 아니라 더 효율적인 기억 구조에 달려 있다”고 말했다.

이날 패널들에 따르면 AI 모델, 인프라, 소프트웨어는 모두 메모리 중심으로 재편된다. AI가 학습하고 추론하고 기억하는 모든 과정에서 데이터 이동을 최소화하는 설계가 새로운 혁신의 기준이 될 것이라는 전망이다.

- Copyright ⓒ 디지털데일리. 무단전재 및 재배포 금지 -