[소부장반차장] 구글·UC버클리 패터슨, “PNM 중심 메모리 아키텍처가 AI 병목 해소”
[디지털데일리 김문기, 배태용 기자] 구글(Google) 엔지니어이자 UC버클리 명예교수인 데이비드 A. 패터슨(David A. Patterson)이 3일 서울 삼성동 코엑스 오디토리움에서 열린 ‘SK AI 서밋 2025’에서 “AI 연산 병목은 메모리 대역폭과 지연에서 발생하며, 범용 CPU의 진화만으로는 이를 극복할 수 없다”고 지적했다.
그는 “프로세싱-니어-메모리(Processing Near Memory, PNM)가 차세대 AI 하드웨어의 핵심 구조가 될 것”이라고 강조했다.
패터슨 교수는 이날 ‘메모리 중심 컴퓨팅의 실체와 미래: 메모리 병목 해소의 중요성’ 발표를 통해 “디너드 스케일링(Dennard Scaling)의 종료와 무어의 법칙 둔화는 컴퓨팅 산업의 두 가지 대전환을 이끌었다”고 말했다.
그는 “디너드 스케일링이 끝난 이후 전력 문제로 대형 단일 코어의 확장이 멈췄고, 멀티코어 구조는 필연적 선택이었다”며 “이후 무어의 법칙 둔화로 범용 CPU의 성능 향상이 한 자릿수대에 머물면서, AI 시대의 요구를 충족하기 위해 도메인 특화 아키텍처(Domain Specific Architecture, DSA)가 부상했다”고 설명했다.
그는 “AI는 코드가 아니라 데이터로 지능을 얻는다”며 “파이토치(PyTorch), 잭스(JAX), 텐서플로(TensorFlow)와 같은 고수준 프레임워크가 표준으로 자리 잡으며, 하드웨어 혁신에 소프트웨어가 유연하게 적응할 수 있는 환경이 조성됐다”고 평가했다.
패터슨 교수는 고대역폭메모리(HBM)와 고대역폭플래시(HBF)를 AI에 최적화된 메모리로 지목했다. HBF는 기존 플래시 메모리를 TSV(실리콘 관통전극)로 적층해 대역폭을 극대화한 구조다.
그는 “HBF는 DRAM 대비 10배 용량, 플래시 대비 100배 대역폭을 확보하면서 전력 효율을 높인다”며 “다만 쓰기 수명 제한, 긴 접근 지연, 대블록 쓰기 제약으로 인해 가중치(Weights)·검색증강생성(RAG) 데이터·사전 계산된 KV 캐시 등 변하지 않는 대규모 정적 데이터 저장에 적합하다”고 말했다.
또한 “AI 추론용으로 설계된 HBF는 서버·엣지 컴퓨터·PC·스마트폰 등 전 영역에 적용될 수 있다”며 “2024년 출하 기준으로 서버 1400만대, 엣지 컴퓨터 2000만대, PC 2억6000만대, 스마트폰 12억2000만대에 적용 가능하다”고 밝혔다.
패터슨 교수는 HBM과 HBF의 발전 방향으로 3차원(3D) 메모리-로직 적층 구조를 제안했다. 그는 “3D 적층은 두 가지 접근이 가능하다. 첫째, HBM 기저 다이에 연산 로직을 삽입하는 방식, 둘째는 고대역·고밀도의 맞춤형(Custom) 적층”이라고 설명했다.
이어 “3D 적층은 전력 효율을 2~3배 높일 수 있지만 냉각 한계와 표준화 미비라는 이중 과제를 해결해야 한다”며 “산업 전반이 공통 인터페이스 표준을 마련해야 한다”고 덧붙였다.
또한 프로세서-인-메모리(PIM)와 PNM의 비교를 제시했다. 패터슨 교수는 “PIM은 메모리 내부에서 연산을 수행해 데이터 이동 전력과 대역폭 효율이 뛰어나지만, 공정 제약으로 인해 로직 효율과 메모리 밀도가 떨어진다. 반면 PNM은 메모리 인접 로직을 통해 설계 자유도가 높고 열 관리가 용이하며 범용 확장이 쉽다”고 말했다.
패터슨 교수는 “데이터센터 환경에서는 PNM이 더 실용적이며, 모바일 기기에서는 PIM이 소형 LLM(Local Large Language Model) 처리에 유리하다”고 구분했다. “스마트폰의 경우 모델 크기가 작고, 배치(batch) 크기도 1로 제한돼 전력과 발열 부담이 적다”며 “AI 소프트웨어가 약 32메가바이트 단위로 데이터를 샤딩(Sharding)할 수 있다면, 대부분의 접근이 지역적으로 이뤄져 고대역폭·저전력 PIM 구현이 가능하다”고 전망했다.
프로그래밍 모델 혼선에 대해서는 “상위 레벨에서는 파이토치가 사실상 표준이며, 사용자 입장에서는 하드웨어별 차이를 체감하지 않는다. 관건은 하드웨어에 맞게 최적화된 하위 라이브러리를 제공하는 것”이라고 설명했다. 그는 “MLIR 같은 공통 컴파일러 시도가 있으나, 진정한 경쟁력은 고품질 소프트웨어 스택에 달려 있다”고 말했다.
또한 HBM과 HBF 기저 다이에 로직을 통합할 경우의 산업 구조 변화도 언급했다. 그는 “시스템 기업이 메모리 제조사와 공동으로 맞춤형 베이스 다이를 설계하는 모델과, 메모리 기업이 범용 연산 베이스 다이를 공급하는 모델이 병행될 가능성이 있다”며 “메모리 업체들도 로직 수준의 수익성을 추구해온 만큼, 주도권 경쟁이 본격화될 것”이라고 내다봤다.
패터슨 교수는 “AI 시대의 핵심 경쟁력은 연산 속도가 아니라 에너지 효율과 데이터 접근성”이라며 “산업계가 PNM·HBF 등 메모리 중심 구조를 표준화하고, 하드웨어-소프트웨어 협업을 강화해야 한다”고 강조했다.
마지막으로 “HBM은 학습에, HBF는 추론에 적합한 실용적 해법이며, 소프트웨어가 이를 따라올 수 있는 지금이 메모리 중심 컴퓨팅으로의 전환기”라고 말했다.
- Copyright ⓒ 디지털데일리. 무단전재 및 재배포 금지 -
