컨텐츠로 건너뛰기
검색
디지털데일리 언론사 이미지

③ 인텔 팬서레이크, 그래픽과 AI의 경계를 허물다 [인텔18A 귀환]

디지털데일리 김문기 기자
원문보기

③ 인텔 팬서레이크, 그래픽과 AI의 경계를 허물다 [인텔18A 귀환]

서울맑음 / -3.9 °
Xe3 GPU와 NPU 5가 이끄는 새로운 AI 가속 구조

[디지털데일리 김문기 기자] 인텔은 최근 미국 애리조나 챈들러에서 열린 ‘인텔 테크 투어 2025(Intel Tech Tour 2025)’를 통해 차세대 클라이언트 프로세서 ‘팬서레이크(Panther Lake)’를 공개했다.


◆ Xe3 GPU와 NPU 5가 이끄는 새로운 AI 가속 구조

인텔 팬서레이크(Panther Lake)는 CPU, GPU, NPU가 하나의 구조 안에서 통합적으로 동작하는 인텔 최초의 18A 기반 클라이언트 SoC다. 그래픽 처리와 인공지능 연산이 물리적으로 결합된 형태다. 그 중심에는 Xe3 GPU와 NPU 5(Neural Processing Unit 5)가 자리한다.

팬서레이크의 그래픽 타일은 18A 공정 기반의 3세대 Xe GPU(Xe3)로, 루나레이크(Lunar Lake)에서 사용된 Xe2를 대체한다. 하나의 Xe-코어는 8개의 512비트 벡터 엔진(Vector Engine)과 8개의 2048비트 XMX 엔진(Matrix Engine)으로 구성되며, L1/SLM 캐시 용량이 33% 증가했다. FP8 연산 지원과 3-웨이 코-이슈(3-way co-issue) 파이프라인을 도입해 FP32, INT32, XMX 연산을 동시에 수행할 수 있게 됐다. 이로써 동일 전력에서 그래픽 성능은 최대 50% 향상됐고, 효율 역시 크게 개선됐다.

풀 스펙 구성인 12Xe GPU는 96개의 XMX 엔진, 12개의 레이 트레이싱 유닛(Ray Tracing Unit), 16MB L2 캐시를 갖추며, 루나레이크 대비 그래픽 성능이 약 50%, 애로우레이크 H 대비 전력 효율이 40% 향상됐다. 이 세대의 GPU는 엔진에서 슬라이스에 이르는 전체 파이프라인이 최적화됐다.

Xe3는 그래픽 엔진을 넘어 인공지능 기반의 시각 생성 기능을 포함한다. XeSS(Xe Super Sampling) 기술은 세 번째 세대인 XeSS 3로 발전했으며, 멀티 프레임 생성(Multi-Frame Generation, MFG)을 지원한다. 이는 광류(Optical Flow)와 모션 벡터를 분석해 실제 렌더링하지 않은 중간 프레임을 AI가 보간해 생성하는 방식이다.

이 과정에서 TAA(Temporal Anti-Aliasing), RT AS(Denoise), 광학 흐름 재투영(Optical Flow Reprojection) 등이 동시에 수행되며, 실제 GPU 부하를 늘리지 않고도 시각적 부드러움은 1.5배 이상 향상된다. 인텔은 내부 벤치마크를 통해 블랙 미스: 오공(Black Myth: Wukong)과 갓 오브 워 라그나로크(God of War: Ragnarök) 등의 타이틀에서 평균 FPS가 10%, 99번째 퍼센타일 프레임은 25% 개선됐다고 설명했다.


Xe3의 레이 트레이싱 유닛은 다이내믹 레이 매니지먼트(Dynamic Ray Management) 기능을 추가해 광선 연산을 병렬로 실행하며 RT 유닛 활용률을 25% 향상시켰다. URB(Uniform Resource Buffer) 매니저의 도입으로 텍스처, 그림자, 리플렉션 처리 효율이 두 배로 높아졌고, 래스터화와 RT 파이프라인이 동시에 작동하면서 스테이지 전환 지연이 최소화됐다.

팬서레이크의 그래픽 연산은 AI 가속기와의 통합으로 완성된다. Xe3에 포함된 XMX(Xe Matrix Extension) 엔진은 INT8, FP8, FP16, TF32 등 다양한 정밀도의 매트릭스 연산을 지원한다. FP8 모드에서는 기존 FP16 대비 두 배 빠른 처리 속도와 절반의 에너지 소모를 구현했다. 스테이블 디퓨전(Stable Diffusion) 테스트 결과, FP8 추론 모드에서 연산 에너지는 50% 감소했고 실행 시간은 30% 단축됐다. GPU가 렌더링 전용 하드웨어를 넘어, 생성형 AI 모델을 직접 구동하는 로컬 컴퓨트 엔진으로 변모한 셈이다.


◆ NPU 5 재설계

팬서레이크의 NPU 5(Neural Processing Unit 5)는 루나레이크의 NPU 4를 완전 재설계한 형태다. FP8 데이터타입과 강화된 데이터 컨버전 파이프라인(Data Conversion Pipeline), 프로그램형 활성화 함수 룩업 테이블(LUT)을 갖췄다.


내부 구조는 12K MAC(Multiply-Accumulate) 유닛, 6 SHAVE DSP(Digital Signal Processor), 3 뉴럴 컴퓨트 엔진(Neural Compute Engines), 4.5MB 스크래치패드 RAM, 256KB L2 캐시로 구성된다. INT8과 FP8 연산에서 각각 4096 MAC/클럭, FP16에서는 2048 MAC/클럭을 지원하며, TOPS(초당 연산량) 기준 면적당 효율은 루나레이크 대비 40% 향상됐다.

CPU, GPU, NPU는 상호 보완적으로 동작한다. CPU의 VNNI 및 AVX 확장은 최대 10 TOPS, NPU 5는 50 TOPS, Xe3 GPU는 XMX 기반으로 최대 120 TOPS를 제공해 총합 약 180 TOPS급의 AI 연산 능력을 형성한다. 이는 단순한 AI 추론 수준을 넘어, 소규모 모델 학습이나 파인튜닝(fine-tuning)까지 로컬 환경에서 수행할 수 있음을 의미한다.

이 모든 효율의 기반에는 FP8 데이터타입의 전면 도입에 있다. 인텔은 BF8(E4M3)과 HF8(E5M2) 두 가지 포맷을 지원해 정밀도와 범위 간의 균형을 맞췄다. FP8 연산은 기존 FP16 대비 절반의 메모리 대역폭으로 동일한 연산을 수행할 수 있어, 대형 언어모델(LLM)이나 비전-언어 모델(VLM)의 추론 단계에서 효율을 두 배 이상 끌어올린다.

팬서레이크의 소프트웨어 스택은 하드웨어와 프레임워크를 일체화했다. GPU 드라이버, NPU 런타임, 그래픽 펌웨어가 모두 DirectX Cooperative Vector 및 Vulkan Runtime과 호환된다. OpenVINO, XeSS, VPL(Video Processing Library), IGC(Intermediate Graphics Compiler)가 기본 통합된다. 이로써 운영체제 단에서 AI 연산 분산이 자동화된다. 예를 들어 어도비 프리미어(Adobe Premiere)에서 영상 요약 기능을 실행하면, NPU가 인퍼런스를 담당하고 GPU가 디코딩을, CPU가 스케줄링을 수행하는 식이다.

- Copyright ⓒ 디지털데일리. 무단전재 및 재배포 금지 -