컨텐츠로 건너뛰기
검색
디지털투데이 언론사 이미지

화웨이 AI 칩, 딥시크 R1 모델에서 엔비디아보다 한 수 위

디지털투데이
원문보기

화웨이 AI 칩, 딥시크 R1 모델에서 엔비디아보다 한 수 위

속보
미 증시 X마스 앞두고 상승
[AI리포터]
AI 반도체 시장에서 화웨이가 엔비디아의 뒤를 바짝 쫒고 있다 [사진: 셔터스톡]

AI 반도체 시장에서 화웨이가 엔비디아의 뒤를 바짝 쫒고 있다 [사진: 셔터스톡]


[디지털투데이 AI리포터] 화웨이의 첨단 데이터센터 아키텍처 '클라우드매트릭스 384'(CloudMatrix 384)가 딥시크(DeepSeek)의 R1 인공지능(AI) 모델을 구동하는 데 있어 엔비디아 H800 GPU보다 뛰어난 성능을 보였다고 19일(현지시간) 홍콩 사우스차이나모닝포스트(SCMP)가 전했다.

화웨이와 중국 AI 인프라 스타트업 실리콘플로우가 공동 작성한 보고서에 따르면, 클라우드매트릭스 384는 AI 워크로드를 처리하는 데 최적화된 'AI 슈퍼노드'로 설계됐다. 384개의 어센드(Ascend 910C) 신경처리장치(NPU)와 192개의 쿤펑 서버 CPU를 초고속 대역폭과 저지연 연결을 통해 결합한 구조다. 보고서는 클라우드매트릭스가 AI 인프라의 근본을 재구성할 것으로 기대된다고 강조했다.

실제로 이 아키텍처는 딥시크의 6710억 파라미터 R1 모델을 실행하는 데 있어 세계적인 시스템들을 능가하는 성능을 보였다. 특히, LLM(대형언어모델)의 프리필(prefill) 단계에서 클라우드매트릭스-인퍼(CloudMatrix-Infer)는 4000 토큰 입력 길이에서 NPU당 초당 6688 토큰을 처리했으며, 이는 TFLOPS당 4.45 토큰의 계산 효율성을 의미한다. 또한, 디코드(decode) 단계에서는 4000 길이의 키-값 캐시에서 NPU당 초당 1943 토큰을 기록하며 출력 생성 시간이 토큰당 50밀리초 이하로 유지됐다.

보고서는 이러한 성능 지표가 엔비디아의 SGLang LLM 프레임워크와 H800 프로세서를 활용한 시스템을 능가한다고 분석했다. 화웨이 천재청년 프로그램의 저우펑페이(Zuo Pengfei)는 "클라우드매트릭스의 기술 스택을 투명하게 공개해 업계가 Ascend NPU의 역량을 충분히 이해하도록 돕는 것이 목표"라고 밝혔다.

이번 보고서는 화웨이가 어센드 910C AI 가속기의 성능을 공식적으로 공개한 첫 사례다.

런정페이 화웨이 창업자는 최근 "화웨이 어센드 칩이 여전히 미국 경쟁사보다 한 세대 뒤처져 있지만, 스태킹과 클러스터링을 통해 세계 최고 수준의 컴퓨팅 성능을 구현하고 있다"고 강조했다. 이에 대해 엔비디아 창업자 젠슨 황(Jensen Huang)도 "AI는 병렬 문제이기 때문에 개별 컴퓨터 성능이 부족하면 더 많은 컴퓨터를 추가하면 된다"며 화웨이의 접근법에 공감하는 입장을 보였다.

<저작권자 Copyright ⓒ 디지털투데이 (DigitalToday) 무단전재 및 재배포 금지>