컨텐츠 바로가기

07.27 (토)

AMD, ‘인스팅트 MI300’ 신규 라인업 공개…HPC부터 서버까지 AI 맞춤형 지원

댓글 첫 댓글을 작성해보세요
주소복사가 완료되었습니다
디지털데일리

<이미지를 클릭하시면 크게 보실 수 있습니다>


[디지털데일리 김문기 기자] AMD(대표 리사 수)는 ‘AMD 인스팅트 MI300X’ 가속기 제품군과 AMD 인스팅트 MI300A APU를 출시했다고 7일 발표했다.

인스팅트 MI300X 가속기는 생성형 AI에 적합한 최고 수준의 메모리 대역폭과 대형언어모델(LLM, Large Language Model) 훈련 및 추론에 필요한 고도화된 성능을 제공한다. 최신 AMD CDNA 3 아키텍처와 ‘젠 4(Zen 4)’ CPU를 결합한 인스팅트 MI300A APU는 고성능컴퓨팅(HPC, Hight Performance Computing)과 AI 워크로드 처리 능력을 갖췄다.

빅터 펭 AMD 사장은 “AMD의 최첨단 기술로 탄생한 인스팅트 MI300 시리즈 가속기는 압도적 성능을 바탕으로 향후 대규모 클라우드 및 기업 배포에 활용될 것"이라며 “클라우드 서비스 제공업체나 OEM 및 ODM은 AMD가 제시하는 하드웨어와 소프트웨어 및 개방형 생태계 접근 방식을 활용해 기업이 AI 솔루션을 도입하고 배포할 수 있도록 지원한다”고 말했다.

AMD에 따르면 실제 최근 마이크로소프트가 AMD 인스팅트 MI300X 가속기를 탑재해 AI 워크로드에 최적화된 애저 ND MI300x v5 가상머신 시리즈를 선보인 바 있다. 미국 로렌스 리버모어 국립연구소에서는 AMD 인스팅트 MI300A APU가 탑재된 슈퍼컴퓨터 ‘엘 카피탄(El Capitan)’을 사용 중이다. 전체 시스템 구동시 2엑사플롭스(exaFLOPs) 이상의 배정밀도연산 성능을 제공할 것으로 추정되는 엘 카피탄은 세계에서 두 번째로 엑사플롭스 한계를 돌파한 AMD 기반 슈퍼컴퓨터로 기록될 예정이다.

오라클 클라우드 인프라스트럭처(OCI)는 자사 AI용 고성능 가속 컴퓨팅 인스턴스에 AMD 인스팅트 MI300X 기반의 베어 메탈 인스턴스를 탑재할 계획이라 밝혔다. MI300X 기반 인스턴스는 초고속 RDMA 네트워킹으로 향후 OCI 슈퍼클러스터(OCI Supercluster)를 지원한다.

신규 AMD CDNA 3 아키텍처를 기반으로 하는 AMD 인스팅트 MI300X 가속기는 이전 세대인 AMD 인스팅트 MI250X 가속기보다 약 40% 더 많은 컴퓨팅 유닛과 1.5배 큰 용량의 메모리를 장착했다. 이론적인 최대 메모리 대역폭 역시 1.7배 높다. 또한, FP8(8비트 부동 소수점) 및 희소성(sparsity) 같은 새로운 포맷을 지원하여 AI 및 HPC 워크로드에도 대비했다.

고부하 AI 워크로드에 필요한 성능을 제공하기 위해 192GB HBM3 메모리 용량과 초당 최대 5.3 TB 데이터 처리가 가능한 메모리 대역폭을 지원한다. AMD 인스팅트 시리즈는 업계에서도 손꼽히는 생성형 AI 플랫폼으로, 8개의 MI300X 가속기를 결합한 산업 표준 OCP(개방-페쇄 원칙) 디자인을 채택해 HBM3 메모리 용량이 1.5TB에 달한다.

이를 활용해 블룸 176B(BLOOM 176B) 같은 대형 언어 모델에서 추론을 실행할 경우, 엔비디아 H100 HGX와 비교해 최대 1.6배 향상된 처리량을 제공한다. 이는 라마 2(Llama2) 같은 70억개의 파라미터(70B) 모델 추론을 단일 가속기에서 실행할 수 있다.

AMD 인스팅트 MI300A APU는 HPC 및 AI용 데이터센터 APU로, 3D 패키징과 4세대 AMD 인피니티 아키텍처를 활용, 탁월한 워크로드 처리 능력을 발휘한다. 고성능 AMD CDNA 3 GPU 코어와 최신 x86 기반 CPU 코어인 젠 4, 128GB용량의 차세대 HBM3 메모리를 결합해, 기존 AMD 인스팅트 MI250X모델에 비해 FP32 연산HPC 및 AI 워크로드에서 와트당 성능이 약 1.9배 개선됐다.

AMD는 자사의 에너지 효율 혁신 목표인 ‘30x25’를 기반으로 2025년까지 AI 훈련 및 HPC용 서버 프로세서와 가속기의 에너지 효율성을 30배로 끌어올릴 계획이다. 통합 메모리와 캐시 자원을 통해 고객이 쉽게 프로그래밍할 수 있는 GPU 플랫폼 경험을 제공한다. 고부하 HPC 및 AI 워크로드를 처리할 수 있는 고성능 컴퓨팅과 탁월한 AI 훈련 속도, 에너지 효율성을 보장한다는 게 AMD의 설명이다.

AMD는 최신 AMD ROCm 6 개방형 소프트웨어 플랫폼 발표와 함께 오픈소스 커뮤니티에 최첨단 라이브러리 제공을 약속했다. 가령, 라마 2 텍스트 생성시MI300 시리즈 가속기는 이전 세대 하드웨어 및 소프트웨어와 비교했을 때 약 8배 향상된 AI 가속 성능을 발휘한다. 생성형 AI를 위한 플래시어텐션(FlashAttention), HIPGraph 및 vLLM을 비롯한 다양한 주요 신기능도 지원한다.

한편, AMD는 소프트웨어 스타트업 노드.ai(Nod.ai)와 밉솔로지(Mipsology)를 인수하는 등 소프트웨어 역량 강화에도 꾸준히 투자하고 있다. 또한, 기업 고객 대상으로 LLM을 제공하는 라미니(Lamini), AMD ROCm을 활용해 코드 변경 없이 AMD 인스팅트 가속기의 LLM훈련을 지원하는 모자이크ML(MosaicML)과도 전략적 파트너십을 구축했다.

- Copyright ⓒ 디지털데일리. 무단전재 및 재배포 금지 -
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.