컨텐츠로 건너뛰기
검색
디지털투데이 언론사 이미지

AMD, ROCm 6.4 공개...인스팅트 GPU 성능 극대화

디지털투데이
원문보기

AMD, ROCm 6.4 공개...인스팅트 GPU 성능 극대화

서울맑음 / -3.9 °
[석대건 기자]

[디지털투데이 석대건 기자] AMD가 인스팅트 GPU 기반 AI 및 HPC 환경 성능과 확장성 지원하는 ROCm 6.4를 15일 공개했다.

이번 ROCm 6.4는 AI 개발자와 연구자들을 위한 플러그 앤 플레이 방식애 최적화된 사전 구성된 컨테이너를 제공한다.

vLLM 추론 컨테이너는 젬마 3(Gemma 3), 라마(Llama), 미스트랄(Mistral), 코히어(Cohere) 등 오픈 모델을 위한 저지연 LLM 추론을 지원하며, SGLang 추론 컨테이너는 딥시크 R1(DeepSeek R1)과 에이전트 워크플로우에 최적화돼 DeepGEMM과 FP8 지원을 통해 높은 처리량을 제공한다.

파이토치 프레임워크의 대규모 업그레이드를 통해 학습 속도가 크게 개선됐다. ROCm 6.4는 파이토치 내에서 플렉스 어텐션(Flex Attention), TopK, SDPA(Scaled Dot-Product Attention) 등 기능을 제공한다. TopK 작업은 이전 버전보다 최대 3배 빠른 속도로 실행되어 추론 응답 시간을 단축한다.

또 AMD 인스팅트 GPU 기반의 AI 추론 성능이 크게 최적화됐다. vLLM과 SGLang의 추론 최적화 빌드는 인스팅트 GPU에 특화돼, 그록(Grok), 딥시크 R1(DeepSeek R1), 젬마 3(Gemma 3), 라마 3.1(Llama 3.1) 등 최신 모델을 지원한다. SGLang과 딥시크 R1(DeepSeek R1) 조합은 인스팅트 MI300X에서 기록적인 처리량을 달성했다고 회사 측은 설명했다

AMD GPU 오퍼레이터를 통해 인스팅트 GPU 클러스터 관리 효율성도 높였다. GPU 스케줄링, 드라이버 수명 주기 관리, 실시간 원격 측정을 자동화해 클러스터 운영을 간소화한다. 롤링 업데이트를 위한 자동화된 격리, 드레인, 재부팅 기능과 함께 레드햇 오픈시프트(Red Hat OpenShift) 4.16-4.17 및 우분투(Ubuntu) 22.04/24.04에 대한 확장된 지원을 제공한다.


아울러 ROCm 6.4는 인스팅트 GPU 드라이버를 통해 소프트웨어 모듈성을 강화했다. 이 모듈식 드라이버 아키텍처는 커널 드라이버를 ROCm 사용자 공간과 분리하여 인프라 팀이 드라이버나 ROCm 라이브러리를 독립적으로 업데이트할 수 있게 지원한다. 이전 릴리스의 6개월보다 긴 12개월의 호환성 기간도 제공한다.

추가로 ROCm 6.4는 수동 튜닝 없이 드롭인과 사전 최적화된 커널이 포함된 고성능 추론 라이브러리인 AITER도 포함한다. AITER는 디코더 실행 속도를 최대 17배 향상시키고, 멀티헤드 어텐션에서 14배의 성능 향상, LLM 추론 처리량을 2배 높일 수 있다.

AMD 관계자는 "ROCm 6.4는 AI 연구자, 모델 개발자, 인프라 운영 팀 모두에게 적합한 종합적인 솔루션을 제공한다"며 "향후 AI 및 HPC 환경을 구축하려는 조직의 시스템 성능 및 신뢰성을 한층 강화할 수 있는 기반이 될 것"이라고 말했다.

<저작권자 Copyright ⓒ 디지털투데이 (DigitalToday) 무단전재 및 재배포 금지>