컨텐츠 바로가기

10.18 (금)

엔비디아, '블랙웰' 데이터센터 아키텍처 공개..."빠른 서버 구축 지원"

댓글 첫 댓글을 작성해보세요
주소복사가 완료되었습니다
[박찬 기자]
AI타임스

<이미지를 클릭하시면 크게 보실 수 있습니다>


엔비디아가 최신 인공지능(AI) 칩 '블랙웰'로 데이터센터를 구축하는 설계도를 공개했다. 고성능 서버 플랫폼의 주요 설계 요소를 공유, 데이터센터 개발을 가속화하겠다는 의도다.

톰스하드웨어는 15일(현지시간) 엔비디아가 미국 캘리포니아에서 열린 'OCP 글로벌 서밋'에서 'GB200 NVL72' 서버 랙 및 컴퓨트·스위치 트레이 설계 아키텍처를 '오픈 컴퓨트 프로젝트(OCP)'에 공개했다고 보도했다. 따라서 OCP 회원은 블랙웰 GPU 데이터센터 구축에 이를 참고할 수 있게 됐다.

OCP는 메타, 인텔, 마이크로소프트(MS), 구글, AMD, IBM, 랙스페이스, 삼성 등이 데이타센터와 서버 네트워크 비즈니스 등의 하드웨어 분야의 노하우를 공개하는 프로젝트다.

이번 공개의 핵심은 최대 72개의 GB100나 GB200 GPU를 탑재한 GB200 NVL72 시스템이다. 엔비디아는 랙 아키텍처, 냉각 시스템, 컴퓨팅 트레이 구성 요소 등에 대한 세부 정보를 포함해 중요한 전기 기계 설계를 공개했다.

GB200 NVL72 시스템은 랙 스케일 구성에서 36개의 그레이스 CPU와 72개의 블랙웰 GPU를 연결하는 엔비디아의 MGX 아키텍처를 기반으로 하는 모듈식 설계를 특징으로 한다. 이 설정은 72개 GPU NVLink 도메인을 제공, 시스템이 거대한 단일 GPU 역할을 할 수 있도록 한다.

또 GB200 NVL72의 새로운 공동 레퍼런스 디자인을 소개했다. 이는 고밀도 컴퓨팅 데이터센터 분야의 전문성으로 유명한 전력 및 냉각 솔루션인 버티브와 함께 개발됐다. 이 디자인은 블랙웰 플랫폼을 채택하는 클라우드 서비스 공급자 및 데이터센터의 배포 시간을 단축한다.

참조 아키텍처를 사용하면 데이터센터는 별도의 전원, 냉각, 간격 설계 등으로 고민할 필요가 없다는 설명이다. 대신, 버티브의 고급 솔루션을 사용해 공간 절약형 전원 관리 및 에너지 효율적인 냉각을 수행할 수 있다.

이 접근 방식을 통해 데이터센터는 7메가와트(MW) GB200 NVL72 클러스터를 더 빠르게 배포, 서버 구현 시간을 최대 50%까지 단축할 수 있다고 강조했다.

AI타임스

<이미지를 클릭하시면 크게 보실 수 있습니다>


지운 송 메타 엔지니어링 부사장은 "엔비디아는 수년간 오픈 컴퓨팅 표준에 기여해 왔다"라며 "랙 설계 및 모듈형 아키텍처에 대한 기여로 AI 인프라의 개발 및 구현을 가속화하는 데 도움을 줄 것"이라고 말했다.

엔비디아는 '스펙트럼-X' 이더넷 네트워킹 플랫폼으로 AI 데이터센터의 연결 속도를 높이는 데에도 집중하고 있다고 밝혔다.

내년에는 OCP 3.0에서 사용할 수 있는 '커넥트X-8 슈퍼닉(ConnectX-8 SuperNIC)'을 공개할 예정인데, 이는 최대 초당 800기가비트(Gb)의 데이터 속도를 지원한다. 프로그래밍 가능한 패킷 처리가 커지며, 대규모 AI 워크로드에 최적화된다는 설명이다.

젠슨 황 엔비디아 CEO는 "OCP와의 10년간의 협력을 바탕으로 전체 데이터센터에 널리 채택될 수 있는 사양과 설계를 만들기 위해 노력하고 있다"라며 "개방형 표준을 발전시킴으로써 전 세계 조직이 가속 컴퓨팅의 잠재력을 최대한 활용하고 미래의 AI 팩토리를 만들 수 있도록 돕고 있다"라고 말했다.

박찬 기자 cpark@aitimes.com

<저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.