컨텐츠 바로가기

12.23 (월)

"엔비디아, 발열 문제 등으로 '블랙웰' 서버 대량 생산 6개월 늦어질 수 있어"

댓글 첫 댓글을 작성해보세요
주소복사가 완료되었습니다
[박찬 기자]
AI타임스

<이미지를 클릭하시면 크게 보실 수 있습니다>


엔비디아가 높은 전력 소비와 고속 인터커넥션 요구 사항으로 인해 '블랙웰' 기반 인공지능(AI) 서버의 대량 생산을 2025년 중반으로 연기할 수 있다는 주장이 등장했다. 이는 6개월 정도의 지연을 의미한다.

톰스하드웨어는 20일(현지시간) 시장조사 기업 트랜드포스 보고서를 인용, 엔비디아가 'B200' 및 'GB200' 플랫폼 기반 AI 서버의 생산을 2025년 중반쯤으로 연기해야 할 수도 있다고 보도했다

엔비디아는 이에 대해 공식 입장을 밝히지 않았다. 또 이전 실적 발표에서는 블랙웰 서버가 이미 일부 기업에 전달됐으며 본격 생산 중이라고 밝힌 바 있다.

엔비디아와 협력사들은 올해에는 블랙웰 서버를 제한된 수량만 출하할 것으로 예상된다. 설계 문제로 인해 일정이 조금 늦춰지긴 했지만, 개선된 B200 프로세서가 10월부터 대량 생산에 들어간 것으로 알려졌다.

하지만 트렌드포스는 블랙웰 서버의 생산이 단기간에 크게 늘어나지 않을 것이라고 전망했다.

이는 블랙웰 서버를 실제 운용할 경우 발생하는 전력과 발열, 칩 간 연결 문제 등에 따른 것이라는 설명이다. 또 문제를 해결하고 본격적인 대량 생산에 들어갈 시점을 2025년 2분기~3분기로 봤다.

우선 72개의 B200 GPU를 장착한 'NVL72' 서버는 120킬로와트(kW)를 소비하는 것으로 알려졌다. 이는 20kW를 소비하는 기존 서버보다 훨씬 높은 수치이며, 이전 최고급인 'H100' 서버가 소비하는 40kW의 3배에 달한다.

여기에 트렌드포스는 엔비디아가 NVL72 장치의 사양을 업데이트, 현재 전력 소비는 140kW에 달한다고 밝혔다. 이는 일반적인 데이터 센터에서 단일 랙에 공급할 수 있는 전력을 초과한다.

이처럼 전력 과소비에 따른 발열 문제가 가장 큰 문제로 꼽혔다.

120kW를 소비하는 경우에도 서버는 쉽게 과열됐다. 이로 인해 엔비디아는 서버 랙 설계를 몇차례나 수정해야 했다. 여기에 140kW로 늘어나면, 추가적인 서버 설계 변경을 초래할 수 있다. 이는 출시 지연을 의미한다.

냉각 요구도 커질 수 있다. 블랙웰 서버는 액체 냉각이 필수적이며, 최신 냉각수 분배 장치(CDU)는 60~80kW의 열을 처리할 수 있다.

하지만 냉각 시스템 업체들이 추가로 열을 처리하기 위해 냉각판 설계를 최적화하고 CDU의 용량을 확장하는 작업을 진행, 이 문제는 해결할 수 있을 것으로 봤다.

트렌드포스는 전력과 발열 문제 외에도 칩 간 연결 최적화가 필요하다고 지적했다. 그러나 구체적으로 어떤 문제인지는 언급하지 않았다.

한편, 이 문제로 블랙웰 서버 대량 생산 일정이 늦어지면 내년에 공개될 후속 모델 'B300'과 'GB300'의 출시 일정과 가용성에 영향을 미칠 수도 있다는 지적도 나왔다. B300 시리즈 블랙웰 GPU는 더 많은 메모리와 향상된 컴퓨팅 성능을 제공할 것이 뻔하기 때문에, 더 높은 전력 소비를 초래할 수 있기 때문이다.

B300 서버는 140kW 이상의 전력을 소모할 가능성이 높고, 이로 인해 더 정교한 기술과 냉각 솔루션은 필수라는 분석이다.

박찬 기자 cpark@aitimes.com

<저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.