GB200 탑재한 엔비디아 서버 랙 (사진=셔터스톡) |
<이미지를 클릭하시면 크게 보실 수 있습니다> |
엔비디아의 차세대 '블랙웰' GPU가 고용량 서버 랙에 설치될 때 발생하는 과열 문제로 인해 어려움을 겪고 있는 것으로 전해졌다. 이로 인해 마이크로소프트(MS), 메타, xAI와 같은 주요 고객들은 블랙웰 서버를 제때 구동할 수 있을지에 대한 우려를 나타내고 있다.
디 인포메이션은 15일(현지시간) 내부 관계자를 인용, 블랙웰 GPU가 72개 탑재된 서버에서 과열 문제가 발생하고 있다고 보도했다.
이 서버는 랙당 최대 120킬로와트(kW)를 소비할 것으로 예상되며, 과열로 인해 GPU 성능이 저하되고 부품 손상 가능성이 제기됐다. 이에 따라 엔비디아는 서버 랙 설계를 여러 차례 재검토해야 했던 것으로 알려졌다.
과열 문제를 해결하기 위해 공급업체들에게 서버 랙의 설계 변경을 지시하고, 파트너들과 협력해 냉각 성능을 개선하기 위한 엔지니어링 작업을 진행해왔다. 그러나 반복적인 설계 변경으로 인해 일부 기업에서는 서버 랙 도입 일정이 지연될 수 있다는 우려가 제기되는 상황이다.
일부 기업은 출시 전에 서버 설계를 조정하는 일이 흔하지만, 이번 블랙웰 랙 변경은 생산 과정 후반부에 이뤄졌다고 지적했다.
그럼에도 불구하고 엔비디아는 아직 기업들에게 지연 관련 통보를 하지 않은 상태이며, 내년 상반기 말까지 원래 일정에 맞춰 서버 랙을 배송할 계획이라고 주장했다.
블랙웰 GPU는 이전에도 설계 결함으로 생산 일정이 지연된 바 있다. 이로 인해 최종 수정된 블랙웰 GPU는 10월 말에 대량 생산을 시작했으며, 내년 1월 말부터 출하가 가능할 것으로 예상된다.
특히 생산 과정에서 반복적으로 설계 변경이 발생하자, 일부 고객들은 블랙웰 대신 이미 안정성을 확보한 기존 칩을 추가 구매하는 것도 검토 중으로 알려졌다.
엔비디아의 현 세대 칩인 호퍼(Hopper) 칩, 즉 'H100'과 'H200'은 블랙웰 제품군인 'G100' 및 'G200'에 비해 성능은 많이 떨어지는 편이다.
박찬 기자 cpark@aitimes.com
<저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>
이 기사의 카테고리는 언론사의 분류를 따릅니다.
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.