메뉴

엔비디아 ‘블랙웰’ 과열 문제로 또 불량설…납품 일정 차질

발열 감당을 위한 서버 랙 재설계 필요

 

엔비디아 신형 인공지능(AI) 가속기 ‘블랙웰’ 납품에 또 한 번 차질이 생겼다. 발열을 감당하기 위한 서버 랙(Rack) 재설계가 필요하다는 것이다.

 

한편, AI 가속기 공급난이 지속되는 와중 블랙웰 납품 지연에 대한 데이터센터 사업자들의 우려가 커지고 있다.

 

지난 11월 17일 테크전문매체 ‘디인포메이션’은 엔비디이가 블랙웰 맞춤형 서버랙의 과열 문제 해결을 위해 서버공급업체들에게 수차례 설계 변경을 요구했다면서 블랙웰을 구매한 고객사들이 랙 사용 시기가 지연될 수 있다는 불안감을 드러내고 있다고 보도했다.

 

서버랙이란 컴퓨터 부품이 쌓인 하나의 완성품 서버를 의미한다. 각 층별로 메인보드・칩셋이 선반처럼 쌓여있어 ‘랙’(Rack)이라 불린다.

 

2024년 3월 엔비디아는 ‘블랙웰’을 공개하며 72개 칩셋을 한 데 엮은 서버랙 ‘NVL72’을 하나의 플랫폼으로 소개했다.

 

NVL72에는 36개의 ‘그레이스’ 중앙처리장치(CPU)와 72개 블랙웰 그래픽처리장치(GPU)가 탑재된다.

 

거대한 냉장고만한 랙의 무게는 1.5t에 이르고 전력 소모량도 어마어마해 가동에 132㎾(킬로와트)가 필요하다. 단일 서버 기준 역대 최대 전력 소모다.

 

전력 소모량은 곧 발열로 이어진다. 엔비디아와 서버 제조사들은 NVL72를 위시한 블랙웰 시스템 냉각에 공기가 아닌 액체를 사용하기로 했다.

 

액체 순환 방식은 구조가 복잡하고 순환계가 터지면 시스템 전체가 망가질 수 있어 안전성이 높아야 하기 때문에 서버랙 디자인에 대한 수정 요구가 제기되고 있다.

 

복잡한 랙 디자인 때문에 과열이 심했고 이는 서버 신뢰성을 떨어뜨렸고 대부분의 데이터센터는 대규모 수냉 시스템을 운영해본 적이 없어 불안감이 더욱 크게 야기되는 중이다.

 

블랙웰 공급에 부정적 소식이 이어지며 입도선매(立稻先賣)에 나섰던 데이터센터들은 불안감에 떨고 있다.

 

디인포메이션은 TSMC 내 블랙웰 제조 과정에서 불량이 발생했다고 보도하면서 이 과정에서 젠슨 황 엔비디아 최고경영자(CEO)와 TSMC 고위 경영진이 언성을 높였다는 소식을 함께 전했다.

 

젠슨 황 CEO는 ‘불화설’에 대해서는 일축했으나 결함이 있었다는 사실 자체는 인정했었다.

 

다만 2024년 4분기부터 본격적인 납품을 시작한다는 기존 방침에는 변화가 없다고 누차 강조해왔다.

포토리뷰