Nvidias væskekølingsrevolution til AI-server

Mar 12, 2024

Strømforbruget af banebrydende AI-chips stiger konstant, hvilket er blevet en katalysator for, at næste generation af DGX AI-servere skifter til væskekøling. Den nuværende TDP (thermal design power) for Nvidias flagskib H100 GPU er 700W, hvilket har overskredet grænsen for traditionel luftkøling. Det forventes, at Nvidia vil lancere Blackwell-arkitekturen B100 GPU med en TDP på cirka 1000W senere i år, og væskekøling vil helt sikkert være nødvendig på det tidspunkt.

Nvidia liquid cooling

For højtydende computersystemer har væskekøling flere vigtige fordele i forhold til luftkøling:
Fremragende varmeoverførselseffektivitet gør det muligt for komponenter med højere TDP at blive fuldt afkølet
På grund af reduceret efterspørgsel efter højhastighedsventilatorer er driften mere støjsvag
Systemdesignet er mere tæt, og omfangsrige køleplader og blæsere fylder mindre
Potentiale for opsamling og genbrug af spildvarme i væske-væske varmevekslere

GPU liquid cooling

Ved at bruge væskekøling kan Nvidia fortsætte med at overskride ydeevnegrænserne for AI-acceleratorer uden at være begrænset af kølesystemet. Da kompleksiteten af kunstig intelligens træningsbelastning fortsætter med at stige, og det tilsvarende hardware-strømforbrug stiger, er dette afgørende. Nvidias DGX AI-server pakker flere GPU'er til et optimeret system til AI-arbejdsbelastninger, som hurtigt er blevet adopteret af store virksomheder. Store cloud-tjenesteudbydere som Google Cloud, Meta og Microsoft har implementeret DGX-systemer i deres datacentre. I de senere år, efterhånden som flere og flere organisationer søger at udnytte den transformative kraft af kunstig intelligens, er adoptionen af Nvidia DGX kunstig intelligens-systemer vokset eksponentielt.

GPU LIQUID COOLING

Nvidia DGX-systemet kan bruge avancerede nedsænkningskøledesigns, der bruger dielektriske væsker. Direkte chipkøling pumper dielektriske væsker direkte på GPU-chips og andre termiske komponenter uden behov for kolde plader, hvilket opnår mere direkte varmeoverførsel. Den kan understøtte meget høje TDP-niveauer (500W+) på en enkelt chip, hvilket giver mere tætte systemer.

Direct chip immersion cooling

Da kunstig intelligens fortsætter med at udvikle sig med en forbløffende hastighed, skal den understøttede hardwareinfrastruktur udvikle sig synkront. Væskekøling er en nøgleteknologi, der gør det muligt for acceleratorer at skalere til hidtil usete præstationsniveauer. Denne transformation er ikke uden udfordringer. Fordi datacentre kræver transformation af væskekølingsinfrastruktur og udvikling af nye vedligeholdelsesprogrammer, er fordelene ved energieffektivitet, tæthed og ydeevne betydelige og kan ikke ignoreres.

Et par af: Inspur Information G7 serverkøleløsning

Næste: Væskekølede servere: et nyt valg i big data-æraen

Viden

Nvidias væskekølingsrevolution til AI-server