Een recordbrekende sprong in efficiëntie en prestaties
In de razendsnelle wereld van artificiële intelligentie blijft één naam boven de rest uitsteken: NVIDIA. Recent zette de fabrikant een nieuwe standaard neer met zijn Blackwell-architectuur, waarin het bedrijf in onafhankelijke tests de concurrentie achter zich liet.
InferenceMAX v1: een benchmark met oog voor waar het écht op aankomt
De benchmark InferenceMAX v1, ontwikkeld door SemiAnalysis, richt zich niet alleen op pure snelheid. Er wordt gekeken naar doorvoer, latentie en vooral de totale cost-of-ownership (TCO) — met andere woorden: hoeveel het kost om AI-inference op schaal te draaien.
InferenceMax AI benchmark tests software stacks, efficiency, and TCO — vendor-neutral suite runs nightly and tracks performance changes over timeInferenceMax AI benchmark measures software stacks, efficiency, and TCO |
In deze tests veegde NVIDIA’s Blackwell B200 / GB200 NVL72 de vloer aan met concurrenten. De combinatie van hardware en software leverde een uitzonderlijk rendement op: een investering van 5 miljoen dollar kan volgens NVIDIA leiden tot 75 miljoen dollar in “token revenue” — een return-on-investment van 15×.
De key tot succes? Optimalisaties op elk niveau: quantisatie van modellen naar een 4-bit floating point formaat (NVFP4), efficiënte interne databusarchitecturen (NVLink, NVLink Switch), en intensieve samenwerking met open-source frameworks zoals vLLM.
SemiAnalysis InferenceMAX: vLLM and NVIDIA Accelerate Blackwell InferenceIntroductionBlackwell’s new compute architecture delivers a step-change in inference efficiency, incorporating the latest HBM3e memory (192 GB of HBM3e at 8 TB/s per B200), high NVLink data transfer speeds... |
Blackwell Ultra: de volgende generatie breekt nieuwe records
Maar NVIDIA rust niet op zijn lauweren. De nieuwste variant, Blackwell Ultra, die gebruikt wordt in het rack-schaalsysteem GB300 NVL72, zette onlangs opnieuw de benchmarkwereld op z’n kop in de MLPerf Inference v5.1 tests.
Op de DeepSeek-R1 benchmark behaalde GB300 een 45% hogere throughput per GPU dan de voorgaande GB200. Bovendien domineerde het systeem meerdere modellen, waaronder Llama 3.1 en Whisper.
Architecturale verbeteringen zoals 1,5× meer NVFP4-AI rekenkracht, 2× meer attention-laag acceleratie en een hogere HBM3e-geheugencapaciteit hielpen mee het verschil te maken.
|
NVIDIA Blackwell Raises Bar in New InferenceMAX Benchmarks, Delivering Unmatched Performance and EfficiencyNVIDIA Blackwell swept the new SemiAnalysis InferenceMAX v1 benchmarks, delivering the highest performance and best overall efficiency. |
Waarom dit van belang is
In de AI-wereld draait het niet alleen om wie de snelste chip heeft — succes hangt af van schaalbaarheid, energieverbruik, kosten per taak en efficiëntie op grote schaal. NVIDIA’s resultaten tonen aan dat het bedrijf niet alleen de technologische limieten doorbreekt, maar ook de economische ones aanpast.
Bedrijven die AI op grote schaal inzetten — “AI factories” zoals NVIDIA het noemt — hebben er alle belang bij om te kiezen voor infrastructuur die zowel krachtig als kostenefficiënt is. Met Blackwell tilt NVIDIA inference naar een volgende fase.









