Het grote nieuws deze week van Nvidia, dat de krantenkoppen haalde, was de aankondiging van het bedrijf van zijn Vera Rubin GPU.
Deze week gebruikte Nvidia-CEO Jensen Huang zijn keynote op CES om de prestatieparameters van de nieuwe chip te benadrukken. Volgens Huang is de Rubin GPU in staat om 50 PFLOP’s aan NVFP4-inferentie en 35 PFLOP’s aan NVFP4-trainingsprestaties te behalen, wat 5x en 3,5x de prestaties van Blackwell vertegenwoordigt.
Maar het zal pas in de tweede helft van 2026 beschikbaar zijn. Wat moeten bedrijven nu doen?
Blackwell blijft verbeteren
De huidige Nvidia GPU-architectuur die te koop is, is Blackwell, wat dat ook was aangekondigd in 2024 als Hopper’s opvolger. Naast deze release benadrukte Nvidia dat haar productontwikkelingstraject ook het benutten van zoveel mogelijk prestaties van de vorige Grace Hopper-architectuur omvatte.
Het is een richting die ook voor Blackwell zal gelden, aangezien Vera Rubin later dit jaar arriveert.
“We blijven onze inferentie- en trainingsstacks voor de Blackwell-architectuur optimaliseren”, vertelde Dave Salvator, directeur van Accelerated Computing Products bij Nvidia, aan VentureBeat.
In dezelfde week dat Vera Rubin door de CEO van Nvidia werd aangeprezen als de krachtigste GPU ooit, bracht het bedrijf nieuwe onderzoek met verbeterde Blackwell-prestaties.
Hoe de prestaties van Blackwell de gevolgtrekking met 2,8 keer verbeterden
Nvidia kon de Blackwell GPU-prestaties in slechts drie maanden met maximaal 2,8x per GPU verhogen.
De prestatieverbeteringen komen voort uit een aantal innovaties die zijn toegevoegd aan de Nvidia TensorRT-LLM-inferentie-engine. Deze optimalisaties zijn van toepassing op bestaande hardware, waardoor huidige Blackwell-implementaties een hogere doorvoer kunnen realiseren zonder hardwarewijzigingen.
Prestatiewinsten worden gemeten op DeepSeek-R1, een model van 671 miljard parametermix van experts (MoE) dat 37 miljard parameters per token activeert.
Onder de technische innovaties die betere prestaties garanderen:
-
Programmeringsafhankelijk opstarten (PDL): De uitgebreide implementatie vermindert de latenties bij het opstarten van de kernel, waardoor de doorvoer toeneemt.
-
Universele communicatie: De nieuwe implementatie van communicatieprimitieven elimineert een tussenbuffer, waardoor de geheugenoverhead wordt verminderd.
-
Multi-token voorspelling (MTP): Genereer meerdere tokens per voorwaartse doorgang in plaats van één voor één, waardoor de doorvoer over verschillende reekslengtes toeneemt.
-
NVFP4-formaat: Een hardwareversneld 4-bit floating-point-formaat in Blackwell dat de vereisten voor geheugenbandbreedte vermindert terwijl de modelnauwkeurigheid behouden blijft.
De optimalisaties verlagen de kosten per miljoen tokens en zorgen ervoor dat de bestaande infrastructuur hogere aanvraagvolumes met een lagere latentie kan verwerken. Cloudproviders en ondernemingen kunnen hun AI-diensten schalen zonder onmiddellijke hardware-upgrades.
Blackwell verbeterde ook zijn trainingsprestaties
Blackwell wordt ook veel gebruikt als fundamentele hardwarecomponent voor het trainen van grotere taalmodellen.
In dit opzicht rapporteerde Nvidia ook aanzienlijke winsten voor Blackwell bij gebruik voor AI-training.
Sinds de eerste lancering heeft het GB200 NVL72-systeem tot 1,4x betere trainingsprestaties geleverd op dezelfde hardware – een toename van 40% in slechts vijf maanden zonder enige hardware-upgrades.
De trainingspush kwam voort uit een reeks updates, waaronder:
-
Geoptimaliseerde trainingsrecepten. Nvidia-ingenieurs hebben geavanceerde trainingsrecepten ontwikkeld die effectief gebruik maken van de NVFP4-precisie. De initiële voorstellen van Blackwell maakten gebruik van FP8-precisie, maar de overstap naar NVFP4-geoptimaliseerde recepten zorgde voor aanzienlijke extra prestaties van bestaand silicium.
-
Algoritmische verfijningen. Voortdurende verbeteringen aan de softwarestack en algoritmen hebben het platform in staat gesteld betere prestaties uit dezelfde hardware te halen, wat blijk geeft van voortdurende innovatie na de eerste release.
Double Blackwell of wachten op Vera Rubin?
Salvator merkte op dat de high-end Blackwell Ultra een toonaangevend platform is dat speciaal is gebouwd om geavanceerde AI-modellen en -applicaties uit te voeren.
Hij voegde eraan toe dat het Nvidia Rubin-platform het marktleiderschap van het bedrijf zal uitbreiden en de volgende generatie MoE in staat zal stellen een nieuwe klasse toepassingen aan te sturen om AI-innovatie nog verder te brengen.
Salvator legde uit dat Vera Rubin is gebouwd om te voldoen aan de groeiende computervraag die ontstaat door de voortdurende groei van de modelomvang en het genereren van redeneringstokens van toonaangevende modellen zoals MoE.
“Blackwell en Rubin bedienen misschien dezelfde modellen, maar het verschil zit hem in de prestaties, efficiëntie en nominale kosten”, zei hij.
Volgens vroege testresultaten van Nvidia kan Rubin, vergeleken met Blackwell, grote MoE-modellen trainen in een kwart van het aantal GPU’s, inferentietokens genereren met 10x de doorvoer per watt, en inferentie tegen 1/10 van de kosten per token.
“Betere prestaties en efficiëntie van de tokendoorvoer betekenen dat je nieuwere modellen kunt creëren met grotere redeneermogelijkheden en snellere agent-tot-agent-interactie, waardoor betere intelligentie ontstaat tegen lagere kosten”, aldus Salvator.
Wat dit allemaal betekent voor zakelijke AI-ontwikkelaars
Voor bedrijven die vandaag de dag AI-infrastructuur inzetten, blijven de huidige investeringen in Blackwell sterk, ondanks de komst van Vera Rubin later dit jaar.
Organisaties met bestaande Blackwell-implementaties kunnen onmiddellijk 2,8x gevolgverbetering en 1,4x trainingstoename realiseren door te upgraden naar de nieuwste versies van TensorRT-LLM, wat echte kostenbesparingen oplevert zonder kapitaaluitgaven. Voor degenen die nieuwe implementaties plannen in de eerste helft van 2026 is het zinvol om verder te gaan met Blackwell. Zes maanden wachten betekent dat AI-initiatieven worden uitgesteld en mogelijk achterop raakt bij concurrenten die ze vandaag al implementeren.
Bedrijven die grootschalige infrastructuurimplementaties plannen voor eind 2026 en daarna moeten Vera Rubin echter in hun routekaarten opnemen. Een tienvoudige verbetering van de doorvoer per watt en een tiende van de kosten per token vertegenwoordigen transformatieve economie voor grootschalige AI-operaties.
De slimme aanpak bestaat uit een gefaseerde implementatie: Blackwell benutten voor onmiddellijke behoeften en tegelijkertijd systemen ontwerpen waarin Vera Rubin kan worden geïntegreerd, indien beschikbaar. Het continue optimalisatiemodel van Nvidia betekent dat dit geen binaire keuze is; bedrijven kunnen de waarde van de huidige implementaties maximaliseren zonder het concurrentievermogen op de lange termijn op te offeren.



