Het verlagen van de kosten van gevolgtrekking is doorgaans een combinatie van hardware en software. Een nieuwe analyse die donderdag door Nvidia is vrijgegeven, geeft aan hoe vier grote aanbieders van inferentie een 4x tot 10x verlaging van de kosten per token rapporteren.
De opmerkelijke kostenbesparingen werden bereikt door het gebruik van Nvidia’s Blackwell-platform met open source-modellen. Gegevens over de productie-implementatie van Baseten, DeepInfra, Fireworks AI en Together AI laten aanzienlijke kostenverbeteringen zien in de gezondheidszorg, gaming, chat met agenten en klantenservice, nu bedrijven AI opschalen van pilots naar miljoenen gebruikers.
De 4x tot 10x kostenbesparingen gerapporteerd door leveranciers van inferentie vereisten het combineren van Blackwell-hardware met twee andere elementen: geoptimaliseerde softwarestacks en de overstap van propriëtaire modellen naar open source-modellen die nu overeenkomen met intelligentie op grensniveau. Volgens de analyse resulteerden hardwareverbeteringen alleen al in een dubbele winst bij sommige implementaties. Om grotere kostenbesparingen te realiseren, was het nodig om formaten met lage precisie, zoals NVFP4, te gebruiken en af te stappen van gesloten source-API’s die premiumkosten in rekening brengen.
Economie blijkt contra-intuïtief te zijn. Het verlagen van de gevolgtrekkingskosten vereist investeringen in een infrastructuur met hogere prestaties, omdat doorvoerverbeteringen zich direct vertalen in lagere kosten per token.
“Prestaties bepalen de kosten van inferentie”, vertelde Dion Harris, senior director van HPC en AI hyperscaler-oplossingen bij Nvidia, aan VentureBeat in een exclusief interview. “Wat we hieruit concluderen is dat de doorvoer zich letterlijk vertaalt in echte dollarwaarde en de kosten verlaagt.”
Productie-implementaties laten 4x tot 10x kostenbesparingen zien
Nvidia heeft vier klantimplementaties gedetailleerd beschreven in een blogpost die laat zien hoe de combinatie van Blackwell-infrastructuur, geoptimaliseerde softwarestacks en open source-modellen kostenbesparingen oplevert voor de werklast in de sector. De casestudy’s behandelen grootschalige toepassingen waarbij de economie van inferentie de levensvatbaarheid van bedrijven rechtstreeks stimuleert.
Volgens Nvidia heeft Sully.ai de kosten voor AI-inferentie in de gezondheidszorg met 90% verlaagd (een 10x reductie), terwijl de responstijden met 65% zijn verbeterd door over te schakelen van propriëtaire naar open source-modellen die draaien op Basetens Blackwell-gebaseerde platform. Het bedrijf heeft meer dan 30 miljoen minuten aan artsen teruggegeven door het automatiseren van medische codering en het maken van aantekeningen, waarvoor voorheen handmatige gegevensinvoer nodig was.
Nvidia meldde ook dat Latitude de kosten voor game-inferentie voor zijn AI Dungeon-platform met een factor vier heeft verlaagd door grote mix-of-expert (MoE)-modellen uit te voeren op de Blackwell-implementatie van DeepInfra. De kosten per miljoen tokens daalden van 20 cent op Nvidia’s vorige Hopper-platform naar 10 cent op Blackwell en vervolgens naar 5 cent na de adoptie van Blackwell’s native NVFP4-formaat met lage precisie. De hardware alleen al zorgde voor een 2x verbetering, maar voor het bereiken van 4x was een nauwkeurige formaatwijziging nodig.
Volgens Nvidia heeft Sentient Foundation een kostenverbetering van tussen de 25% en 50% gerealiseerd voor zijn agent-chatplatform met behulp van Fireworks AI’s Blackwell-geoptimaliseerde inferentiestapel. Het platform orkestreert complexe multi-agent workflows en verwerkte 5,6 miljoen queries in slechts één week tijdens de virale lancering, met behoud van een lage latentie.
Nvidia zei dat Decagon een reductie van de kosten per zoekopdracht met 6x heeft bereikt voor AI-aangedreven spraakklantenondersteuning door zijn multi-modellenstack op Together AI’s Blackwell-infrastructuur te draaien. De responstijden bleven onder de 400 milliseconden, zelfs bij het verwerken van duizenden tokens per zoekopdracht, wat van cruciaal belang is voor spraakinteracties waarbij vertragingen ervoor zorgen dat gebruikers ophangen of het vertrouwen verliezen.
Technische factoren die 4x versus 10x verbeteringen aandrijven
Het bereik van 4x tot 10x kostenbesparingen tussen implementaties weerspiegelt verschillende combinaties van technische optimalisaties in plaats van eenvoudige hardwareverschillen. Drie factoren komen naar voren als primaire drijfveren: nauwkeurige adoptie van formaten, keuzes in de modelarchitectuur en integratie van de softwarestack.
Precisieformaten laten de duidelijkste impact zien. Het geval van Latitude laat dit direct zien. De overstap van Hopper naar Blackwell resulteerde in een tweevoudige kostenbesparing dankzij hardwareverbeteringen. Door NVFP4, Blackwells eigen lage-precisieformaat, toe te passen, werd de verbetering in totaal verdubbeld tot 4x. NVFP4 vermindert het aantal bits dat nodig is om modelgewichten en activeringen weer te geven, waardoor meer berekeningen per GPU-cyclus mogelijk zijn, terwijl de nauwkeurigheid behouden blijft. Het formaat werkt bijzonder goed voor MoE-modellen waarbij slechts een subset van het model wordt geactiveerd voor elk gevolgtrekkingsverzoek.
De architectuur van het model is belangrijk. MoE-modellen, die verschillende gespecialiseerde submodellen activeren op basis van input, profiteren van Blackwell’s NVLink-fabric die snelle communicatie tussen experts mogelijk maakt. “Door deze experts via het NVLink-framework te laten communiceren, kun je heel snel nadenken”, aldus Harris. Dichte modellen die alle parameters voor elke gevolgtrekking mogelijk maken, maken niet zo effectief gebruik van deze architectuur.
Integratie van softwarestacks creëert extra prestatiedelta’s. Harris zei dat de co-designaanpak van Nvidia, waarbij de Blackwell-hardware, de NVL72-scale-uparchitectuur en software zoals Dynamo en TensorRT-LLM samen worden geoptimaliseerd, ook een verschil maakt. De Baseten-implementatie voor Sully.ai maakte gebruik van deze geïntegreerde stack, waarbij NVFP4, TensorRT-LLM en Dynamo werden gecombineerd om een kostenbesparing van 10x te realiseren. Leveranciers die alternatieve raamwerken zoals vLLM gebruiken, verdienen mogelijk minder.
Kenmerken van de werklast zijn van belang. Redeneringsmodellen vertonen bijzondere voordelen ten opzichte van Blackwell omdat ze veel meer tokens genereren om betere antwoorden te verkrijgen. Het vermogen van het platform om deze grote reeksen tokens efficiënt te verwerken via een opgesplitst aanbod, waarbij contextprecompilatie en tokengeneratie afzonderlijk worden afgehandeld, maakt redeneringswerklasten kosteneffectief.
Teams die potentiële kostenbesparingen evalueren, moeten hun werklastprofielen aan deze factoren toetsen. Hoge werklasten voor het genereren van tokens met behulp van gemengde expertmodellen met de geïntegreerde Blackwell-softwarestack zullen het bereik van 10x benaderen. Lagere tokenvolumes met behulp van compacte modellen op alternatieve raamwerken zullen 4x benaderen.
Welke teams moeten testen voordat ze migreren
Hoewel deze casestudies zich richten op Nvidia Blackwell-implementaties, hebben bedrijven meerdere mogelijkheden om de gevolgtrekkingskosten te verlagen. AMD’s MI300-serie, Google’s TPU’s en gespecialiseerde inferentieversnellers van Groq en Cerebras bieden alternatieve architecturen. Cloudproviders blijven ook hun inferentiediensten optimaliseren. De vraag is niet of Blackwell de enige optie is, maar of de specifieke combinatie van hardware, software en modellen voldoet aan bepaalde werklastvereisten.
Bedrijven die op Blackwell gebaseerde inferentie overwegen, moeten beginnen met te berekenen of hun werklast veranderingen in de infrastructuur rechtvaardigt.
“Bedrijven moeten herstellen van de werkdruk, gebruiksscenario’s en kostenbeperkingen”, zegt Shruti Koparkar, AI-productmarketing bij Nvidia, tegen VentureBeat.
De implementaties die zes tot tien keer zoveel verbeteringen opleverden, hadden allemaal betrekking op latentiegevoelige applicaties met een hoog volume die miljoenen verzoeken per maand verwerkten. Teams die lagere volumes of applicaties draaien met een latentiebudget van meer dan één seconde moeten software-optimalisatie of modelwisseling onderzoeken voordat ze infrastructuurupgrades overwegen.
Testen is belangrijker dan leveranciersspecificaties. Koparkar wijst erop dat leveranciers doorvoer- en latentiestatistieken publiceren, maar deze vertegenwoordigen ideale omstandigheden.
“Als het om een zeer latentiegevoelige werklast gaat, willen ze misschien een paar leveranciers testen en zien wie aan het absolute minimum voldoet en tegelijkertijd de kosten laag houdt”, zegt hij. Teams moeten daadwerkelijke productieworkloads uitvoeren bij meerdere Blackwell-leveranciers om de prestaties in de echte wereld te meten op basis van hun specifieke gebruikspatronen en verkeerspieken, in plaats van te vertrouwen op gepubliceerde benchmarks.
De stapsgewijze aanpak van Latitude biedt een blauwdruk voor evaluatie. Het bedrijf schakelde eerst over op Blackwell-hardware en mat een 2x verbetering, en schakelde vervolgens over op NVFP4 om een totale reductie van 4x te bereiken. Teams die momenteel Hopper of een andere infrastructuur gebruiken, kunnen testen of precieze formaatwijzigingen en software-optimalisaties op bestaande hardware aanzienlijke besparingen opleveren voordat ze zich engageren voor volledige infrastructuurmigraties. Het draaien van open source-modellen op de huidige infrastructuur zou de helft van de potentiële kostenbesparingen kunnen opleveren zonder nieuwe hardware-investeringen.
Leveranciersselectie vereist inzicht in de verschillen in de softwarestack. Hoewel verschillende leveranciers Blackwell-infrastructuur aanbieden, variëren hun software-implementaties. Sommigen gebruiken de geïntegreerde stack van Nvidia met Dynamo en TensorRT-LLM, terwijl anderen frameworks zoals vLLM gebruiken. Harris erkent dat er prestatieverschillen zijn tussen deze configuraties. Teams moeten evalueren wat elke provider feitelijk doet en hoe deze voldoet aan de werklastvereisten, in plaats van aan te nemen dat alle Blackwell-implementaties identiek werken.
De economische vergelijking gaat verder dan de kosten per token. Gespecialiseerde leveranciers van gevolgtrekkingen zoals Baseten, DeepInfra, Fireworks en Together bieden geoptimaliseerde implementaties, maar vereisen het beheer van aanvullende leveranciersrelaties. Services die worden beheerd door AWS, Azure of Google Cloud kunnen hogere kosten per token hebben, maar een lagere operationele complexiteit. Teams moeten de totale kosten berekenen, inclusief operationele overhead, en niet alleen gevolgtrekkingsprijzen, om te bepalen welke aanpak de beste economische voordelen biedt voor hun specifieke situatie.


