De strategische licentieovereenkomst ter waarde van 20 miljard dollar tussen Nvidia en Groq vertegenwoordigt een van de eerste duidelijke stappen in een strijd op vier fronten over de toekomstige AI-stack. 2026 zal het moment zijn waarop deze strijd duidelijk wordt voor bedrijfsbouwers.
Voor de technische besluitvormers waarmee we elke dag praten – de mensen die AI-applicaties bouwen en de datapijplijnen die deze aandrijven – is deze deal een teken dat het tijdperk van de one-size-fits-all GPU als standaardantwoord op AI-gevolgtrekkingen ten einde loopt.
We betreden het tijdperk van gedesaggregeerde inferentiearchitectuurwaarbij het silicium zelf in twee verschillende typen wordt gesplitst om tegemoet te komen aan een wereld die zowel een enorme context als onmiddellijke redenering vereist.
Omdat gevolgtrekking de GPU-architectuur in tweeën breekt
Om te begrijpen waarom Nvidia-CEO Jensen Huang een derde van zijn geld verloor rapporteerde een stapel geld van $60 miljard Als het om een licentieovereenkomst gaat, moet u rekening houden met de existentiële bedreigingen die samenkomen in wat uw bedrijf rapporteert 92% marktaandeel..
De industrie heeft eind 2025 een omslagpunt bereikt: voor het eerst wordt gevolgtrekking – de fase waarin getrainde modellen daadwerkelijk worden uitgevoerd – overtrof de line-up in termen van totale datacenterinkomstenaldus Deloitte. In deze nieuwe “Inference Flip” zijn de statistieken veranderd. Hoewel nauwkeurigheid de maatstaf blijft, wordt de strijd nu gevoerd over de latentie en het vermogen om de ‘status’ van autonome agenten te behouden.
Er zijn vier fronten in deze strijd, en elk front leidt tot dezelfde conclusie: de werkbelasting van gevolgtrekkingen fragmenteert sneller dan GPU’s kunnen generaliseren.
1. Breek de GPU in tweeën: precompilatie en decodering
Gavin Baker, een Groq-investeerder (en daarom bevooroordeeld, maar ook ongewoon vloeiend in architectuur), samenvatting de belangrijkste drijfveer achter de deal met Groq: “Inferentie is het opsplitsen in precompilatie en decodering.”
Precompilatie EN decoderen er zijn twee verschillende fasen:
-
De precompilatiefase: Beschouw dit als de ‘verzoekfase’ van de gebruiker. Het model moet enorme hoeveelheden gegevens verwerken, of het nu gaat om een codebasis van 100.000 regels of een uur aan video, en een contextueel begrip berekenen. Dit is “beperkt door berekeningen”, wat een enorme matrixvermenigvuldiging vereist, waar Nvidia’s GPU’s historisch gezien in uitblonken.
-
De generatie- (decoderings-) fase: Dit is de daadwerkelijke “generatie” token voor token. Zodra de prompt is verkregen, genereert het model één woord (of token) tegelijk, en voert elk woord (of token) terug in het systeem om het volgende te voorspellen. Dit is “geheugenbandbreedte beperkt”. Als gegevens niet snel genoeg van het geheugen naar de processor kunnen worden overgebracht, stottert het model, hoe krachtig de GPU ook is. (Dit is waar Nvidia zwak was, en waar Groq’s speciale taalverwerkingseenheid (LPU) en bijbehorende SRAM schitteren. Daarover later meer.)
Nvidia heeft kondigde een aanstaande aan Vera Rubin familie van chips die specifiek is ontworpen om deze divisie aan te pakken. DE Rubin CPX lid van deze familie is het aangewezen “prefill”-werkpaard, geoptimaliseerd voor enorme contextvensters van 1 miljoen tokens of meer. Om deze schaalgrootte kosteneffectief te beheren, stapt u af van de aantrekkelijke uitgaven van geheugen met hoge bandbreedte (HBM) – Nvidia’s huidige gouden standaardgeheugen dat direct naast de GPU-chip zit – en in plaats daarvan 128 GB van een nieuw type geheugen gebruikt, GDDR7. Hoewel HBM extreme snelheid biedt (hoewel niet zo snel als Groq’s statische Random Access Memory (SRAM), is het GPU-aanbod beperkt en vormen de kosten een barrière voor schaalbaarheid; GDDR7 biedt een gemakkelijkere manier om enorme datasets te verwerven.
Ondertussen zal het ‘Groq-smaak’-silicium, dat Nvidia integreert in zijn routekaart voor gevolgtrekkingen, dienen als een snelle ‘decodering’-engine. Het gaat erom de dreiging van alternatieve architecturen zoals de TPU’s van Google te neutraliseren en hun dominantie te behouden CUDA, Het software-ecosysteem van Nvidia dat al meer dan tien jaar als belangrijkste gracht fungeert.
Dit alles was genoeg voor Baker, de Groq-investeerder, om te voorspellen dat Nvidia’s stap om Groq in licentie te geven de annulering van alle andere gespecialiseerde AI-chips zal veroorzaken, dat wil zeggen, buiten Google’s TPU, Tesla’s AI5 en AWS’s Trainium.
2. De gedifferentieerde kracht van de SRAM
De kern van de technologie van Groq is SRAM. In tegenstelling tot de DRAM in uw pc of de HBM op een Nvidia H100 GPU, wordt SRAM rechtstreeks in de processorlogica geëtst.
Michael Stewart, managing partner van het durffonds van Microsoft, M12, beschrijft SRAM als de beste oplossing voor het verplaatsen van gegevens over korte afstanden met minimaal energieverbruik. “De energie om een klein beetje te bewegen in de SRAM is 0,1 picojoule of minder”, zei Stewart. “Het verplaatsen tussen DRAM en de processor is 20 tot 100 keer erger.”
In de wereld van 2026, waar agenten in realtime moeten redeneren, fungeert SRAM als het ultieme ‘kladblok’: een snelle werkruimte waar het model symbolische bewerkingen en complexe redeneerprocessen kan manipuleren zonder de ‘verspilde cycli’ van het verplaatsen van extern geheugen.
SRAM heeft echter één groot nadeel: het is fysiek omvangrijk en duur om te produceren, wat betekent dat de capaciteit beperkt is in vergelijking met DRAM. Dit is waar Val Bercovici, chief AI officer bij Weka, een ander bedrijf dat GPU-geheugen aanbiedt, marktsegmentatie ziet.
Groq-vriendelijke AI-workloads – waarbij SRAM het voordeel heeft – zijn die die kleine modellen gebruiken met 8 miljard parameters of minder, zei Bercovici. Dit is echter geen kleine markt. “Het is gewoon een gigantisch marktsegment dat nog niet door Nvidia wordt bediend, namelijk edge-inferentie, lage latentie, robotica, spraak, IoT-apparaten – dingen die we op onze telefoons zonder cloud willen laten werken voor gemak, prestaties of privacy”, zei hij.
Deze ‘sweet spot’ van 8B is belangrijk omdat er in 2025 een explosie plaatsvond destillatiemodelwaar veel bedrijven gevestigd zijn het reduceren van enorme modellen tot zeer efficiënte kleinere versies. Hoewel SRAM niet praktisch is voor ‘frontier’-modellen met biljoen parameters, is het perfect voor deze kleinere, snelle modellen.
3. De antropische dreiging: de opkomst van de ‘portable stack’
Misschien wel de meest ondergewaardeerde factor van deze deal is het succes van Anthropic bij het draagbaar maken van zijn stack via accelerators.
Het bedrijf heeft pionierde met een draagbare technische aanpak voor training en gevolgtrekking – in feite een softwarelaag waarmee de Claude-modellen op meerdere families van AI-versnellers kunnen draaien – inclusief GPU’s van Nvidia en Google Ironwood TPU. Tot voor kort werd de dominantie van Nvidia beschermd omdat het draaien van krachtige modellen buiten de Nvidia-stack een technische nachtmerrie was. “Het is antropisch,” vertelde Bercovici van Weka me. “Het feit dat Anthropic erin is geslaagd een softwarestack te creëren die op zowel TPU als GPU kan draaien, wordt volgens mij niet genoeg gewaardeerd in de markt.”
(Openbaarmaking: Weka was een sponsor van VentureBeat-evenementen.)
Anthropic heeft onlangs toegezegd toegang te krijgen tot 1 miljoen TPU van Google, wat meer dan een gigawatt aan verwerkingscapaciteit vertegenwoordigt. Deze platformonafhankelijke aanpak zorgt ervoor dat het bedrijf niet gegijzeld wordt door de prijs- of aanbodbeperkingen van Nvidia. Voor Nvidia is de deal met Groq dus net zo goed een defensieve zet. Door de ultrasnelle inferentie-IP van Groq te integreren, zorgt Nvidia ervoor dat de meest prestatiegevoelige workloads, zoals die met kleine modellen of als onderdeel van real-time agents, kunnen worden gehost binnen Nvidia’s CUDA-ecosysteem, zelfs als concurrenten proberen over te stappen naar Google’s Ironwood TPU’s. CUDA is de speciale software die Nvidia aan ontwikkelaars levert om GPU’s te integreren.
4. De ‘staats’oorlog van agenten: Manus en KV Cache
De timing van deze overeenkomst met Groq valt samen met Meta’s overname van de pionieragent Manus nog maar twee dagen geleden. De betekenis van Manus was deels zijn obsessie staat.
Als een agent zich niet meer kan herinneren wat hij tien stappen geleden heeft gedaan, is hij nutteloos voor echte taken zoals marktonderzoek of softwareontwikkeling. KV-cache (sleutelwaardecache) het is het “kortetermijngeheugen” dat een LLM opbouwt tijdens de precompilatiefase.
Manus gerapporteerd die voor productieagenten, de verhouding tussen invoertokens en uitvoertokens kan 100:1 bereiken. Dit betekent dat voor elk woord dat een agent zegt, hij of zij er nog eens 100 “denkt” en “onthoudt”. In deze omgeving is het KV Cache-hitpercentage de belangrijkste maatstaf voor een productieagent, zei Manus. Als de cache uit het geheugen wordt ‘verwijderd’, verliest de agent zijn gedachtegang en moet het model enorme hoeveelheden energie verbranden om de prompt opnieuw te berekenen.
Groq’s SRAM kan een ‘basis’ zijn voor deze middelen, maar vooral voor kleinere modellen, omdat het een vrijwel onmiddellijk herstel van die toestand mogelijk maakt. Gecombineerd met Nvidia’s Dynamo structuur en KVBM bouwt Nvidia een “inferentiebesturingssysteem” waarmee inferentieservers deze status kunnen verdelen over SRAM, DRAM, HBM en andere op flash gebaseerde aanbiedingen zoals Bercovici’s Weka.
Thomas Jorgensen, senior directeur Technology Enablement bij Supermicro, gespecialiseerd in het bouwen van GPU-clusters voor grote ondernemingen, vertelde me in september dat rekenkracht niet langer het voornaamste knelpunt is voor geavanceerde clusters. Het invoeren van gegevens naar de GPU’s was het knelpunt, en om dat knelpunt te overwinnen is geheugen nodig.
“Het hele cluster is nu de computer”, zegt Jorgensen. “Netwerken worden een intern onderdeel van het beest… het beest voeden met data wordt steeds moeilijker omdat de bandbreedte tussen GPU’s sneller groeit dan wat dan ook.”
Dit is de reden waarom Nvidia streeft naar gedesaggregeerde gevolgtrekkingen. Door werklasten te scheiden, kunnen bedrijfsapplicaties gespecialiseerde opslaglagen gebruiken om gegevens te voeden met prestaties van geheugenklasse, terwijl gespecialiseerd “Groq-inside” silicium de snelle tokengeneratie afhandelt.
De uitspraak voor 2026
We betreden een tijdperk van extreme specialisatie. Decennia lang hebben de gevestigde exploitanten kunnen winnen door een dominante architectuur voor te stellen voor algemene doeleinden, en hun blinde vlek was vaak wat ze aan de rand negeerden. Intels langdurige verwaarlozing van laag energieverbruik is het klassieke voorbeeld, vertelde Michael Stewart, managing partner van Microsofts M12 durfkapitaalfonds, mij. Nvidia geeft aan dat het deze fout niet zal herhalen. “Als zelfs de leider, zelfs de leeuw van de jungle talent verwerft, technologie verwerft, is dat een teken dat de hele markt gewoon meer opties wil”, zei Stewart.
Voor technische leiders is de boodschap: stop met het ontwerpen van je stapel alsof het een rack, een accelerator, een antwoord is. In 2026 gaat het voordeel naar teams die werklasten expliciet labelen en naar het juiste niveau leiden:
-
zware precompilatie versus zware decodering
-
lange context versus korte context
-
interactief versus batch
-
klein model versus groot model
-
marginale beperkingen vergeleken met de aannames van datacenters
Jouw architectuur zal deze labels volgen. In 2026 zal de ‘GPU-strategie’ niet langer een aankoopbeslissing zijn, maar een routeringsbeslissing. Winnaars vragen niet welke chip ze hebben gekocht; ze vragen waar elk token naartoe is gegaan en waarom.



