Van kilometers ver door de woestijn ziet de Grote Piramide eruit als een perfecte, vloeiende geometrie: een elegante driehoek die naar de sterren wijst. Blijf echter bij de basis en de illusie van gladheid vervaagt. Je ziet enorme grillige blokken kalksteen. Het is geen helling; het is een ladder.
Onthoud dit de volgende keer dat u futuristen hoort praten over exponentiële groei.
Mede-oprichter van Intel, Gordon Moore (de wet van Moore) stelde in 1965 dat het aantal transistors op een microchip elk jaar zou verdubbelen. Een andere Intel-topman, David House, herzag deze verklaring later in ‘de rekenkracht verdubbelt elke 18 maanden’. Een tijdlang waren Intel CPU’s het symbool van deze wet. Dat wil zeggen, totdat de groei van de CPU-prestaties afvlakte als een blok kalksteen.
Als je echter uitzoomt, was het volgende blok kalksteen er al: de computergroei verplaatste zich simpelweg van CPU’s naar de wereld van GPU’s. Jensen Huang, CEO van Nvidia, heeft het lange spel gespeeld en is als sterke winnaar uit de bus gekomen. Hij bouwde zijn springplanken aanvankelijk met games, daarna met computervisie en, recentelijk, met generatieve kunstmatige intelligentie.
De illusie van regelmatige groei
De technologische groei zit vol sprints en stilstanden, en de AI-generatie is daar niet immuun voor. De stroomgolf wordt aangedreven door de transformatorarchitectuur. Om Anthropic-president en mede-oprichter Dario Amodei te citeren: “Het exponentiële gaat door totdat het niet stopt. En elk jaar zeiden we: ‘Nou, er is geen manier waarop dingen exponentieel kunnen doorgaan’ – en dus is het elk jaar zo.”
Maar net nu de CPU zich heeft gestabiliseerd en GPU’s het voortouw hebben genomen, zien we tekenen dat de groei van LLM de paradigma’s opnieuw verandert. Eind 2024 verraste DeepSeek bijvoorbeeld de wereld door met een ongelooflijk klein budget een model van wereldklasse te trainen, deels met behulp van de MoE-techniek.
Weet je nog waar je deze techniek onlangs hebt genoemd? Nvidia’s Rubin-persbericht: De technologie omvat “…de nieuwste generaties Nvidia NVLink-interconnecttechnologie… om agent-AI, geavanceerd redeneren en MoE-modelinferentie op schaal te versnellen tegen tot 10x lagere kosten per token.”
Jensen weet dat het bereiken van de gewenste exponentiële groei in computergebruik niet langer het resultaat is van puur brute kracht. Soms is het nodig om de architectuur volledig te verplaatsen om de volgende stapsteen te plaatsen.
De latentiecrisis: waar Groq in past
Deze lange introductie brengt ons bij Groq.
De grootste verbeteringen in het redeneervermogen van AI in 2025 werden gedreven door ‘het berekenen van de inferentietijd’, of, in lekentermen, ‘het model langer laten nadenken’. Maar tijd is geld. Consumenten en bedrijven houden niet van wachten.
Groq komt hier in het spel met zijn razendsnelle gevolgtrekking. Als je de architectonische efficiëntie van modellen als DeepSeek en de enorme productiviteit van Groq combineert, heb je grensverleggende intelligentie binnen handbereik. Door sneller gevolgtrekkingen uit te voeren, kunnen concurrerende modellen worden ‘beredeneerd’, waardoor klanten een ‘slimmer’ systeem krijgen zonder vertragingsboetes.
Van de universele chip tot inferentie-optimalisatie
De afgelopen tien jaar is de GPU de universele hamer op elke AI-spijker geweest. Je gebruikt de H100s om het model te trainen; u gebruikt H100 (of gereduceerde versies) om het model uit te voeren. Maar naarmate modellen evolueren naar het “Systeem 2”-denken – waarbij de AI redeneert, zichzelf corrigeert en itereert voordat ze reageert – verandert de rekenwerklast.
Training vereist enorme parallelle brute kracht. Inferentie, vooral voor redeneermodellen, vereist een snellere sequentiële verwerking. Het moet onmiddellijk tokens genereren om complexe denkketens mogelijk te maken zonder dat de gebruiker minuten op een antwoord hoeft te wachten. De Language Processing Unit (LPU)-architectuur van Groq elimineert het knelpunt in de geheugenbandbreedte waar GPU’s last van hebben tijdens kleine batch-inferentie, waardoor extreem snelle inferentie ontstaat.
De motor voor de volgende groeigolf
Voor het senior management lost deze potentiële convergentie de ‘denktijd’-latentiecrisis op. Denk eens aan de verwachtingen van AI-agenten: we willen dat ze autonoom vluchten boeken, hele apps coderen en naar juridische precedenten zoeken. Om dit betrouwbaar te kunnen doen, moet een model mogelijk 10.000 interne ‘gedachte-tokens’ genereren om zijn werk te verifiëren voordat er ook maar één woord naar de gebruiker wordt gestuurd.
-
Op een standaard GPU: 10.000 gedachtefiches kunnen 20 tot 40 seconden duren. De gebruiker verveelt zich en vertrekt.
-
Over Groq: Dezelfde gedachtenreeks vindt plaats in minder dan 2 seconden.
Als Nvidia de technologie van Groq zou integreren, zou dit het probleem van ‘wachten tot de robot denkt’ oplossen. Ze behouden de magie van kunstmatige intelligentie. Net zoals ze van pixelrendering (games) naar rendering-intelligentie (gen AI) overstapten, zouden ze nu overgaan op rendering redenering in realtime.
Bovendien creëert dit een formidabele slotgracht voor de software. Het grootste obstakel voor Groq is altijd de softwarestack geweest; Nvidia’s grootste troef is CUDA. Als Nvidia zijn ecosysteem rond de hardware van Groq zou omwikkelen, zou het in feite een gracht graven die zo breed is dat concurrenten er niet overheen kunnen. Ze zouden het universele platform bieden: de beste omgeving voor training en de meest efficiënte omgeving voor hardlopen (Groq/LPU).
Bedenk eens wat er gebeurt als je die pure inferentiekracht koppelt aan een open source-model van de volgende generatie (zoals de geruchten over DeepSeek 4): je krijgt een aanbod dat qua kosten, prestaties en snelheid kan wedijveren met de hedendaagse grensmodellen. Dit opent mogelijkheden voor Nvidia, van het rechtstreeks betreden van de inferentie-activiteiten met zijn eigen cloudaanbod, tot het blijven ondersteunen van een groeiend aantal exponentieel groeiende klanten.
De volgende stap op de piramide
Terugkerend naar onze openingsmetafoor: de ‘exponentiële’ groei van kunstmatige intelligentie is geen uniforme lijn van ruwe FLOP’s; het is een hele reeks knelpunten die worden opgelost.
-
Blok 1: We konden niet snel genoeg rekenen. Oplossing: De GPU.
-
Blok 2: We konden niet diep genoeg trainen. Oplossing: Transformator-architectuur.
-
Blok 3: We kunnen niet snel genoeg ‘denken’. Oplossing: Groq LPU.
Jensen Huang is nooit bang geweest om zijn eigen productlijnen te kannibaliseren om de toekomst te bezitten. Door Groq te valideren zou Nvidia niet alleen een snellere chip kopen; ze zouden de intelligentie van de volgende generatie naar de massa brengen.
Andrew Filev, oprichter en CEO van Zencoder
Welkom bij de VentureBeat-community!
In ons gastpostprogramma delen technische experts inzichten en bieden ze neutrale, niet-verdeelde inzichten over kunstmatige intelligentie, data-infrastructuur, cyberbeveiliging en andere geavanceerde technologieën die de toekomst van de onderneming vormgeven.
Lees meer uit ons gastpostprogramma en bekijk ons richtlijnen als u geïnteresseerd bent om uw artikel bij te dragen!



