Home Nieuws Doorbreek de AI-geheugenmuur met tokenopslag

Doorbreek de AI-geheugenmuur met tokenopslag

1
0
Doorbreek de AI-geheugenmuur met tokenopslag

Terwijl AI zich verplaatst van experimenten naar echte productiewerklasten, komt een stil maar serieus infrastructuurprobleem in beeld: geheugen. Bereken niet. Geen modellen. Geheugen.

Onder de motorkap hebben de huidige GPU’s simpelweg niet genoeg ruimte om de key-value (KV) caches te bevatten waar moderne, langlopende AI-agents van afhankelijk zijn om de context te behouden. Het resultaat is veel onzichtbare verspilling: GPU’s herhalen werk dat al is gedaan, de cloudkosten stijgen en de prestaties gaan achteruit. Het is een probleem dat al opduikt in productieomgevingen, ook al hebben de meeste mensen er nog geen naam aan gegeven.

Tijdens een recente stop op de VentureBeat AI Impact Series sloot WEKA CTO Shimon Ben-David zich aan bij VentureBeat CEO Matt Marshall om de opkomende ‘geheugenmuur’ van de industrie te onthullen en waarom dit een van de grootste obstakels aan het worden is voor het opschalen van werkelijk stateful AI: systemen die zich in de loop van de tijd de context kunnen herinneren en erop kunnen vertrouwen. Het gesprek stelde niet alleen het probleem vast; heeft een geheel nieuwe manier van denken over geheugen geschetst, via een aanpak die WEKA token warehousing noemt.

Het GPU-geheugenprobleem

“Als we naar de inferentie-infrastructuur kijken, is het geen GPU-cyclusuitdaging. Het is in de eerste plaats een GPU-geheugenprobleem”, aldus Ben-David.

De wortel van het probleem ligt in de werking van transformatormodellen. Om reacties te genereren, vertrouwen ze op KV-caches die contextuele informatie opslaan voor elk token in een gesprek. Hoe langer het contextvenster, hoe meer geheugen de caches verbruiken, en het klopt allemaal snel. Een enkele reeks van 100.000 tokens kan ongeveer 40 GB GPU-geheugen vereisen, merkte Ben-David op.

Dit zou geen probleem zijn als GPU’s onbeperkt geheugen hadden. Maar dat doen ze niet. Zelfs de meest geavanceerde GPU’s halen maximaal ongeveer 288 GB geheugen met hoge bandbreedte (HBM), en die ruimte moet ook passen bij het model zelf.

In echte omgevingen met meerdere tenants wordt dit al snel pijnlijk. Werklasten zoals codeontwikkeling of belastingaangifteverwerking zijn voor context sterk afhankelijk van de KV-cache.

“Als ik drie of vier PDF’s van 100.000 token in een sjabloon laad, is dat het: ik heb de KV-cachecapaciteit op HBM uitgeput”, zei Ben-David. Dit is wat bekend staat als de geheugenmuur. “Plotseling wordt de gevolgtrekkingsomgeving gedwongen de gegevens weg te gooien”, voegde hij eraan toe.

Dit betekent dat GPU’s voortdurend context elimineren die ze binnenkort weer nodig zullen hebben, waardoor wordt voorkomen dat agenten stateful zijn en gesprekken en context in de loop van de tijd behouden blijven

De verborgen gevolgtrekkingsbelasting

“We zien voortdurend dat GPU’s in inferentieomgevingen dingen die ze al hebben gedaan opnieuw berekenen”, zegt Ben-David. Systemen vullen de KV-cache vooraf in, beginnen met decoderen, hebben dan geen ruimte meer en verwijderen eerdere gegevens. Wanneer die context weer nodig is, herhaalt het hele proces zich: precompilatie, reverse engineering, opnieuw precompilatie. Op grote schaal is dit een enorme hoeveelheid verspild werk. Het betekent ook verspilling van energie, verhoogde latentie en een verslechterde gebruikerservaring, terwijl de marges onder druk staan.

GPU-herberekeningsverspilling verschijnt direct op de balans. Organisaties kunnen bijna 40% overhead ervaren alleen al vanwege redundante precompilatiecycli. Dit zorgt voor rimpeleffecten op de inferentiemarkt.

“Als je kijkt naar de prijzen van grote modelleveranciers zoals Anthropic en OpenAI, leren ze gebruikers feitelijk hun berichten zo te structureren dat de kans groter wordt dat ze dezelfde GPU raken waar de KV-cache is opgeslagen”, aldus Ben-David. “Als je op die GPU tikt, kan het systeem de precompilatiefase overslaan en onmiddellijk beginnen met decoderen, waardoor ze op efficiënte wijze meer tokens kunnen genereren.”

Maar dit lost nog steeds niet het fundamentele infrastructuurprobleem van de extreem beperkte GPU-geheugencapaciteit op.

Stateful AI-resolutie

“Hoe kom je voorbij de geheugenmuur? Hoe kom je er voorbij? Dat is de sleutel tot moderne, kosteneffectieve gevolgtrekkingen”, zei Ben-David. “We zien dat steeds meer bedrijven dit probleem op verschillende manieren proberen op te lossen.”

Sommige organisaties implementeren nieuwe lineaire modellen die proberen kleinere KV-caches te creëren. Anderen richten zich op het optimaliseren van de cache-efficiëntie.

“Om efficiënter te zijn, gebruiken bedrijven omgevingen die de KV-cache op een GPU berekenen en deze vervolgens uit het geheugen van de GPU proberen te kopiëren of hiervoor een lokale omgeving gebruiken”, legt Ben-David uit. “Maar hoe kunnen we dit op schaal en kosteneffectief doen, zonder geheugen en netwerk te belasten? Dit is iets waar WEKA onze klanten mee helpt.”

Het simpelweg gebruiken van meerdere GPU’s om het probleem op te lossen, lost de AI-geheugenbarrière niet op. “Er zijn een aantal problemen waarbij je niet genoeg geld kunt investeren om ze op te lossen”, zei Ben-David.

Meer geheugen en tokenopslag uitgelegd

Het antwoord van WEKA is wat het augmented memory en token warehousing noemt: een manier om opnieuw na te denken over waar en hoe KV-cachegegevens zich bevinden. In plaats van te forceren dat alles in het GPU-geheugen past, breidt WEKA’s Augmented Memory Grid de KV-cache uit naar een snel, gedeeld “magazijn” binnen de NeuralMesh-architectuur.

In de praktijk transformeert dit het geheugen van een harde beperking in een schaalbare hulpbron, zonder toevoeging van gevolglatentie. WEKA zegt dat klanten de KV-cachehitrates zien stijgen tot 96-99% voor agentic workloads, samen met efficiëntiewinsten van maximaal 4,2x meer tokens geproduceerd per GPU.

Ben-David zei het eenvoudig: “Stel je voor dat je 100 GPU’s hebt die een bepaald aantal tokens produceren. Stel je nu voor dat die honderden GPU’s functioneren alsof het 420 GPU’s zijn.”

Voor grote leveranciers van gevolgtrekkingen is het resultaat niet alleen betere prestaties, maar vertaalt het zich ook direct in reële economische impact.

“Alleen al door de versnelde KV-cachelaag toe te voegen, kijken we naar enkele gebruiksscenario’s waarbij de besparingen miljoenen dollars per dag zouden bedragen”, aldus Ben-David.

Deze efficiëntievermenigvuldiger opent ook nieuwe strategische opties voor bedrijven. Platformteams kunnen stateful agents ontwerpen zonder zich zorgen te hoeven maken over toenemende geheugenbudgetten. Serviceproviders kunnen prijsniveaus aanbieden op basis van persistente context, waarbij in de cache opgeslagen gevolgtrekkingen tegen aanzienlijk lagere kosten worden aangeboden.

Wat komt er daarna

NVIDIA verwacht een honderdvoudige toename van de vraag naar inferentie naarmate agent AI de dominante werklast wordt. Deze druk verspreidt zich al van hyperscalers naar alledaagse bedrijfsimplementaties – het is niet langer alleen maar een “big tech”-probleem.

Nu bedrijven overstappen van proofs of concept naar echte productiesystemen, wordt geheugenpersistentie een belangrijk infrastructuurprobleem. Organisaties die dit als een architectonische prioriteit beschouwen in plaats van als een bijzaak, zullen een duidelijk voordeel behalen op het gebied van zowel kosten als prestaties.

De geheugenmuur is niet iets dat organisaties eenvoudigweg kunnen overwinnen door buitensporige uitgaven. Naarmate agent AI groeit, is het een van de eerste beperkingen van de AI-infrastructuur die een diepere heroverweging dwingt, en zoals de inzichten van Ben-David duidelijk maken, kan het geheugen ook het punt zijn waar de volgende golf van concurrentiedifferentiatie begint.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in