Nvidia-onderzoekers hebben een techniek ontwikkeld die de geheugenkosten van redeneren op basis van grote taalmodellen tot wel acht keer kan verlagen. Hun techniek, genaamd Dynamische geheugensparsificatie (DMS), comprimeert de sleutelwaardecache (KV), het tijdelijke geheugen dat LLM’s genereren en opslaan terwijl ze verzoeken verwerken en redeneren over problemen en documenten.
Hoewel onderzoekers al verschillende methoden hebben voorgesteld om deze cache te comprimeren, hebben de meeste moeite om dit te doen zonder de intelligentie van het model aan te tasten. De aanpak van Nvidia slaagt erin een groot deel van de cache weg te gooien, terwijl de redeneermogelijkheden van het model behouden blijven (en in sommige gevallen worden verbeterd).
Experimenten tonen aan dat DMS LLM’s in staat stelt langer na te denken en meer oplossingen te verkennen zonder de gebruikelijke boetes voor snelheid of geheugenkosten.
Het knelpunt van het redeneren
LLM’s verbeteren hun prestaties bij complexe taken door het genereren van “keten van gedachten“, waarbij in wezen de redeneerstappen worden opgeschreven voordat tot een definitief antwoord komt. Inferentietijdschalingstechnieken profiteren hiervan door het model een groter budget te geven om deze gedachtetokens te genereren of om meerdere potentiële redeneerpaden parallel te verkennen.
Deze verbeterde redenering brengt echter aanzienlijke rekenkosten met zich mee. Naarmate het model meer tokens genereert, bouwt het een KV-cache.
Voor toepassingen in de echte wereld vormt KV-cache een groot knelpunt. Naarmate de redeneringsketen groeit, groeit de cache lineair, waardoor grote hoeveelheden geheugen op GPU’s worden verbruikt. Dit dwingt de hardware om meer tijd te besteden aan het lezen van gegevens uit het geheugen dan aan het daadwerkelijk verwerken ervan, wat de generatie vertraagt en de latentie verhoogt. Het beperkt ook het aantal gebruikers dat een systeem tegelijkertijd kan bedienen, omdat een tekort aan VRAM ervoor zorgt dat het systeem crasht of langzamer wordt.
Nvidia-onderzoekers beschouwen dit niet alleen als een technisch obstakel, maar ook als een fundamenteel economisch obstakel voor het bedrijf.
“De vraag gaat niet alleen over de hoeveelheid hardware; het gaat erom of uw infrastructuur 100 redeneringen of 800 threads tegen dezelfde kosten verwerkt”, zegt Piotr Nawrot, Senior Deep Learning Engineer bij Nvidia, tegen VentureBeat.
Eerdere pogingen om dit probleem op te lossen waren gericht op op heuristiek gebaseerde benaderingen. Deze methoden gebruiken strikte regels, zoals een ‘schuifvenster’ dat alleen de meest recente tokens in de cache opslaat en de rest weggooit. Hoewel dit het geheugengebruik vermindert, dwingt het het model vaak om kritische informatie die nodig is om het probleem op te lossen, weg te gooien, waardoor de nauwkeurigheid van de uitvoer afneemt.
“Standaard uitzettingsmethoden proberen oude, ongebruikte tokens te selecteren voor uitzetting met behulp van heuristieken”, aldus de onderzoekers. “Ze vereenvoudigen het probleem, in de hoop dat als ze dichter bij de innerlijke werking van het model komen, het antwoord correct zal blijven.”
Andere oplossingen maken gebruik van paging om ongebruikte delen van de KV-cache over te brengen naar langzamer geheugen, maar de constante gegevensuitwisseling introduceert latency-overhead waardoor real-time applicaties traag worden.
Dynamische geheugensparsificatie
DMS hanteert een andere aanpak door bestaande LLM’s “aan te passen” om hun geheugen op intelligente wijze te beheren. In plaats van een vaste regel op te leggen over wat er moet worden weggegooid, traint DMS het model om te identificeren welke tokens essentieel zijn voor toekomstig redeneren en welke wegwerpbaar zijn.
“Het raadt niet alleen het belang; het leert een beleid dat expliciet de verdeling van de uiteindelijke output van het model behoudt”, zei Nawrot.
Het proces transformeert een standaard, vooraf getrainde LLM zoals Llama 3 of Qwen 3 in een zelfcomprimerend model. Cruciaal is dat dit niet vereist dat het model helemaal opnieuw moet worden getraind, wat onbetaalbaar zou zijn. In plaats daarvan hergebruikt DMS bestaande neuronen binnen de aandachtslagen van het model om voor elk token een “bewaar”- of “uitzet”-signaal uit te zenden.
Voor teams die zich zorgen maakten over de complexiteit van de aanpassing, merkten de onderzoekers op dat het proces licht van gewicht is. “Om de efficiëntie van dit proces te verbeteren, kunnen de modelgewichten worden bevroren, waardoor het proces vergelijkbaar is met low-rank adaptatie (LoRA)”, aldus Nawrot. Dit betekent dat een standaard bedrijfsmodel zoals de Qwen3-8B “binnen een paar uur achteraf kan worden uitgerust met DMS op een enkele DGX H100.”
Een van de belangrijke onderdelen van het DMS is een mechanisme dat ‘uitgestelde uitzetting’ wordt genoemd. Als een token bij standaard sparsificatie onbelangrijk wordt geacht, wordt het onmiddellijk geëlimineerd. Dit is riskant omdat het model mogelijk een fractie van een seconde nodig heeft om de context van dat token in zijn huidige staat te integreren.
DMS verhelpt dit probleem door een token te markeren voor verwijdering, maar het gedurende een korte periode toegankelijk te houden (bijvoorbeeld een paar honderd stappen). Door deze vertraging kan het model alle resterende noodzakelijke informatie uit het token “extraheren” en deze samenvoegen met de huidige context voordat het token uit de KV-cache wordt gewist.
“Het ‘uitgestelde uitzettingsmechanisme’ is cruciaal omdat niet alle tokens eenvoudigweg ‘belangrijk’ zijn (ze voor altijd bewaren) of ‘nutteloos’ (verwijder ze onmiddellijk). Velen vallen er tussenin: ze bevatten wat informatie, maar niet genoeg om te rechtvaardigen dat ze een hele ruimte in het geheugen in beslag nemen, “zei Nawrot. “Dit is waar de redundantie ligt. Door deze tokens een korte tijd in een lokaal venster te bewaren voordat ze worden uitgezet, laten we het model ervoor zorgen en hun informatie opnieuw distribueren naar toekomstige tokens.”
De onderzoekers ontdekten dat dit retrofitproces zeer efficiënt is. Ze konden een vooraf getrainde LLM uitrusten met DMS in slechts 1.000 trainingsstappen, een klein deel van de berekening die nodig was voor de oorspronkelijke training. De resulterende modellen maken gebruik van standaardkernels en kunnen rechtstreeks worden aangesloten op bestaande krachtige inferentiestapels zonder aangepaste hardware of complex herschrijven van software.
DMS in actie
Om de techniek te valideren, pasten de onderzoekers DMS toe op verschillende redeneermodellen, waaronder de Qwen-R1-serie (gedistilleerd uit DeepSeek R1) en Llama 3.2, en testten ze deze op moeilijke benchmarks zoals AIME 24 (wiskunde), GPQA Diamond (wetenschap) en LiveCodeBench (codering).
De resultaten laten zien dat DMS effectief de Pareto-grens verlegt, de optimale afweging tussen kosten en prestaties. In de AIME 24 wiskundebenchmark scoorde een met DMS uitgerust Qwen-R1 32B-model 12,0 punten hoger dan een standaardmodel wanneer het werd beperkt tot hetzelfde geheugenbandbreedtebudget. Door de cache te comprimeren, kon het model zichzelf veel dieper en breder laten ‘denken’ dan het standaardmodel met hetzelfde geheugen en hetzelfde computerbudget.
Misschien wel het meest verrassend was dat DMS de conventionele wijsheid in twijfel trok dat compressie het begrip van de context op de lange termijn schaadt. Bij ‘naald in de hooiberg’-tests, waarbij het vermogen van een model wordt gemeten om een specifiek stukje informatie te vinden dat verborgen is in een groot document, presteerden de DMS-varianten zelfs beter dan de standaardmodellen. Door het geheugen actief te beheren in plaats van passief ruis te verzamelen, behield het model een schonere en nuttiger context.
Voor bedrijfsinfrastructuur vertalen efficiëntieverbeteringen zich rechtstreeks in doorvoer- en hardwarebesparingen. Omdat de geheugencache aanzienlijk kleiner is, heeft de GPU minder tijd nodig om gegevens op te halen, waardoor de wachttijden voor gebruikers worden verkort. Bij het testen met het Qwen3-8B-model kwam DMS overeen met de nauwkeurigheid van het vanillemodel, terwijl het tot 5x de doorvoer leverde. Dit betekent dat één enkele server vijf keer zoveel klantverzoeken per seconde kan verwerken zonder dat dit ten koste gaat van de kwaliteit.
De toekomst van het geheugen
Nvidia heeft DMS uitgebracht als onderdeel van zijn KVPress-bibliotheek. Wat betreft de manier waarop bedrijven DMS kunnen gaan gebruiken, benadrukte Nawrot dat de toetredingsdrempel laag is. “De minimaal haalbare infrastructuur bestaat uit standaard Hugging Face-pijplijnen – er zijn geen aangepaste CUDA-kernels vereist”, zei Nawrot, erop wijzend dat de code volledig compatibel is met standaard FlashAttention.
Vooruitkijkend ziet het team DMS als onderdeel van een grotere verschuiving waarbij geheugenbeheer een aparte, intelligente laag van de AI-stapel wordt. Nawrot bevestigde ook dat DMS “volledig compatibel” is met de nieuwste architecturen zoals Meerkoppige latente aandacht (MLA) gebruikt in de modellen van DeepSeek, wat suggereert dat het combineren van deze benaderingen nog grotere efficiëntiewinsten zou kunnen opleveren.
Nu bedrijven overstappen van eenvoudige chatbots naar complexe agentsystemen die uitgebreide redeneringen vereisen, worden de kosten van gevolgtrekkingen een primaire zorg. Technieken als DMS bieden een manier om deze mogelijkheden op een duurzame manier te schalen.
“We hebben nog maar net de oppervlakte bereikt van wat mogelijk is,” zei Nawrot, “en we verwachten dat de schaalvergroting van de gevolgtrekkingstijd verder zal evolueren.”



