Home Nieuws Met het nieuwe ‘recursieve’ raamwerk van MIT kunnen LLM’s 10 miljoen tokens...

Met het nieuwe ‘recursieve’ raamwerk van MIT kunnen LLM’s 10 miljoen tokens verwerken zonder de context te veranderen

Door

21 januari 2026

Recursieve taalmodellen (RLM) is een gevolgtrekkingstechniek ontwikkeld door MIT CSAIL-onderzoekers die lange prompts behandelen als een omgeving buiten het model. In plaats van de hele prompt in het contextvenster van het model te forceren, stelt het raamwerk LLM in staat programmatisch fragmenten tekst te onderzoeken, te ontleden en zichzelf aan te roepen.

In plaats van contextvensters uit te breiden of oude informatie samen te vatten, herformuleert het MIT-team de redenering over lange context als een systeemprobleem. Door modellen toe te staan aanwijzingen te behandelen als iets dat ze met code kunnen inspecteren, zorgen recursieve taalmodellen ervoor dat LLM’s over miljoenen tokens kunnen redeneren zonder ze opnieuw te hoeven trainen. Dit geeft bedrijven een praktisch pad naar taken met een lange horizon, zoals codebase-analyse, juridische beoordeling en redeneren in meerdere stappen, die regelmatig de huidige modellen doorbreken.

Omdat het raamwerk is ontworpen als een omhulsel rond bestaande modellen, kan het dienen als een drop-in vervanging voor applicaties die rechtstreekse oproepen doen naar LLM’s.

Het LLM-contextprobleem

Hoewel grensmodellen steeds geavanceerder worden in hun redenering, groeit hun vermogen om enorme hoeveelheden informatie te verwerken niet in hetzelfde tempo. Dit knelpunt wordt veroorzaakt door twee duidelijke beperkingen: de harde fysieke beperking van de hoeveelheid tekst die een model in één keer kan verwerken (contextlengte) en “contextrot”.

De uitdaging, zo stellen de onderzoekers, is of het mogelijk is om de effectieve contextomvang van LLM’s voor algemene doeleinden met ordes van grootte op te schalen zonder ze opnieuw te ontwikkelen. Deze mogelijkheid wordt steeds belangrijker voor bedrijfsapplicaties, waar LLM’s worden gebruikt voor taken met een lange horizon waarvoor miljoenen tokens moeten worden verwerkt – een uitdaging die volgens Zhang niet kan worden opgelost door simpelweg contextvensters uit te breiden.

“Er is een entropie-argument dat impliceert dat je exponentieel meer datamonsters nodig hebt naarmate je de effectieve grootte van het contextvenster vergroot”, vertelde Alex Zhang, co-auteur van het artikel, aan VentureBeat.

De huidige benaderingen om de context uit te breiden, zijn vaak gebaseerd op compactie, waarbij het model oudere delen van het gesprek samenvat om ruimte vrij te maken. Deze methode mislukt echter voor taken waarvoor willekeurige toegang nodig is tot specifieke details die zich eerder in de prompt bevinden.

Hoe RLM’s werken

Het concept achter RLM’s is ontleend aan “out-of-core” algoritmen die worden gebruikt in klassiek computergebruik. Deze algoritmen zijn ontworpen om datasets te verwerken die te groot zijn om in het hoofdgeheugen van een computer te passen, de gegevens op een harde schijf te bewaren en alleen de noodzakelijke blokken op te halen als dat nodig is.

RLM’s passen deze logica toe op generatieve AI. In plaats van een lange prompt rechtstreeks naar het neurale netwerk te sturen, laadt het raamwerk de tekst als een stringvariabele binnen een Python-coderingsomgeving. De LLM krijgt algemene context over de gegevens (zoals het totale aantal tekens), maar ‘ziet’ de tekst in eerste instantie niet.

Zodra de prompt als variabele is opgeslagen, fungeert LLM als planner. Schrijf Python-code voor interactie met de externe variabele, waarbij u standaardopdrachten gebruikt om in de gegevens te kijken. De sjabloon kan bijvoorbeeld reguliere expressies gebruiken om te zoeken naar specifieke trefwoorden zoals ‘Hoofdstuk 1’ of ‘financiële resultaten’.

Wanneer de code-uitvoering een relevant fragment vindt, plaatst de RLM alleen dat specifieke stuk in het actieve contextvenster voor analyse.

Als de prompt bijvoorbeeld een dik boek is, kan LLM een lus schrijven die de hoofdstukgrenzen identificeert en vervolgens een subaanroep activeren om elk hoofdstuk afzonderlijk samen te vatten.

RLM-architectuur (bron: arXiv)

Bij de architectuur zijn doorgaans twee agenten betrokken. Een “roottaalmodel”, vaak een model met hoge capaciteit zoals GPT-5, fungeert als orkestrator. Plan de aanpak, schrijf de code en beheer de datastroom binnen de REPL-omgeving. Een ‘recursief taalmodel’, vaak een sneller en goedkoper model, dient als arbeider. De root-LM roept deze werker op om de specifieke tekstfragmenten te verwerken die uit de code zijn geïsoleerd.

Omdat de prompt zich in het omgevingsgeheugen bevindt en niet in het contextvenster van het model, kan het systeem invoer verwerken die veel groter is dan de trainingslimiet van het model. Het is belangrijk om te onderstrepen dat de RLM zich voor de eindgebruiker precies hetzelfde gedraagt als een standaardmodel: hij accepteert een string en retourneert een antwoord. Hierdoor kunnen bedrijfsteams standaard API-oproepen uitwisselen met RLM.

Voor ontwikkelaars die willen experimenteren is de RLM-code momenteel beschikbaar op GitHub.

“Een belangrijk argument vóór RLM’s is dat complexere taken kunnen worden opgesplitst in kleinere, ‘lokale’ subtaken,” zei Zhang. “Het is echter niet triviaal hoe deze context-/probleemdecompositie moet worden uitgevoerd en het model moet daartoe in staat zijn.”

RLM in actie

Om het raamwerk te valideren, testten de onderzoekers RLM’s met basismodellen en andere agentbenaderingen zoals CodeAct en samenvattende agenten in een verscheidenheid aan taken met een lange context, waaronder het ophalen en beantwoorden van vragen met meerdere sprongen.

De resultaten lieten sterke prestatieverbeteringen zien op een schaal van meer dan 10 miljoen tokens. OP Blader door Comp-Pluseen benchmark met inputs van 6 tot 11 miljoen tokens, faalden de standaard basislijnmodellen volledig en scoorden 0%. Daarentegen wordt de RLM aangedreven door GPT-5 behaalde een score van 91,33%, waarmee hij aanzienlijk beter presteerde dan de Summary Agent (70,47%) en CodeAct (51%).

Het raamwerk blonk ook uit in taken met een hoge rekencomplexiteit. Op OOLONG-Pairs, een informatierijke redeneringsbenchmark waarbij de moeilijkheidsgraad kwadratisch schaalt met de invoerlengte, faalden de basis GPT-5-modellen catastrofaal met een score van slechts 0,04%. De RLM behaalde een F1-score (een evenwichtige maatstaf voor precisie en herinnering) van 58%, wat aantoont dat er nieuwe mogelijkheden zijn om compacte taken uit te voeren die standaardmodellen verlammen. Op dezelfde manier heeft RLM voor codebegripstaken (CodeQA-benchmark) de prestaties van het standaard GPT-5-model meer dan verdubbeld, van 24% naar 62%.

RLM-prestaties — RLM behoudt zijn prestaties, zelfs nadat de limiet van het contextvenster van het onderliggende model is bereikt (bron: arXiv)

Met betrekking tot het probleem van contextverslechtering toonden de gegevens aan dat hoewel de basisprestaties van de GPT-5 snel verslechteren naarmate de taakcomplexiteit toeneemt, de RLM-prestaties stabiel blijven en consistent beter presteren dan het basismodel over contexten langer dan 16.000 tokens.

Ondanks de toegenomen complexiteit van de workflow, bleven de gemiddelde kosten van RLM’s vaak vergelijkbaar met of lager dan de basiskosten. Op de BrowseComp-Plus benchmark was de RLM tot drie keer goedkoper dan de basissamenvatting.

De onderzoekers merkten echter op dat, hoewel de gemiddelde kosten laag zijn, RLM-trajecten ‘langdurig’ zijn. Abnormale uitvoeringen kunnen kostbaar worden als het model vastloopt in lussen of overtollige controles uitvoert. Hoewel GPT-5 conservatief was in zijn subcalls, is de open source Qwen3-encoder het model probeerde soms duizenden subaanroepen uit te voeren voor eenvoudige taken.

“Vandaag zul je waarschijnlijk je eigen vangrails en logica moeten implementeren om het gedrag van de RLM te controleren,” zei Zhang. Hij speculeert echter dat toekomstige modellen kunnen worden getraind om hun computerbudgetten effectiever te beheren. Bedrijven als Prime Intellect zijn van plan dit te doen RLM integreren in het modeltrainingsproces, waarbij mogelijk randgevallen worden aangepakt waarin het inferentiebudget van het model toeneemt.

Voor ondernemingsarchitecten die moeten beslissen waar ze op willen inzetten, biedt het RLM-framework een nieuw hulpmiddel voor het omgaan met informatie-intensieve problemen.

“Ik denk dat RLM’s nog steeds uiterst nuttig zijn voor chatbots (denk aan een lange chatgeschiedenis), maar uiteindelijk ondersteunen ze een alternatieve manier om LM’s te gebruiken”, aldus Zhang. “Ik denk dat RLM’s samenwerken met standaard herstelmethoden zoals RAG; ze dienen niet als vervanging en kunnen in verschillende contexten of samen worden gebruikt.”

Nieuwsbron

Met het nieuwe ‘recursieve’ raamwerk van MIT kunnen LLM’s 10 miljoen tokens verwerken zonder de context te veranderen

Het LLM-contextprobleem

Hoe RLM’s werken

RLM in actie

LAAT EEN REACTIE ACHTER Annuleer reactie

EDITOR PICKS

Vermijd vuurwerk: vraag de FTC om hulp bij uw Made in USA-claims

Want “welke API moet ik aanroepen?” is de verkeerde vraag in het LLM-tijdperk

Yatra steelt de aandacht van grootvader Rajinikanth op IFFI 2025; fans zeggen dat het...

De Japanse premier Sanae Takaichi neemt zijn intrek in de “spookachtige” ambtswoning.