Home Nieuws MemRL presteert beter dan RAG op complexe agentbenchmarks zonder afstemming

MemRL presteert beter dan RAG op complexe agentbenchmarks zonder afstemming

Door

22 januari 2026

Een nieuwe techniek, ontwikkeld door onderzoekers van de Shanghai Jiao Tong Universiteit en andere instellingen, stelt grote taalmodelagenten in staat nieuwe vaardigheden te leren zonder de noodzaak van dure verfijningen.

De onderzoekers stellen voor MemRLeen raamwerk dat agenten de mogelijkheid geeft om episodisch geheugen te ontwikkelen, de mogelijkheid om ervaringen uit het verleden op te halen om oplossingen te creëren voor onzichtbare taken. Met MemRL kunnen agenten omgevingsfeedback gebruiken om hun probleemoplossende strategieën voortdurend te verfijnen.

MemRL maakt deel uit van een grotere ontwikkelingsactie van de onderzoeksgemeenschap continu leren functionaliteit voor AI-toepassingen. In experimenten met belangrijke industriële benchmarks presteerde het raamwerk beter dan andere basislijnen zoals RAG en andere geheugenorganisatietechnieken, vooral in complexe omgevingen die verkenning en experimenten vereisen. Dit suggereert dat MemRL een cruciaal onderdeel zou kunnen worden voor het bouwen van AI-applicaties die moeten opereren in dynamische, reële contexten waar vereisten en taken voortdurend veranderen.

Het stabiliteits-plasticiteitsdilemma

Een van de centrale uitdagingen bij het implementeren van agent-gebaseerde applicaties is het aanpassen van het onderliggende model aan nieuwe kennis en taken na de initiële trainingsfase. De huidige benaderingen vallen over het algemeen in twee categorieën: parametrische benaderingen, zoals bijwerkenen niet-parametrische benaderingen, zoals RAG. Maar beide brengen aanzienlijke afwegingen met zich mee.

Hoewel het fijnafstemmen effectief is voor het invoeren van nieuwe informatie, is het rekentechnisch duur en traag. Wat nog belangrijker is, het leidt vaak tot catastrofale vergeetachtigheideen fenomeen waarbij nieuw verworven kennis eerder geleerde gegevens overschrijft, waardoor de algehele prestaties van het model verslechteren.

Daarentegen zijn niet-parametrische methoden zoals RAG fundamenteel passief; ze halen informatie op die uitsluitend is gebaseerd op semantische gelijkenis, zoals vectorinbedding, zonder de feitelijke bruikbaarheid van de informatie voor de invoerquery te evalueren. Deze benadering gaat ervan uit dat ‘soortgelijk nuttig impliceert’, wat vaak onjuist is bij complexe redeneringstaken.

De onderzoekers beweren dat de menselijke intelligentie dit probleem oplost door ‘het delicate evenwicht tussen de stabiliteit van cognitief redeneren en de plasticiteit van het episodisch geheugen’ te behouden. In het menselijk brein is stabiel redeneren (geassocieerd met de cortex) losgekoppeld van het dynamische episodisch geheugen. Hierdoor kunnen mensen zich aanpassen aan nieuwe taken zonder ‘neurale circuits opnieuw te bedraden’ (het ruwe equivalent van modelafstemming).

Binnen het MemRL-framework

Geïnspireerd door menselijk gebruik van episodisch geheugen en cognitief redeneren, is MemRL ontworpen om een agent in staat te stellen zijn prestaties na de implementatie voortdurend te verbeteren zonder de stabiliteit van zijn LLM-backbone in gevaar te brengen. In plaats van de modelparameters te veranderen, verschuift het raamwerk het aanpassingsmechanisme naar een extern, zichzelf ontwikkelend geheugenraamwerk.

In deze architectuur blijven de parameters van de LLM volledig bevroren. Het model fungeert effectief als een ‘cortex’, verantwoordelijk voor algemene redenering, logica en het genereren van code, maar is niet verantwoordelijk voor het opslaan van specifieke successen of mislukkingen die zich na de implementatie voordoen. Deze structuur zorgt voor stabiel cognitief redeneren en voorkomt catastrofaal vergeten.

MemRL-framework (bron: arXiv)

Om de aanpassing aan te kunnen, onderhoudt MemRL een dynamische episodische geheugencomponent. In plaats van platte tekstdocumenten en statische inbeddingswaarden op te slaan, zoals gebruikelijk is in RAG, organiseert MemRL het geheugen in ‘intent-ervaring-utility’-tripletten. Deze bevatten de vraag van de gebruiker (de bedoeling), het specifieke oplossingspad of de ondernomen actie (de ervaring) en een score, bekend als de Q-waarde, die weergeeft hoe succesvol deze specifieke ervaring in het verleden is geweest (het nut).

Cruciaal voor enterprise-architecten is dat deze nieuwe datastructuur niet de eliminatie van de bestaande infrastructuur vereist. “MemRL is ontworpen als een ‘drop-in’ vervanging voor de ophaallaag in bestaande technologiestapels en is compatibel met verschillende vectordatabases”, vertelde Muning Wen, co-auteur van het artikel en een doctoraalstudent aan de Shanghai Jiao Tong Universiteit, aan VentureBeat. “Het bestaan en de update van ‘Q-Value’ is uitsluitend bedoeld voor een betere evaluatie en beheer van dynamische gegevens… en is onafhankelijk van het opslagformaat.”

Deze nutsscore is de belangrijkste onderscheidende factor ten opzichte van klassieke RAG-systemen. Op het moment van inferentie gebruiken MemRL-agenten een “tweestapsherstelmechanisme”. Ten eerste identificeert het systeem herinneringen die semantisch dicht bij de vraag liggen om de relevantie te garanderen. Vervolgens worden deze kandidaten opnieuw gerangschikt op basis van hun Q-waarde, waarbij effectief prioriteit wordt gegeven aan bewezen strategieën.

Het raamwerk integreert versterkend leren rechtstreeks in het geheugenherstelproces. Wanneer een agent een oplossing probeert en omgevingsfeedback ontvangt (bijvoorbeeld succes of mislukking), werkt hij de Q-waarde van het opgehaalde geheugen bij. Hierdoor ontstaat een gesloten feedbacklus: na verloop van tijd leert de agent afleidende herinneringen te negeren en prioriteit te geven aan hoogwaardige strategieën zonder ooit de onderliggende LLM opnieuw te hoeven trainen.

Hoewel het toevoegen van een versterkingsleerfase een aanzienlijke latentie lijkt toe te voegen, merkte Wen op dat de rekenkundige overhead minimaal is. “Onze Q-waardeberekening wordt volledig door de CPU gedaan”, zei hij.

MemRL heeft ook continue leermogelijkheden tijdens runtime. Wanneer de agent een nieuw scenario tegenkomt, gebruikt het systeem de bevroren LLM om het nieuwe traject samen te vatten en voegt het als een nieuw triplet toe aan de geheugenbank. Hierdoor kan de agent zijn kennisbasis dynamisch uitbreiden terwijl hij met de wereld communiceert.

Het is vermeldenswaard dat het automatiseren van waardetoewijzing een risico met zich meebrengt: als het systeem een onjuiste interactie onjuist valideert, kan de agent de verkeerde les leren. Wen erkent dit risico van ‘vergiftigd geheugen’, maar merkt op dat MemRL, in tegenstelling tot neurale black-box-netwerken, transparant en testbaar blijft. “Als een slechte interactie verkeerd wordt geclassificeerd als een positief voorbeeld… kan deze zich breder verspreiden”, zei Wen. “Maar… we kunnen dit eenvoudig oplossen door de besmette gegevens uit het geheugen te verwijderen of de Q-waarden ervan opnieuw in te stellen.”

MemRL in actie

De onderzoekers evalueerden MemRL aan de hand van verschillende benchmarks op vier verschillende industriële benchmarks: BigCodeBench (codegeneratie), ALFWorld (ingebedde navigatie), Lifelong Agent Bench (besturingssysteem en database-interactie) en Humanity’s Last Exam (complex multidisciplinair redeneren).

De resultaten toonden aan dat MemRL consequent beter presteerde dan de basislijnen in zowel runtime leren (verbetering gedurende de sessie) als transferleren (generaliseren naar onzichtbare taken).

MemRL-prestaties op de belangrijkste industriële benchmarks (bron: arXiv)

De voordelen van dit waardebewuste ophaalmechanisme waren duidelijker in omgevingen waarin veel onderzoek wordt gedaan, zoals ALFWorld. In deze benchmark, waarbij agenten moeten navigeren en communiceren met een gesimuleerde thuisomgeving, behaalde MemRL een relatieve verbetering van ongeveer 56% vergeleken met MemPeen andere structuur van agentisch geheugen. De onderzoekers ontdekten dat de versterkende leercomponent de agent feitelijk aanmoedigde om oplossingen voor complexe taken te verkennen en te ontdekken die op gelijkenis gebaseerde ophaalmethoden vaak niet konden oplossen.

Toen de geheugenbank werd bevroren en getest op sets om de generalisatie te meten, behaalde MemRL de hoogste nauwkeurigheid onder de benchmarks. Op de Lifelong Agent Bench verbeterde het bijvoorbeeld aanzienlijk ten opzichte van de standaard RAG-basis voor OS-activiteiten. Dit geeft aan dat het systeem niet simpelweg trainingsgegevens opslaat, maar effectief herinneringen van lage waarde filtert om ervaringen met een hoog nut te behouden die generaliseren naar nieuwe situaties.

Het grotere plaatje voor zelfontwikkelende agenten

MemRL past in een groeiend aantal onderzoeken gericht op op geheugen gebaseerde Markov-beslissingsprocessen (M-MDP), een formulering die het ophalen van herinneringen beschouwt als een actieve beslissingsfase in plaats van als een passieve zoekfunctie. Door het ophalen te behandelen als een actie die kan worden geoptimaliseerd via versterkend leren, kunnen raamwerken zoals MemRL en soortgelijke benaderingen zoals Ik herinner het me ze maken de weg vrij voor meer autonome systemen.

Voor zakelijke AI is deze verandering aanzienlijk. Het suggereert een toekomst waarin agenten kunnen worden ingezet met een generieke LLM en zich vervolgens snel kunnen aanpassen aan specifieke zakelijke workflows, eigen databases en unieke probleemsets, alleen al door interactie. De belangrijkste verandering die we zien zijn raamwerken die applicaties behandelen als dynamische omgevingen waarvan ze kunnen leren.

Deze opkomende mogelijkheden zullen organisaties in staat stellen om consistente, goed presterende agenten in stand te houden die mee evolueren met hun zakelijke behoeften, waardoor het probleem van verouderde modellen wordt opgelost zonder de onbetaalbare kosten van voortdurende herontwikkeling.

Het markeert een transitie in de manier waarop we gegevens evalueren. “In een toekomst waarin statische gegevens opraken, zal de interactie-ervaring die elke intelligente agent tijdens zijn leven genereert, de nieuwe brandstof worden”, aldus Wen.

Nieuwsbron

MemRL presteert beter dan RAG op complexe agentbenchmarks zonder afstemming

Het stabiliteits-plasticiteitsdilemma

Binnen het MemRL-framework

MemRL in actie

Het grotere plaatje voor zelfontwikkelende agenten

LAAT EEN REACTIE ACHTER Annuleer reactie

EDITOR PICKS

Musk bestempelt antropisch ‘misantropisch en kwaadaardig’

Finale Kopenhagen Test uitgelegd voorafgaand aan mogelijk seizoen 2

Haar huwelijksverhaal uitgelegd

iOS 26.2 bèta voegt nieuwe aanpassingen aan vloeibaar glas toe, alarmen in de Herinneringen-app...