Home Nieuws Met een nauwkeurigheid van 91% biedt het open-source Hindsight-agentgeheugen 20/20 visie voor...

Met een nauwkeurigheid van 91% biedt het open-source Hindsight-agentgeheugen 20/20 visie voor AI-agenten die vastzitten op mislukte RAG’s

7
0
Met een nauwkeurigheid van 91% biedt het open-source Hindsight-agentgeheugen 20/20 visie voor AI-agenten die vastzitten op mislukte RAG’s

In 2025 is het steeds duidelijker geworden dat Retrieval Augmented Generation (RAG) niet voldoende is om te voldoen aan de groeiende datavereisten voor agent AI.

RAG is de afgelopen jaren uitgegroeid tot de standaardbenadering voor het verbinden van LLM’s met externe kennis. Het model is eenvoudig: documenten opsplitsen, ze in vectoren insluiten, ze opslaan in een database en de meest vergelijkbare stappen ophalen wanneer er vragen binnenkomen. Voor eenmalige vragen over statische documenten werkt dit adequaat. Maar de architectuur stort in als AI-agenten in meerdere sessies moeten opereren, de context in de loop van de tijd moeten behouden of onderscheid moeten maken tussen wat ze hebben waargenomen en wat ze geloven.

Een nieuwe open-source geheugenarchitectuur genaamd Hindsight pakt deze uitdaging aan door het geheugen van AI-agenten te organiseren in vier afzonderlijke netwerken die wereldfeiten, agentervaringen, gesynthetiseerde entiteitssamenvattingen en evoluerende overtuigingen onderscheiden. Het systeem, ontwikkeld door Vectorize.io in samenwerking met Virginia Tech en The Washington Post een nauwkeurigheid van 91,4% behaald op de LongMemEval-benchmark, waarmee het beter presteert dan bestaande geheugensystemen.

“RAG ligt aan de levensonderhoud en het geheugen van de agent staat op het punt hem volledig te doden”, zegt Chris Latimer, mede-oprichter en CEO van Vectorize.iovertelde hij VentureBeat in een exclusief interview. “Het grootste deel van de bestaande RAG-infrastructuur die mensen hebben opgezet, werkt niet op het niveau dat zij willen.”

Omdat RAG niet overweg kan met het langetermijngeheugen van agenten

RAG is oorspronkelijk ontwikkeld als een aanpak om LLM’s toegang te geven tot informatie die verder gaat dan trainingsgegevens, zonder het model opnieuw te trainen.

Het grootste probleem is dat RAG alle opgehaalde informatie op uniforme wijze behandelt. Een feit dat zes maanden geleden werd waargenomen, krijgt dezelfde behandeling als een gisteren gevormde mening. Informatie die eerdere verklaringen tegenspreekt, bevindt zich naast de oorspronkelijke verklaringen, zonder mechanisme om deze met elkaar te verzoenen. Het systeem beschikt niet over een manier om onzekerheid weer te geven, na te gaan hoe overtuigingen zijn geëvolueerd, of te begrijpen waarom het tot een bepaalde conclusie is gekomen.

Het probleem wordt acuut bij gesprekken die meerdere sessies duren. Wanneer een agent details moet ophalen van honderdduizenden tokens verspreid over tientallen sessies, overspoelen RAG-systemen het contextvenster met irrelevante informatie of missen ze cruciale details volledig. Vectorovereenkomst alleen kan niet bepalen wat belangrijk is voor een bepaalde vraag, wanneer die vraag inzicht vereist in temporele relaties, causale ketens of entiteitspecifieke context die zich in de loop van weken heeft verzameld.

“Als je een one-size-fits-all benadering van het geheugen hebt, breng je óf te veel context mee die je niet zou moeten brengen, óf je brengt te weinig context mee”, zegt Naren Ramakrishnan, hoogleraar informatica bij Virginia Tech en directeur van het Sangani Center for AI and Data Analytics, tegen VentureBeat.

Achteraf gezien van RAG naar Agent Memory

De overstap van RAG naar agentgeheugen vertegenwoordigt een fundamentele architecturale verandering.

In plaats van het geheugen te behandelen als een externe ophaallaag die stukjes tekst in prompts dumpt, integreert Hindsight het geheugen als een eersteklas gestructureerd substraat voor redeneren.

De belangrijkste innovatie van Hindsight is de scheiding van kennis in vier logische netwerken. Het wereldwijde netwerk slaat objectieve feiten op over de externe omgeving. Het banknetwerk legt de ervaringen en acties van de agent vast, geschreven in de eerste persoon. Het opinienetwerk handhaaft subjectieve oordelen met betrouwbaarheidsscores die worden bijgewerkt naarmate er nieuw bewijsmateriaal binnenkomt. Het observatienetwerk bevat voorkeursneutrale samenvattingen van entiteiten, samengesteld op basis van de onderliggende feiten.

Deze scheiding richt zich op wat onderzoekers ‘epistemische helderheid’ noemen, door bewijsmateriaal structureel te onderscheiden van gevolgtrekkingen. Wanneer een agent een mening vormt, wordt die overtuiging apart opgeslagen van de feiten die deze overtuiging ondersteunen, samen met een betrouwbaarheidsscore. Naarmate er nieuwe informatie binnenkomt, kan het systeem bestaande meningen versterken of verzwakken in plaats van alle opgeslagen informatie als even zeker te beschouwen.

De architectuur bestaat uit twee componenten die de werking van het menselijk geheugen nabootsen.

TEMPR (Temporal Entity Memory Priming Retrieval) beheert het vasthouden en oproepen van geheugen door vier parallelle zoekopdrachten uit te voeren: semantische vectorovereenkomst, trefwoordmatching via BM25, grafiekdoorloop door gedeelde entiteiten en temporele filtering voor tijdgebonden zoekopdrachten. Het systeem voegt de resultaten samen met behulp van Reciprocal Rank Fusion en past neurale herrangschikking toe voor uiteindelijke nauwkeurigheid.

CARA (Coherent Adaptive Reasoning Agents) beheert de bewuste reflectie van voorkeuren door configureerbare dispositieparameters in de redenering te integreren: scepticisme, letterlijkheid en empathie. Dit pakt inconsistent redeneren tussen sessies aan. Zonder voorkeursconditionering produceren agenten lokaal plausibele maar globaal inconsistente reacties omdat de onderliggende LLM geen stabiel perspectief heeft.

Achteraf gezien krijgt de hoogste LongMemEval-score van 91%

Achteraf gezien is niet alleen theoretisch academisch onderzoek; de open source-technologie werd geëvalueerd op de LongMemEval-benchmark. De test evalueert agenten in gesprekken die tot 1,5 miljoen tokens bestrijken gedurende meerdere sessies, waarbij hun vermogen wordt gemeten om informatie te onthouden, in de loop van de tijd te redeneren en consistente perspectieven te behouden.

De LongMemEval-benchmark test of AI-agents realistische implementatiescenario’s aankunnen. Een van de belangrijkste uitdagingen waarmee bedrijven worden geconfronteerd, zijn agenten die goed presteren tijdens het testen, maar falen in de productie. Achteraf gezien behaalde het een nauwkeurigheid van 91,4% op de benchmark, de hoogste score in de test.

De grotere reeks resultaten liet zien waar gestructureerd geheugen de grootste voordelen biedt: multisessievragen verbeterden van 21,1% naar 79,7%; temporeel redeneren steeg van 31,6% naar 79,7%; en kennisopfrissingsvragen verbeterden van 60,3% naar 84,6%.

“Het betekent dat uw agenten meer taken kunnen uitvoeren, nauwkeuriger en consistenter dan voorheen”, aldus Latimer. “Hierdoor kunt u een nauwkeurigere agent krijgen die meer kritische bedrijfsprocessen kan afhandelen.”

Enterprise-implementatie en hyperscaler-integratie

Voor bedrijven die overwegen hoe ze Hindsight kunnen implementeren, is het implementatietraject eenvoudig. Het systeem werkt als een enkele Docker-container en kan worden geïntegreerd met behulp van een LLM-wrapper die met elk taalmodel werkt.

“Het is een directe vervanging voor API-aanroepen en je begint onmiddellijk met het vullen van herinneringen”, zegt Latimer.

De technologie is gericht op bedrijven die de RAG-infrastructuur al hebben geïmplementeerd en niet de prestaties zien die ze nodig hebben. “Het grootste deel van de bestaande RAG-infrastructuur die mensen hebben opgezet, werkt niet op het niveau dat ze willen, en ze zijn op zoek naar robuustere oplossingen die de problemen van bedrijven kunnen oplossen, die over het algemeen het onvermogen zijn om de juiste informatie op te halen om een ​​taak te voltooien of een reeks vragen te beantwoorden, “zei Latimer.

Vectorize werkt samen met hyperscaler om de technologie in cloudplatforms te integreren. Het bedrijf werkt actief samen met cloudproviders om hun LLM’s te ondersteunen met agentgeheugenmogelijkheden.

Wat dit betekent voor bedrijven

Voor bedrijven die de adoptie van AI stimuleren, vertegenwoordigt Hindsight een pad dat verder gaat dan de beperkingen van de huidige RAG-implementaties.

Organisaties die hebben geïnvesteerd in verbeterde herstelgeneratie en die inconsistente agentprestaties ervaren, moeten evalueren of gestructureerd geheugen specifieke storingsmodi kan aanpakken. De technologie is met name geschikt voor toepassingen waarbij agenten de context gedurende meerdere sessies moeten behouden, tegenstrijdige informatie in de loop van de tijd moeten verwerken of hun redenering moeten uitleggen

“RAG is dood en ik denk dat het geheugen van de agent hem volledig zal doden”, zei Latimer.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in