Home Nieuws “Observatiegeheugen” verlaagt de kosten van AI-agenten met 10x en presteert beter dan...

“Observatiegeheugen” verlaagt de kosten van AI-agenten met 10x en presteert beter dan RAG in benchmarks met een lange context

3
0
“Observatiegeheugen” verlaagt de kosten van AI-agenten met 10x en presteert beter dan RAG in benchmarks met een lange context

RAG is niet altijd snel genoeg of intelligent genoeg voor moderne AI-gebaseerde workflows voor agenten. Naarmate teams overstappen van kortstondige chatbots naar langlevende, toolrijke agenten die zijn ingebed in productiesystemen, wordt het steeds moeilijker om deze beperkingen te omzeilen.

Als reactie hierop experimenteren teams met alternatieve, ook wel geheugenarchitecturen genoemd contextueel geheugen of agentgeheugen, dat persistentie en stabiliteit verkiest boven dynamisch ophalen.

Een van de meest recente implementaties van deze aanpak is “observationeel geheugen”, een open source-technologie ontwikkeld door Mastra, opgericht door de ingenieurs die eerder de Gatsby-framework voor Netlify.

In tegenstelling tot RAG-systemen die context dynamisch ophalen, gebruikt observationeel geheugen twee achtergrondagenten (Observer en Reflector) om de gespreksgeschiedenis te comprimeren in een gedateerd observatielogboek. Gecomprimeerde waarnemingen blijven in hun context, waardoor het ophalen volledig wordt geëlimineerd. Voor tekstuele inhoud bereikt het systeem een ​​compressie van 3-6x. Voor agentworkloads waarvoor veel tools nodig zijn en die grote output genereren, bereiken de compressieverhoudingen 5-40x.

De wisselwerking is dat het observationele geheugen prioriteit geeft aan wat de agent al heeft gezien en besloten boven het doorzoeken van een groter extern corpus, waardoor het minder geschikt wordt voor open kennisontdekking of gebruiksscenario’s met hoge naleving van de voorschriften.

Het systeem behaalde een score van 94,87% op LongMemEval met behulp van GPT-5-mini, terwijl een volledig stabiel en cachebaar contextvenster behouden bleef. Op het standaard GPT-4o-model scoorde het observationele geheugen 84,23%, vergeleken met Mastra’s RAG-implementatie van 80,05%.

“Het heeft het geweldige voordeel dat het zowel eenvoudiger als krachtiger is, alsof het beter scoort op benchmarks”, vertelde Sam Bhagwat, medeoprichter en CEO van Mastra, aan VentureBeat.

Hoe het werkt: Twee agenten comprimeren de geschiedenis tot observaties

De architectuur is eenvoudiger dan traditionele geheugensystemen, maar biedt betere resultaten.

Observationeel geheugen verdeelt het contextvenster in twee blokken. De eerste bevat observaties: gecomprimeerde en gedateerde aantekeningen uit eerdere gesprekken. De tweede bevat de onbewerkte berichtgeschiedenis van de huidige sessie.

Twee achtergrondagenten beheren het compressieproces. Wanneer niet-geobserveerde berichten 30.000 tokens bereiken (configureerbaar), comprimeert de Observer-agent ze tot nieuwe observaties en voegt ze toe aan het eerste blok. De originele berichten worden verwijderd. Wanneer observaties 40.000 tokens bereiken (ook configureerbaar), herstructureert en condenseert de Reflector-agent het observatielogboek, waarbij gerelateerde items worden gecombineerd en vervangen informatie wordt verwijderd.

“De manier waarop je deze berichten in de loop van de tijd comprimeert, is dat je eigenlijk alleen maar berichten ontvangt, en dan heb je een agent die zegt: ‘Oké, wat zijn de belangrijkste dingen die je moet onthouden uit deze reeks berichten?'” zei Bhagwat. “Je comprimeert het een beetje, dan krijg je nog eens 30.000 tokens en je comprimeert ze.”

Het formaat is gebaseerd op tekst, niet op gestructureerde objecten. Er zijn geen vectordatabases of grafische databases nodig.

Stabiele contextvensters verlagen de tokenkosten tot wel 10x

De economie van observationeel geheugen komt voort uit onmiddellijke caching. Anthropic, OpenAI en andere providers verlagen de tokenkosten met 4-10x voor in de cache opgeslagen prompts versus niet-in de cache opgeslagen prompts. De meeste geheugensystemen kunnen hiervan niet profiteren, omdat ze de prompt elke beurt veranderen door de opgehaalde context dynamisch in te voegen, waardoor de cache ongeldig wordt. Voor productieteams vertaalt deze instabiliteit zich rechtstreeks in onvoorspelbare kostencurves en een grotere werklast voor budgetagenten.

Observationeel geheugen houdt de context stabiel. Het observatieblok wordt alleen toegevoegd totdat de reflectie is uitgevoerd, wat betekent dat de systeemprompt en bestaande observaties een consistent voorvoegsel vormen dat gedurende vele rondes in de cache kan worden opgeslagen. Er worden nog steeds berichten toegevoegd aan het onbewerkte geschiedenisblok totdat de drempel van 30.000 tokens is bereikt. Elke voorgaande beurt is een volledige cachetreffer.

Wanneer de observatie wordt uitgevoerd, worden de berichten vervangen door nieuwe observaties die aan het bestaande observatieblok worden toegevoegd. Het observatievoorvoegsel blijft consistent, zodat het systeem nog steeds een gedeeltelijke cachetreffer ontvangt. Alleen tijdens reflectie (wat zelden wordt gedaan) wordt de volledige cache ongeldig gemaakt.

De gemiddelde contextvenstergrootte voor het uitvoeren van Mastra’s LongMemEval-benchmark was ongeveer 30.000 tokens, veel kleiner dan de volledige gespreksgeschiedenis zou vereisen.

Omdat het verschilt van traditionele verdichting

De meeste coderingsmiddelen gebruiken compactie om lange contexten te verwerken. Door te verkleinen kan het contextvenster volledig worden gevuld en wordt de hele geschiedenis vervolgens gecomprimeerd tot één samenvatting wanneer deze op het punt staat over te lopen. De agent gaat verder, het venster wordt opnieuw gevuld en het proces herhaalt zich.

Compaction produceert samenvattingen in documentatiestijl. Het geeft de essentie weer van wat er is gebeurd, maar mist specifieke gebeurtenissen, beslissingen en details. Compressie vindt plaats in grote batches, waardoor elke stap rekentechnisch duur wordt. Dit werkt voor de menselijke leesbaarheid, maar elimineert vaak de specifieke beslissingen en interacties met de tools die agenten nodig hebben om in de loop van de tijd consistent te handelen.

De Observer daarentegen werkt vaker en verwerkt kleinere blokken. In plaats van het gesprek samen te vatten, produceert het een op gebeurtenissen gebaseerd beslissingslogboek, een gestructureerde lijst van gedateerde, geprioriteerde observaties over wat er specifiek is gebeurd. Elke observatielus verwerkt minder context en comprimeert deze efficiënter.

Het logboek wordt nooit samengevat in een blob. Zelfs tijdens reflectie herschikt en condenseert Reflector observaties om verbindingen te vinden en overtollige gegevens te elimineren. Maar de op gebeurtenissen gebaseerde structuur blijft bestaan. Het resultaat leest als een verslag van beslissingen en acties, en niet als documentatie.

Zakelijk gebruik: langdurige gesprekken met agenten

De klanten van Mastra behoren tot verschillende categorieën. Sommigen maken in-app-chatbots voor CMS-platforms zoals Sanity of Contentful. Anderen creëren AI SRE-systemen waarmee technische teams waarschuwingen kunnen classificeren. Documentverwerkende agenten verzorgen het papierwerk voor traditionele bedrijven die op weg zijn naar automatisering.

Wat deze gebruiksscenario’s gemeen hebben, is de behoefte aan langdurige gesprekken die de context weken of maanden behouden. Een agent ingebed in een contentmanagementsysteem moet onthouden dat de gebruiker drie weken geleden om een ​​specifiek rapportformaat heeft gevraagd. Een SRE-agent moet bijhouden welke waarschuwingen zijn beoordeeld en welke beslissingen zijn genomen.

“Een van de grote doelen voor 2025 en 2026 was om een ​​agent in hun webapp te bouwen”, zei Bhagwat over B2B SaaS-bedrijven. “Die agent moet zich kunnen herinneren dat je mij drie weken geleden hierover hebt gevraagd, of dat je zei dat je een rapport wilde over dit soort inhoud of weergaven, gesegmenteerd op basis van deze statistiek.”

In deze scenario’s is geheugen niet langer een optimalisatie, maar wordt het een productvereiste: gebruikers merken het onmiddellijk wanneer agenten eerdere beslissingen of voorkeuren vergeten.

Observationeel geheugen houdt maanden aan gespreksgeschiedenis aanwezig en toegankelijk. De agent kan reageren door de gehele context te onthouden, zonder dat de gebruiker eerdere voorkeuren of beslissingen opnieuw hoeft uit te leggen.

Het systeem is geleverd als onderdeel van Mastra 1.0 en is nu beschikbaar. Deze week heeft het team plug-ins uitgebracht voor LangChain, Vercel’s AI SDK en andere frameworks, waardoor ontwikkelaars observatiegeheugen buiten het Mastra-ecosysteem kunnen gebruiken.

Wat dit betekent voor de productie van AI-systemen

Observationeel geheugen biedt een andere architecturale benadering dan de vectordatabase en RAG-pijplijnen die de huidige implementaties domineren. De eenvoudigere architectuur (op tekst gebaseerd, zonder gespecialiseerde databases) maakt foutopsporing en onderhoud eenvoudiger. Het stabiele contextvenster maakt agressieve caching mogelijk, wat de kosten verlaagt. De benchmarkprestaties suggereren dat de aanpak op schaal kan werken.

Voor bedrijfsteams die geheugenbenaderingen evalueren, zijn de belangrijkste vragen:

  • Hoeveel context moeten uw agenten tussen sessies behouden?

  • Wat is uw tolerantie voor compressie met verlies versus het doorzoeken van het hele corpus?

  • Heeft u de dynamische ophaalfunctie nodig die RAG biedt of zou een stabiele context beter werken?

  • Gebruiken uw agenten veel tools en genereren ze grote hoeveelheden uitvoer die gecomprimeerd moeten worden?

De antwoorden bepalen of observationeel geheugen bij uw gebruiksscenario past. Bhagwat positioneert geheugen als een van de belangrijkste primitieven die nodig zijn voor krachtige agenten, samen met tooling, workfloworkestratie, waarneembaarheid en vangrails. Voor bedrijfsagenten die in producten zijn ingebed, is het vergeten van de context tussen sessies onaanvaardbaar. Gebruikers verwachten dat agenten hun voorkeuren, eerdere beslissingen en onderhanden werk onthouden.

“Het moeilijkste voor teambuildingagenten is de productie, wat tijd kan kosten”, zei Bhagwat. “Het geheugen is hierbij heel belangrijk, omdat het gewoon verontrustend is als je een agenttool gebruikt en je iets vertelt en het dan gewoon vergat.”

Naarmate agenten overstappen van experimenten naar geïntegreerde opnamesystemen, kan de manier waarop teams het geheugen ontwerpen net zo belangrijk zijn als het model dat ze kiezen.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in