Het geheugen van agenten blijft een probleem dat bedrijven willen oplossen, omdat agenten sommige instructies of gesprekken vergeten naarmate ze langer werken.
Antropisch denkt dat hij dit probleem zelf heeft opgelost Agent Claude SDKhet ontwikkelen van een dubbele oplossing waarmee een agent aan verschillende contextvensters kan werken.
“De belangrijkste uitdaging van langetermijnagenten is dat ze in verschillende sessies moeten werken, en elke nieuwe sessie begint zonder herinnering aan wat eraan voorafging”, schreef Anthropic in een blogpost. “Omdat contextvensters beperkt zijn en omdat de meeste complexe projecten niet in één venster kunnen worden voltooid, hebben agenten een manier nodig om de kloof tussen codeersessies te overbruggen.”
Anthropic-ingenieurs stelden een tweeledige aanpak voor voor de Agent SDK: een initialisatieagent om de omgeving op te zetten, en een coderingsagent om in elke sessie stapsgewijs vooruitgang te boeken en artefacten achter te laten voor de volgende.
Het geheugenprobleem van de agent
Omdat agenten op basismodellen zijn gebouwd, blijven ze beperkt door beperkte, zij het steeds groter wordende, contextvensters. Voor agenten met een lange levensduur kan dit een groter probleem veroorzaken, waardoor de agent instructies vergeet en zich grillig gedraagt tijdens het uitvoeren van een taak. Verbeterd agentgeheugen essentieel wordt voor consistente en veilige prestaties van het bedrijf.
Het afgelopen jaar zijn er verschillende methoden op de markt gekomen, die allemaal proberen de kloof tussen contextvensters en agentgeheugen te overbruggen. LangChainde LangMem SDK door Geheugenbasis EN Open AISwarm zijn voorbeelden van bedrijven die geheugenoplossingen aanbieden. Onderzoek naar agentisch geheugen is de laatste tijd ook geëxplodeerd, met voorstellen schilderijen als Memp en de Genest leerparadigma van Googlen bieden nieuwe alternatieven om het geheugen te verbeteren.
Veel van de huidige geheugenframeworks zijn open source en kunnen idealiter worden geschaald naar verschillende basisagenten voor grote taalmodellen (LLM). De aanpak van Anthropic verbetert de Claude Agent SDK.
Hoe het werkt
Anthropic stelde vast dat hoewel de Claude Agent SDK over contextbeheermogelijkheden beschikte en “het voor een agent mogelijk zou moeten zijn om willekeurig lang nuttig werk te blijven doen”, dit niet voldoende was. Het bedrijf zegt in zijn blogpost dat het een model is zoals Opus 4.5 het uitvoeren van de Claude Agent SDK “kan er niet in slagen een web-app van productiekwaliteit te maken als er alleen een verzoek op hoog niveau wordt gegeven, zoals ‘maak een kloon van claude.ai.'”
De mislukkingen manifesteerden zich in twee patronen, zei Anthropic. Ten eerste probeerde de agent te veel te doen, waardoor de modelcontext halverwege verloren ging. De agent moet dan raden wat er is gebeurd en kan geen duidelijke instructies doorgeven aan de volgende agent. De tweede fout treedt later op, nadat sommige functies al zijn gemaakt. De agent ziet dat er vooruitgang is geboekt en vermeldt eenvoudigweg het verrichte werk.
Antropische onderzoekers hebben de oplossing gevonden: een initiële omgeving creëren om de basis te leggen voor functionaliteit en elke agent ertoe aanzetten stapsgewijs vooruitgang te boeken in de richting van een doel, terwijl ze aan het eind nog steeds een schone lei achterlaten.
Dit is waar de tweedelige Agent-oplossing van Anthropic in beeld komt. De initialisatieagent richt de omgeving in, registreert wat de agenten hebben gedaan en welke bestanden zijn toegevoegd. De codeeragent zal de modellen vervolgens vragen om stapsgewijze vooruitgang te boeken en gestructureerde updates achter te laten.
“De inspiratie voor deze praktijken kwam voort uit de wetenschap wat effectieve software-ingenieurs elke dag doen”, aldus Anthropic.
De onderzoekers zeiden dat ze testtools aan de codeeragent hebben toegevoegd, waardoor het vermogen om bugs te identificeren en op te lossen die niet alleen uit de code duidelijk waren, werd verbeterd.
Toekomstig onderzoek
Anthropic merkte op dat zijn aanpak “een mogelijke reeks oplossingen is in een agentsysteem voor de lange termijn.” Dit is echter slechts de eerste fase van wat voor velen een groter onderzoeksgebied op het gebied van kunstmatige intelligentie zou kunnen worden.
Het bedrijf zegt dat zijn experimenten om het langetermijngeheugen van agenten te vergroten niet hebben aangetoond of een enkele generieke coderingsagent beter werkt in alle contexten of in een structuur met meerdere agenten.
De demo was ook gericht op de ontwikkeling van full-stack webapps, dus andere experimenten zouden zich moeten concentreren op het generaliseren van resultaten over verschillende taken.
“Het is waarschijnlijk dat sommige of al deze lessen kunnen worden toegepast op de soorten taken in lange vorm die nodig zijn in bijvoorbeeld wetenschappelijk onderzoek of financiële modellen”, aldus Anthropic.



