Home Nieuws Alibaba’s AgentEvolver verhoogt de modelprestaties in tooling met ongeveer 30% met behulp...

Alibaba’s AgentEvolver verhoogt de modelprestaties in tooling met ongeveer 30% met behulp van synthetische, automatisch gegenereerde taken

Door

28 november 2025

Onderzoekers van het Tongyi Lab van Alibaba hebben een nieuw raamwerk ontwikkeld voor zelfontwikkelende agenten die hun eigen trainingsgegevens creëren door hun applicatieomgevingen te verkennen. Het schilderij, AgentEvolvermaakt gebruik van de kennis en het redeneervermogen van grote taalmodellen voor autonoom leren, en pakt daarmee de hoge kosten en handmatige inspanningen aan die doorgaans nodig zijn om taakspecifieke datasets te verzamelen.

Experimenten tonen aan dat AgentEvolver, vergeleken met traditionele raamwerken op basis van versterkend leren, efficiënter is in het verkennen van zijn omgeving, beter gebruik maakt van gegevens en zich sneller aanpast aan applicatie-omgevingen. Voor het bedrijf is dit belangrijk omdat het de drempel verkleint voor het opleiden van agenten voor op maat gemaakte toepassingen, waardoor krachtige, gepersonaliseerde AI-assistenten toegankelijker worden voor een breder scala aan organisaties.

De hoge kosten voor het trainen van AI-agenten

Versterkend leren is een belangrijk paradigma geworden voor het trainen van LLM’s om op te treden als agenten die in staat zijn om te communiceren met digitale omgevingen en te leren van feedback. Het ontwikkelen van agenten met RL staat echter voor fundamentele uitdagingen. Ten eerste is het verzamelen van de noodzakelijke trainingsdatasets vaak onbetaalbaar en vereist het aanzienlijk handmatig werk om taakvoorbeelden te creëren, vooral in nieuwe of propriëtaire softwareomgevingen waar standaard datasets niet beschikbaar zijn.

Ten tweede vereisen veelgebruikte RL-technieken voor LLM’s dat het model een groot aantal vallen en opstaan-pogingen uitvoert om effectief te leren. Dit proces is computationeel duur en inefficiënt. Als gevolg hiervan blijft het opleiden van competente LLM-agenten via RL arbeidsintensief en duur, waardoor de implementatie ervan in aangepaste bedrijfscontexten wordt beperkt.

Hoe AgentEvolver werkt

Het belangrijkste idee achter AgentEvolver is om modellen meer autonomie te geven in hun leerproces. De onderzoekers omschrijven het als een ‘zichzelf ontwikkelend systeem van agenten’, ontworpen om ‘autonome en efficiënte evolutie van capaciteiten te bereiken door middel van interactie met de omgeving’. Het maakt gebruik van de redeneerkracht van een LLM om een zelftrainingslus te creëren, waardoor de agent voortdurend kan verbeteren door directe interactie met zijn doelomgeving, zonder de noodzaak van vooraf gedefinieerde taken of beloningsfuncties.

“We stellen ons een agentsysteem voor waarin de LLM actief de verkenning, het genereren van taken en het verfijnen van prestaties aanstuurt”, schreven de onderzoekers hun kaart.

Het proces van zelfevolutie wordt aangedreven door drie fundamentele mechanismen die samenwerken.

De eerste is vraag jezelf afwaarbij de agent zijn omgeving verkent om de grenzen van zijn functies te ontdekken en nuttige toestanden te identificeren. Het is alsof een nieuwe gebruiker op een applicatie klikt om te zien wat deze kan doen. Op basis van deze verkenning genereert de agent zijn eigen gevarieerde reeks taken in overeenstemming met de algemene voorkeuren van de gebruiker. Dit vermindert de behoefte aan handgemaakte datasets en zorgt ervoor dat de agent en zijn taken samen kunnen evolueren, waardoor hij steeds complexere uitdagingen kan aangaan.

Volgens Yunpeng Zhai, een onderzoeker bij Alibaba en co-auteur van het artikel, die met VentureBeat sprak, transformeert het zelfondervragingsmechanisme het model effectief van ‘dataconsument naar dataproducent’, waardoor de tijd en kosten die nodig zijn om een agent in een eigen omgeving te implementeren dramatisch worden verminderd.

Het tweede mechanisme is zelfnavigatiewat de efficiëntie van verkenning verbetert door ervaringen uit het verleden te hergebruiken en te generaliseren. AgentEvolver haalt inzichten uit zowel succesvolle als mislukte pogingen en gebruikt deze om toekomstige acties te begeleiden. Als een agent bijvoorbeeld een API-functie probeert te gebruiken die niet in een applicatie bestaat, registreert hij dit als een ervaring en leert hij het bestaan van de functies te verifiëren voordat hij deze in de toekomst probeert te gebruiken.

Het derde mechanisme zelftoeschrijvingverbeter de leerefficiëntie door meer gedetailleerde feedback te geven. In plaats van een eenvoudig eindsignaal van succes of mislukking (een gebruikelijke praktijk in RL die kan resulteren in schaarse beloningen), gebruikt dit mechanisme een LLM om de bijdrage van elke individuele actie in een uit meerdere stappen bestaande taak te evalueren. Bepaal achteraf of elke stap positief of negatief heeft bijgedragen aan het eindresultaat, waardoor de agent gedetailleerde feedback krijgt die het leren versnelt.

Dit is van cruciaal belang voor gereguleerde sectoren, waar de manier waarop een agent een probleem oplost net zo belangrijk is als de uitkomst. “In plaats van een leerling alleen te belonen voor het uiteindelijke antwoord, evalueren we ook de duidelijkheid en juistheid van elke stap van zijn redenering”, legt Zhai uit. Dit verbetert de transparantie en moedigt de agent aan om robuustere en verifieerbare probleemoplossende modellen te gebruiken.

“Door het trainingsinitiatief te verschuiven van menstechnische pijplijnen naar LLM-gedreven zelfverbetering, vestigt AgentEvolver een nieuw paradigma dat de weg vrijmaakt voor schaalbare, kosteneffectieve en voortdurend verbeterende intelligente systemen”, zeggen de onderzoekers.

Het team ontwikkelde ook een praktisch end-to-end trainingsframework dat deze drie mechanismen integreert. Een belangrijk onderdeel van deze stichting is de Contextmanagereen component die het geheugen en de interactiegeschiedenis van de agent regelt. Terwijl de huidige benchmarks een beperkt aantal tools testen, kunnen in echte bedrijfsomgevingen duizenden API’s worden gebruikt.

Zhai erkent dat dit een belangrijke uitdaging is voor de industrie, maar benadrukt dat AgentEvolver is ontworpen om opgeschaald te worden. “Herstel over extreem grote actieruimtes zal altijd computationele uitdagingen met zich meebrengen, maar de architectuur van AgentEvolver biedt een duidelijk pad naar een schaalbaar redeneringshulpmiddel in bedrijfscontexten”, zei hij.

Een efficiënter pad naar agenttraining

Om de effectiviteit van hun raamwerk te meten, hebben de onderzoekers het getest AppWereld EN BFCLv3twee benchmarks waarbij agenten lange, uit meerdere stappen bestaande taken moeten uitvoeren met behulp van externe tools. Ze gebruikten sjablonen van Alibaba Qwen2.5-familie (parameters 7B en 14B) en vergeleken hun prestaties met een basismodel dat was getraind met GRPO, een populaire RL-techniek die wordt gebruikt om redeneermodellen te ontwikkelen zoals DeepSeek-R1.

De resultaten toonden aan dat de integratie van alle drie de mechanismen in AgentEvolver tot substantiële prestatieverbeteringen leidde. Voor het 7B-model verbeterde de gemiddelde score met 29,4% en voor het 14B-model met 27,8% ten opzichte van de uitgangswaarde. Het raamwerk verbeterde consequent de redeneer- en taakuitvoeringsmogelijkheden van de modellen in beide benchmarks. De belangrijkste verbetering kwam van de module voor zelfonderzoek, die autonoom verschillende trainingstaken genereert en het probleem van gegevenssparsiteit rechtstreeks aanpakt.

Experimenten hebben ook aangetoond dat AgentEvolver op efficiënte wijze een grote hoeveelheid hoogwaardige trainingsgegevens kan synthetiseren. De door de zelfondervragingsmodule gegenereerde taken bleken voldoende gediversifieerd om zelfs met een kleine hoeveelheid gegevens een goede trainingsefficiëntie mogelijk te maken.

Voor ondernemingen biedt dit een pad om agenten te creëren voor aangepaste applicaties en interne workflows, waardoor de noodzaak voor handmatige gegevensannotatie wordt geminimaliseerd. Door doelstellingen op hoog niveau te bieden en de agent zijn eigen trainingservaringen te laten genereren, kunnen organisaties gemakkelijker en kosteneffectiever aangepaste AI-assistenten ontwikkelen.

“Deze combinatie van algoritmisch ontwerp en technische pragmatiek positioneert AgentEvolver als zowel een onderzoeksvoertuig als een herbruikbare basis voor het bouwen van adaptieve, met tools verbeterde agenten”, concluderen de onderzoekers.

Kijkend naar de toekomst is het einddoel veel groter. “Een echt ‘singulier model’ dat op elke softwareomgeving kan worden aangesloten en deze in een mum van tijd onder de knie heeft, is zeker de heilige graal van kunstmatige intelligentie”, aldus Zhai. “Wij zien AgentEvolver als een noodzakelijke stap in die richting.” Hoewel die toekomst nog steeds vooruitgang vereist op het gebied van modelredenering en infrastructuur, lopen zelf-evolutionaire benaderingen voorop.

Nieuwsbron

Alibaba’s AgentEvolver verhoogt de modelprestaties in tooling met ongeveer 30% met behulp van synthetische, automatisch gegenereerde taken

De hoge kosten voor het trainen van AI-agenten

Hoe AgentEvolver werkt

Een efficiënter pad naar agenttraining

LAAT EEN REACTIE ACHTER Annuleer reactie

EDITOR PICKS

Rubio ontmoet Denemarken op Groenland, omdat parlementslid zegt dat de opmerkingen van Trump ‘mensen...

NYT-verbindingen van vandaag: tips voor de sporteditie, antwoorden voor 14 februari #509

Je hebt gehoord dat de biopic Sourav Ganguly van Rajkummar Rao in Groot-Brittannië zal...

De Golden Globes betreden de wereld van podcasts en gaan voorzichtig te werk en...