Home Nieuws Naast wiskunde en coderen: het nieuwe RL-framework helpt LLM-agenten te trainen voor...

Naast wiskunde en coderen: het nieuwe RL-framework helpt LLM-agenten te trainen voor complexe taken in de echte wereld

11
0
Naast wiskunde en coderen: het nieuwe RL-framework helpt LLM-agenten te trainen voor complexe taken in de echte wereld

Onderzoekers van de Universiteit voor Wetenschap en Technologie van China hebben een nieuw ontwikkeld versterkend leren (RL) dat helpt bij het trainen van grote taalmodellen (LLM’s) voor complexe taken die verder gaan dan goed gedefinieerde problemen zoals wiskunde en coderen.

Hun schilderij, Agent-R1Het is compatibel met populaire RL-algoritmen en vertoont opmerkelijke verbeteringen in redeneertaken waarvoor meerdere ophaalstappen en multi-turn-interacties met tools nodig zijn.

Het raamwerk is gebouwd op een herdefinitie van het RL-paradigma, waarbij rekening wordt gehouden met de dynamische aard van agentische toepassingen die interactie vereisen met evoluerende omgevingen en imperfecte informatie. Deze framing lijkt veel meer op toepassingen in de echte wereld en kan belangrijke toepassingen hebben voor agentactiviteiten in zakelijke contexten.

Heroverweging van versterkend leren voor agenten

RL is een hoeksteen geworden van de LLM-training voor goed gedefinieerde redeneertaken. Op gebieden als wiskunde en programmeren krijgt het model een duidelijk signaal: het antwoord is goed of fout. Dit maakt het relatief eenvoudig om zijn gedrag te belonen of te bestraffen.

Maar deze aanpak botst met taken van agenten die vereisen dat modellen functioneren in interactieve omgevingen, dynamische herinneringen ontwikkelen via gesprekken, redeneren in meerdere stappen en reageren op onvoorspelbare feedback. Het trainen van agenten met RL voor deze scenario’s brengt unieke uitdagingen met zich mee, vooral bij interacties met meerdere beurten waarbij het ontwerpen van effectieve beloningen complex is en de getrainde agent er vaak niet in slaagt te generaliseren naar de rommelige en onvoorspelbare aard van echte omgevingen.

Om deze uitdagingen aan te pakken, hebben onderzoekers van de Universiteit voor Wetenschap en Technologie het fundamentele raamwerk van RL opnieuw bekeken, bekend als Markov-beslissingsproces (MDP). Een MDP modelleert de besluitvorming met behulp van vier belangrijke componenten: een toestandsruimte (de reeks mogelijke toestanden waarin een agent zich kan bevinden); een actieruimte (wat de agent kan doen); een waarschijnlijkheid van een toestandsovergang (de toestand waartoe een actie waarschijnlijk zal leiden); en een beloningsfunctie (of de uitkomst goed of slecht is). Het artikel stelt voor om dit raamwerk uit te breiden zodat het beter geschikt is voor LLM-agenten.

In de nieuwe formulering wordt de toestandsruimte uitgebreid en omvat niet alleen de huidige toestand (de huidige reeks tokens gegenereerd door het model), maar de hele geschiedenis van interacties en omgevingsfeedback. Acties gaan nog steeds fundamenteel over het genereren van tekst, maar specifieke reeksen tekst kunnen nu externe tools activeren, zoals een API-aanroep. Overgangen tussen toestanden worden onvoorspelbaar of ‘stochastisch’, omdat de uitkomst niet alleen afhangt van de tokens die door het model worden voorspeld, maar ook van de reactie van de omgeving, die afhangt van externe factoren. Ten slotte wordt het beloningssysteem gedetailleerder en omvat het tussentijdse ‘procesbeloningen’ voor het succesvol voltooien van fasen onderweg, in plaats van slechts een enkele beloning aan het eind. Dit zorgt voor frequentere en nauwkeurigere begeleiding van de agent tijdens de training.

Dit laatste deel is bijzonder belangrijk en behandelt het probleem van ‘onderbeloning’ waarmee de meeste RL-frameworks worden geconfronteerd. Wanneer de agent een enkel beloningssignaal ontvangt op basis van de uiteindelijke uitkomst, leert hij niet van de goede en verkeerde tussenstappen die hij onderweg heeft gezet. Procesbeloningen lossen dit probleem op door feedbacksignalen te geven op deze tussenstappen, waardoor het leerproces veel efficiënter wordt.

“Deze uitbreidingen zijn cruciaal om algoritmen voor versterkend leren mogelijk te maken om geavanceerde agenten te trainen die in staat zijn tot complex, meerstaps redeneren en interacties binnen dynamische omgevingen”, schrijven de onderzoekers in hun paper.

Het Agent-R1-framework

Op basis van de uitgebreide MDP-definitie ontwikkelden de onderzoekers Agent-R1een flexibel en intuïtief trainingsplatform voor op RL gebaseerde LLM-agenten. Het breidt traditionele single-turn RL-frameworks uit om het interactieve, multi-turn karakter van agenttaken aan te kunnen, waardoor naadloze integratie met verschillende omgevingen mogelijk wordt.

Het belangrijkste verschil ligt in de ‘lanceringsfase’, waarin de agent reacties genereert. Bij RL met één ronde genereert het model één keer een antwoord. Bij multi-turn RL omvat het proces een reeks complexe heen-en-weer-interacties.

Agent-R1-framework (bron: arXiv)

Agent-R1 implementeert deze flexibele multi-turn implementatie met twee hoofdmodules: Tool en ToolEnv. De Tool-module fungeert als uitvoerder voor specifieke acties, zoals het aanroepen van een API of het benaderen van een database. Wanneer een tool wordt aangeroepen, voert hij zijn actie uit en retourneert het directe, ruwe resultaat. De ToolEnv-module is daarentegen de orkestrator en tolk. Het neemt de uitvoer van de tool en bepaalt hoe die uitvoer de status van de agent en de algehele voortgang van de taak beïnvloedt. ToolEnv ​​verwerkt statusovergangen, berekent beloningssignalen op basis van de toolresultaten en verpakt nieuwe statusinformatie voor de agent.

Kortom, wanneer een actie is voltooid rapporteert de Tool ‘wat er is gebeurd’, terwijl ToolEnv ​​dicteert ‘wat dit resultaat betekent voor de agent en de taak’.

Agent-R1 in actie

De onderzoekers testten Agent-R1 in de uitdagende taak van het beantwoorden van vragen in meerdere stappen, waarvoor complex redeneren, het ophalen van informatie over meerdere documenten en besluitvorming in meerdere stappen vereist zijn. Ze hebben Qwen2.5-3B-Instruct getraind in QA-datasets en de prestaties ervan geëvalueerd Hotpotqa EN 2WikiMultihopQA gegevensset. Ze testten het ook op de Musique-dataset, wat buiten het bereik viel van de taken waarvoor de agent was getraind.

Ze vergeleken verschillende RL-algoritmen die met Agent-R1 waren getraind met twee basislijnen: Naive RAG, een single-pass ophaalmethode waarbij een LLM reageert op basis van een reeks opgehaalde documenten, en Base Tool Call, die gebruikmaakt van de eigen functieaanroepmogelijkheden van het model zonder gespecialiseerde RL-training.

Prestaties van Agent-R1

Modellen die zijn getraind met het Agent-R1-framework (onder de horizontale lijn) presteren aanzienlijk beter dan de basislijn (bron: arXiv)

De resultaten toonden aan dat alle RL-getrainde agenten substantieel beter presteerden dan de uitgangswaarden. GRPO, een RL-algoritme dat wordt gebruikt in geavanceerde redeneermodellen zoals DeepSeek-R1zorgde voor de beste algehele prestatie.

“Deze resultaten valideren op robuuste wijze de effectiviteit van Agent-R1 bij het trainen van krachtige LLM-agents via end-to-end RL, en laten consistente en substantiële winsten zien ten opzichte van de basislijnen in verschillende datasets en RL-algoritmen”, schrijven de onderzoekers.

Deze resultaten kunnen aanzienlijk zijn voor het bedrijf, waar er een sterke drang is om RL toe te passen en verder te denken dan welomschreven gebieden. Een raamwerk dat is ontworpen om rommelige, multi-turn interacties met dynamische gebruikers en omgevingen aan te kunnen, kan de weg vrijmaken voor nieuwe agenten die in staat zijn complexe problemen in de echte wereld op te lossen.

“We hopen dat Agent-R1 een basis biedt voor toekomstig werk aan schaalbare, uniforme RL-training voor LLM met agenten”, concluderen de onderzoekers.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in