Home Nieuws De nieuwe AI-aangedreven trainingsmethode van Google helpt kleine modellen complexe redeneringen aan...

De nieuwe AI-aangedreven trainingsmethode van Google helpt kleine modellen complexe redeneringen aan te pakken

7
0
De nieuwe AI-aangedreven trainingsmethode van Google helpt kleine modellen complexe redeneringen aan te pakken

De onderzoekers van GoogleCloud EN UCLA stelde een nieuw raamwerk voor versterkend leren voor dat het vermogen van taalmodellen om zeer uitdagende meerstaps redeneertaken te leren aanzienlijk verbetert. Begeleiden van versterkend leren (SRL) herformuleert het oplossen van problemen als een opeenvolging van logische ‘acties’, die rijke leersignalen opleveren tijdens het trainingsproces.

Met deze aanpak kunnen kleinere modellen complexe problemen leren die voorheen buiten het bereik van andere veelgebruikte trainingstechnieken lagen. Experimenten tonen aan dat SRL niet alleen uitblinkt in benchmarks voor wiskundig redeneren, maar ook effectief generaliseert naar op agenten gebaseerde software-engineeringtaken.

SRL is een veelzijdig trainingsframework dat kleinere, goedkopere modellen naar een hoger redeneervermogen kan tillen.

De beperkingen van de huidige LLM-redeneertraining

Recente ontwikkelingen bij het trainen van grote taalmodellen (LLM’s) voor redeneren zijn grotendeels gedreven door versterkend leren met verifieerbare beloningen (RLVR), een methode waarbij een model wordt beloond op basis van de juistheid van het uiteindelijke antwoord. Door herhaaldelijk te proberen problemen op te lossen en feedback te krijgen over de uiteindelijke uitkomst, leert het model geleidelijk effectieve probleemoplossende strategieën.

Het succes van deze op resultaten gebaseerde aanpak hangt echter af van het vermogen van het model om binnen een beperkt aantal pogingen, of ‘rolls’, een correcte oplossing te vinden. Omdat elke implementatie rekentechnisch duur is, kunnen modellen niet oneindig worden getest. Deze methode stuit op een muur als de problemen zo moeilijk zijn dat het model zelden of nooit het juiste antwoord vindt binnen zijn budget.

Dit creëert een kritisch knelpunt in het leren. Bij veel meerstapsredeneringsproblemen kan een model meerdere stappen correct oplossen, maar ontsporen door een enkele fout, wat tot een onjuist antwoord leidt. Met RLVR krijgt de hele inspanning een negatieve beloning en leert het model niets van zijn gedeeltelijk correcte werk. Het is een alles-of-niets-aanpak die geen gedetailleerde feedback oplevert en weinig beloning oplevert.

Een alternatieve methode is Supervisie Fine Tuning (SFT), waarbij het model leert van voorbeelden die het hele redeneerproces bevatten, ontwikkeld door experts. Hoewel SFT het redeneervermogen kan aanwakkeren, leidt het vaak tot overfitting (het model leert simpelweg trajecten in de trainingsgegevens te imiteren in plaats van te leren generaliseren naar problemen die verder gaan dan de geziene voorbeelden). Dit probleem wordt nog verergerd door het feit dat door mensen gemaakte trainingsgegevens van hoge kwaliteit schaars zijn en duur om te produceren.

Zoals het artikel opmerkt, laten deze beperkingen “een kritische leemte achter voor het trainen van kleine, open-sourcemodellen om effectief moeilijke problemen te leren.”

Hoe begeleid versterkend leren werkt

SRL introduceert een raamwerk dat het oplossen van problemen herformuleert als een ‘opeenvolgend besluitvormingsproces’, waarbij een balans wordt gevonden tussen puur resultaatgericht RL en puur imitatieleren. In plaats van alleen te optimaliseren voor het uiteindelijke antwoord of het model te dwingen het hele denkproces van een expert na te bootsen, leert SRL het model een reeks sleutelacties te reproduceren die de ruggengraat vormen van de redenering van de expert. Hierdoor kan het model leren om deskundige acties te ondernemen en tegelijkertijd zijn eigen interne redeneerstijl te ontwikkelen.

In het SRL-raamwerk zijn demonstraties van deskundigen onderverdeeld in een reeks concrete en tussentijdse acties, die elk een belangrijke stap vertegenwoordigen. Voor een wiskundig probleem kan één actie een algebraïsche manipulatie zijn. Voor een software-engineeringagent kan het een opdracht zijn die wordt uitgevoerd in een codeopslagplaats. Om trainingsdata te genereren gebruikt SRL een krachtig lerarenmodel om oplossingstrajecten te creëren, die vervolgens worden gebruikt om een ​​kleiner model te trainen.

Volgens I-Hung Hsu, een Google-onderzoeker en co-auteur van het artikel, is deze middenwegbenadering van cruciaal belang voor de effectiviteit ervan in reële scenario’s. “SRL zit in het midden: het weerspiegelt de gestructureerde flexibiliteit van het oplossen van problemen in de echte wereld, waarbij er meerdere geldige strategieën zijn, maar ook duidelijke ideeën over hoe ‘goed redeneren’ er in elke fase uitziet,” vertelde Hsu aan VentureBeat. “Dit maakt SRL geschikt voor gebieden als data science-automatisering of misschien supply chain-optimalisatie, activiteiten die een gezonde middenwegredenering belonen in plaats van eenvoudige eindantwoorden.”

Tijdens de training genereert het model eerst een ‘innerlijke monoloog’ (het interne redeneringsproces, ingekapseld in tag) voordat u een actie onderneemt. Bij elke stap biedt SRL een beloning op basis van de gelijkenis tussen de door het model voorspelde actie en de actie van de expert. Dit gegradueerde beloningssysteem biedt uitgebreide en gedetailleerde feedback, waardoor het model kan leren en verbeteren, zelfs als de algehele oplossing niet perfect is. Dit lost het probleem van de lage beloning op waarmee RLVR wordt geconfronteerd.

SRL in actie

Uit de experimenten van de onderzoekers blijkt dat SRL aanzienlijk beter presteert dan robuuste basislijnen in zowel uitdagende wiskundige redeneringen als agentgebaseerde software-engineeringbenchmarks. Ze merkten ook op dat SRL flexibelere en geavanceerdere redeneerpatronen in modellen aanmoedigt, zoals interleaved planning en zelfverificatie, die de kwaliteit van de oplossing verbeteren zonder simpelweg de resultaten op te rekken.

Voor bedrijfsleiders zijn prestatieverbeteringen alleen waardevol als ze geen ongecontroleerde kosten met zich meebrengen. Hsu maakt duidelijk dat modellen die met SRL zijn getraind efficiënter zijn in hun redenering. “De voordelen komen voort uit een betere kwaliteit en structuur van de redenering, niet uit breedsprakigheid”, zei hij. “In termen van efficiëntie zijn modellen die zijn getraind met SRL min of meer vergelijkbaar met het basismodel wat betreft tokengebruik… hoewel SRL niet is ontworpen om de inferentiekosten te verminderen, bereikt het sterkere redeneerprestaties zonder deze te verhogen.”

Voor de wiskundetoetsen maakte het team zich klaar Qwen2.5-7B-Onderwijs op een dataset van 1000 moeilijke wiskundevragen. Ze vergeleken de prestaties ervan met modellen die waren getraind met SFT en RLVR (met behulp van het GRPO-algoritme dat gebruikelijk is in modellen zoals DeepSeek-R1) op vier wiskundige benchmarks op competitief niveau. Het met SRL getrainde model behaalde een aanzienlijke gemiddelde prestatieverbetering van 3,0% vergeleken met andere methoden.

Het team breidde de SRL-technologie uit naar agentgebaseerde software-engineering, een belangrijk gebied voor bedrijfsautomatisering. Ze trainden een model gespecialiseerd in coderen, Qwen2.5-Coder-7B-Onderwijsop 5.000 experttrajecten van agenten die interactie hebben met een codeeromgeving. Het met SRL getrainde model werd vergeleken met het oorspronkelijke basismodel en SWE-Gym-7B, een sterke basislijn geoptimaliseerd met SFT. SRL behaalde een taakresolutiepercentage van 14,8%, wat een relatieve verbetering van 74% vertegenwoordigt ten opzichte van het op SFT gebaseerde model. Dit demonstreert het vermogen van SRL om competentere AI-agenten te trainen voor complexe, real-world programmeertaken.

Een nieuwe standaard voor risicovolle AI?

De belangrijkste bevindingen van het artikel kwamen voort uit het combineren van methoden: eerst het gebruik van SRL om fundamenteel redeneren aan te leren, en vervolgens het gebruik van RLVR om die vaardigheid aan te scherpen. In hun experimenten, toen de onderzoekers SRL als pre-training gebruikten en RLVR in de post-trainingsfase toepasten, constateerden ze een gemiddelde stijging van 3,7%, wat een krachtige leerstrategie voor het curriculum aantoont.

Dit roept de vraag op of dit een nieuw project zou kunnen worden voor het bouwen van gespecialiseerde kunstmatige intelligentie.

“We zien de SRL als een solide basis”, zei Hsu. “In zekere zin biedt SRL een curriculum (trainingsmodellen voor stap voor stap denken en handelen) voordat dit gedrag wordt verfijnd met resultaatgericht versterkend leren. Deze op SRL gebaseerde aanpak stabiliseert niet alleen de volgende fase van RL, maar maakt het redeneren ook beter interpreteerbaar en generaliseerbaar, wat van cruciaal belang is voor toepassingen met hoge inzet.”

Vooruitkijkend erkent Hsu dat het opschalen van deze pijplijn nog steeds voor uitdagingen staat, met name de hoge kosten en complexiteit van end-to-end RLVR voor agenttaken. Hij is echter optimistisch over de weg voorwaarts. “Hoewel hoogwaardige experttrajecten belangrijk blijven,” concludeerde hij, “denken we dat de volgende grote stap zal komen uit het automatiseren van het genereren en filteren ervan, het benutten van sterke lerarenmodellen of zelfs zelfverbeterende leerlingmodellen om nieuwe gegevens te genereren.”

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in