Google-onderzoekers hebben een techniek ontwikkeld die het voor AI-modellen gemakkelijker maakt om complexe redeneringstaken te leren die gewoonlijk hallucinaties veroorzaken of uit elkaar vallen bij LLM’s. In plaats van LLM’s te trainen door het volgende token te voorspellen, werd hun techniek genoemd leren van interne versterking (interne RL), stuurt de interne activeringen van het model naar de ontwikkeling van een stapsgewijze oplossing op hoog niveau voor het invoerprobleem.
Uiteindelijk zou dit een schaalbaar pad kunnen bieden voor het creëren van autonome agenten die complexe redeneringen en real-world robotica aankunnen zonder constante handmatige begeleiding.
De grenzen van het voorspellen van het volgende token
Versterkend leren speelt een sleutelrol bij LLM’s na de training, vooral bij complexe redeneringstaken waarvoor planning over de lange horizon vereist is. Het probleem ligt echter in de architectuur van deze modellen. LLM’s zijn autoregressief, wat betekent dat ze reeksen per token genereren. Wanneer deze modellen tijdens de training nieuwe strategieën verkennen, doen ze dit door kleine, willekeurige wijzigingen aan te brengen in het individuele token of de daaropvolgende actie. Dit legt een diepere beperking bloot: het voorspellen van het volgende token dwingt modellen om naar oplossingen op het verkeerde abstractieniveau te zoeken, waardoor redeneren over de lange horizon inefficiënt wordt, zelfs als het model ‘weet’ wat het moet doen.
Deze token-voor-token-aanpak werkt goed voor basistaalmodellering, maar werkt niet bij taken met een lange horizon waar beloningen schaars zijn. Als het model uitsluitend gebaseerd is op willekeurige steekproeven op tokenniveau, is de kans dat je de juiste meerstapsoplossing tegenkomt oneindig klein, “in de orde van één op een miljoen”, aldus de onderzoekers.
Het probleem is niet alleen dat de modellen in de war raken; het is dat ze op het verkeerde niveau in de war raken. In commentaar aan VentureBeat merkt Yanick Schimpf, een co-auteur van het artikel, op dat een agent bij een taak van twintig stappen kan verdwalen in de fijne details van een enkele stap of het algemene doel uit het oog kan verliezen.
“Wij beweren dat wanneer je een probleem benadert met een abstracte structuur… (doelgerichte verkenning) is wat je wilt”, aldus Schimpf. Door het probleem eerst op een abstract niveau op te lossen, legt de agent zich vast aan een pad, zodat hij niet “verdwaalt in een van de redeneerstappen” en er niet in slaagt de grotere workflow te voltooien.
Om dit probleem op te lossen, heeft het veld lange tijd gekeken naar hiërarchisch versterkend leren. HRL probeert complexe problemen op te lossen door ze op te splitsen in een hiërarchie van tijdelijk abstracte acties (subroutines op hoog niveau die verschillende stappen van de oplossing vertegenwoordigen) in plaats van een taak te beheren als een reeks tokens.
Het ontdekken van deze geschikte subroutines blijft echter een al lang bestaande uitdaging. De huidige HRL-methoden slagen er vaak niet in om geschikt beleid te ontdekken, en vaak “convergeren ze op gedegenereerde opties” die geen zinvol gedrag vertegenwoordigen. Zelfs moderne en geavanceerde methoden zoals GRPO (een populair RL-algoritme dat wordt gebruikt voor taken met een lage beloning) falen in complexe omgevingen omdat ze de kloof tussen uitvoering op laag niveau en planning op hoog niveau niet effectief kunnen overbruggen.
Het begeleiden van de interne gedachten van de LLM
Om deze beperkingen te overwinnen, heeft het Google-team interne RL voorgesteld. Geavanceerde autoregressieve modellen ‘weten’ al hoe ze complexe, uit meerdere stappen bestaande taken intern moeten uitvoeren, zelfs als ze daar niet expliciet voor zijn opgeleid.
Omdat dit complexe gedrag verborgen is in de reststroom van het model (d.w.z. de numerieke waarden die informatie door de lagen van het netwerk transporteren), introduceerden de onderzoekers een ‘interne neurale netwerkcontroller’ of metacontroller. In plaats van het uitvoertoken te monitoren en aan te passen, bestuurt de metacontroller het gedrag van het model door wijzigingen toe te passen op de interne activeringen van het model in tussenliggende lagen.
Deze push brengt het model in een specifieke bruikbare staat. Het basismodel genereert vervolgens automatisch de reeks individuele stappen die nodig zijn om dat doel te bereiken, omdat het deze modellen al heeft gezien tijdens de initiële pre-training.
De metacontroller werkt via leren zonder toezicht en vereist geen door mensen gelabelde trainingsvoorbeelden. In plaats daarvan gebruiken onderzoekers een zelfgecontroleerd raamwerk waarin het model een volledige reeks gedragingen analyseert en achteruit werkt om de verborgen intentie op hoog niveau af te leiden die de acties het beste verklaart.
Tijdens de interne RL-fase worden updates toegepast op de metacontroller, waardoor de training verschuift van het voorspellen van het volgende token naar het leren van acties op hoog niveau die tot de oplossing kunnen leiden.
Om de praktische waarde ervan te begrijpen, kunt u een bedrijfsagent overwegen die verantwoordelijk is voor het genereren van code. Tegenwoordig is er een moeilijke afweging: je hebt ‘lage temperatuur’ (voorspelbaarheid) nodig om de syntaxis goed te krijgen, maar ‘hoge temperatuur’ (creativiteit) om de logische puzzel op te lossen.
“Interne RL zou dit kunnen faciliteren door het model de ruimte van abstracte acties te laten verkennen, dat wil zeggen door de logica- en methodeaanroepen te structureren, en de realisatie van die acties op tokenniveau te delegeren aan de robuuste, lagere temperatuurverdeling van het basismodel, ” zei Schimpf. De agent onderzoekt de oplossing zonder de syntaxis te verbreken.
De onderzoekers bestudeerden twee methoden om deze controller toe te passen. In het eerste geval wordt het basis-autoregressieve model vooraf getraind op een gedragsdataset en vervolgens bevroren, terwijl de metacontroller wordt getraind om de reststroom van het bevroren model aan te sturen. In het tweede geval worden de metacontroller en het basismodel gezamenlijk geoptimaliseerd, waarbij de parameters van beide netwerken gelijktijdig worden bijgewerkt.
Interne RL in actie
Om de effectiviteit van interne RL te evalueren, voerden onderzoekers experimenten uit in hiërarchische omgevingen die waren ontworpen om traditionele leerlingen te overrompelen. Deze omvatten een discrete rasterwereld en een continue controletaak waarbij een viervoetige ‘mieren’-robot gezamenlijke bewegingen moet coördineren. Beide omgevingen gebruikten schaarse beloningen met zeer lange actiescènes.
Terwijl baselines zoals GRPO en CompILE er niet in slaagden taken in een miljoen afleveringen te leren vanwege de moeilijkheid om credits over de lange termijn toe te wijzen, behaalde Interne RL hoge succespercentages met een beperkt aantal trainingsepisodes. Door doelen op hoog niveau te kiezen in plaats van kleine stappen, verkleinde de metacontroller de zoekruimte dramatisch. Hierdoor kon het model identificeren welke beslissingen op hoog niveau tot succes leidden, waardoor de krediettoewijzing efficiënt genoeg werd om het probleem van de lage beloning op te lossen.
De onderzoekers ontdekten met name dat de ‘bevroren’ aanpak superieur was. Toen het basismodel en de metacontroller vanaf het begin gezamenlijk werden getraind, slaagde het systeem er niet in betekenisvolle abstracties te ontwikkelen. Toegepast op een bevroren model ontdekte de metacontroller echter met succes belangrijke controlepunten zonder enige menselijke etikettering, waardoor het interne schakelmechanisme perfect werd afgestemd op de momenten van de waarheid waarop een agent het ene subdoel voltooide en aan het volgende begon.
Terwijl de industrie zich momenteel fixeert op redeneermodellen die uitgebreide ‘gedachteketens’ produceren om problemen op te lossen, wijst onderzoek van Google op een andere, misschien efficiëntere toekomst.
“Onze studie sluit aan bij een groeiend oeuvre dat suggereert dat ‘intern redeneren’ niet alleen haalbaar is, maar potentieel efficiënter dan op tokens gebaseerde benaderingen,” aldus Schimpf. “Bovendien kunnen deze stille ‘gedachten’ worden losgekoppeld van specifieke inputmodaliteiten, een eigenschap die bijzonder relevant zou kunnen zijn voor de toekomst van multimodale AI.”
Als het interne redeneren kan worden gestuurd zonder te worden uitbesteed, zal de toekomst van AI-agenten minder afhankelijk zijn van nudge-strategieën en meer van het vermogen om toegang te krijgen tot en te sturen naar wat modellen intern al vertegenwoordigen. Voor bedrijven die vertrouwen op autonome systemen die over de langere termijn moeten plannen, zich moeten aanpassen en handelen, zou deze verandering belangrijker kunnen zijn dan welke nieuwe redeneringsparameter dan ook.



