Home Nieuws Meta’s SPICE-framework stelt AI-systemen in staat zichzelf te leren redeneren

Meta’s SPICE-framework stelt AI-systemen in staat zichzelf te leren redeneren

12
0

De onderzoekers van Meta EERLIJK en de Nationale Universiteit van Singapore hebben een nieuw leerraamwerk voor versterking ontwikkeld voor zelfverbeterende kunstmatige-intelligentiesystemen.

Genaamd Automatisch afspelen in Corpus-omgevingen (SPICE)het raamwerk zet twee AI-agenten tegenover elkaar, creëren hun eigen uitdagingen en verbeteren geleidelijk zonder menselijk toezicht.

Hoewel dit momenteel een proof of concept is, zou dit zelfspeelmechanisme een basis kunnen bieden voor toekomstige AI-systemen die zich dynamisch kunnen aanpassen aan hun omgeving, waardoor ze robuuster worden tegen de onvoorspelbaarheid van toepassingen in de echte wereld.

De uitdaging van het zelf verbeteren van kunstmatige intelligentie

Het doel van zelfverbetering van AI is om systemen te creëren die dit kunnen doen verbeter uw vaardigheden door interactie met de omgeving.

Een veel voorkomende aanpak is versterkend leren met verifieerbare beloningen (RLVR), waarbij modellen worden beloond voor het geven van de juiste antwoorden op problemen. Dit wordt vaak beperkt door de afhankelijkheid van door mensen samengestelde probleemsets en domeinspecifieke beloningstechniek, waardoor het moeilijk is om op te schalen.

Zelfspel, waarbij een model verbetert door met zichzelf te concurreren, is een ander veelbelovend paradigma. Maar bestaande zelfspeelmethoden voor taalmodellen worden vaak beperkt door twee kritische factoren.

  1. Ffeitelijke fouten in de vragen en gegenereerde antwoorden verergeren, wat leidt tot een feedbackloop van hallucinaties.

  2. Wanneer de probleemgenerator en oplosser informatiesymmetrie hebben (dat wil zeggen dat ze dezelfde kennisbasis delen), slagen ze er niet in om echt nieuwe uitdagingen te genereren en vervallen ze in repetitieve patronen.

Zoals de onderzoekers in hun artikel opmerken: “Deze systematische empirische mislukkingen geven aan dat zelfverbetering interactie vereist met een externe bron die diverse en verifieerbare feedback geeft, in plaats van pure introspectie met een gesloten lus.”

Hoe SPICE werkt

SPICE is een op zichzelf staand gameframework waarin één enkel model twee verschillende rollen vervult.

  • Een ‘uitdager’ bouwt een curriculum met uitdagende problemen op uit een groot corpus aan documenten.

  • Een ‘redeneerder’ probeert vervolgens deze problemen op te lossen zonder toegang tot de originele documenten.

Deze configuratie doorbreekt de informatiesymmetrie die andere methoden van autonoom spelen beperkt, aangezien de Reasoner geen toegang heeft tot de documenten en kennis die de Challenger gebruikt om de problemen te genereren.

Het verankeren van activiteiten in een groot en divers corpus van documenten voorkomt hallucinaties door vragen en antwoorden te verankeren in inhoud uit de echte wereld. Dit is belangrijk omdat AI-systemen zichzelf op betrouwbare wijze kunnen verbeteren als ze externe aardingsbronnen nodig hebben. Daarom moeten LLM-agenten leren van interacties met mensen en de echte wereld, en niet alleen van hun eigen output, om algemene fouten te voorkomen.

De tegenstrijdige dynamiek tussen de twee rollen zorgt voor een automatisch CV.

De Uitdager wordt beloond voor het genereren van problemen die anders zijn en zich op de grens van de mogelijkheden van de Redenaar bevinden (niet te gemakkelijk en zelfs niet onmogelijk).

De Redenaar wordt beloond voor het juiste antwoord. Deze symbiotische interactie dwingt beide agenten om voortdurend nieuwe uitdagingen te ontdekken en te overwinnen.

Omdat het systeem ruwe documenten gebruikt in plaats van vooraf gedefinieerde vraag-antwoordparen, kan het verschillende taakformaten genereren, zoals meerkeuzevragen en vragen in vrije vorm.

Dankzij deze flexibiliteit kan SPICE op elk domein worden toegepast, waardoor het knelpunt wordt doorbroken dat eerdere methoden beperkte tot beperkte vakgebieden zoals wiskunde en coderen. Het vermindert ook de afhankelijkheid van dure, door mensen samengestelde datasets voor gespecialiseerde gebieden zoals forensische of medische analyse.

SPIJS in actie

De onderzoekers evalueerden SPICE op verschillende basismodellen, waaronder Qwen3-4B-basis EN OctoThinker-3B hybride basis.

Ze vergeleken de prestaties met basislijnen zoals het basismodel zonder training, een Reasoner-model getraind met een vaste “Strong Challenger” (Qwen3-32B-Instruct) en pure zelfspeelmethoden zoals R-Zero en Absolute Zero. De beoordeling omvatte een breed scala aan wiskundige en algemene redeneringsbenchmarks.

In alle modellen presteerde SPICE consistent beter dan de basislijnen, wat aanzienlijke verbeteringen opleverde in zowel wiskundige als algemene redeneertaken.

De resultaten laten zien dat redeneervaardigheden die zijn ontwikkeld door middel van corpusgebaseerd zelfspel op grote schaal worden overgedragen in verschillende modellen, dankzij het verschillende corpus van externe kennis dat wordt gebruikt.

Een belangrijke bevinding is dat de vijandige dynamiek een effectief automatisch CV creëert. Naarmate de training vordert, leert de Challenger steeds moeilijkere problemen te genereren.

In één experiment steeg het slagingspercentage van de Redenaar bij een vaste reeks problemen in de loop van de tijd van 55% naar 85%, wat zijn verbeterde vaardigheden aantoonde.

Ondertussen konden latere versies van de Challenger vragen genereren die het slagingspercentage van een Reasoner in een vroeg stadium terugbrachten van 55% naar 35%, wat bevestigde dat beide rollen met succes samen evolueren.

De onderzoekers concluderen dat deze aanpak een paradigmaverschuiving in de redeneermethoden voor zelfverbetering met zich meebrengt: van ‘closed-loop self-gaming’ dat vaak stagneert als gevolg van hallucinerende drift, naar onbeperkte verbetering door interactie met de enorme verifieerbare kennis die is ingebed in de corpora van webdocumenten.

Momenteel vertegenwoordigt het corpus dat voor SPICE wordt gebruikt de menselijke ervaring, vastgelegd in tekst. Het uiteindelijke doel is dat zelfverbeterende systemen vragen genereren op basis van interacties met de werkelijkheid, inclusief de fysieke wereld, het internet, en menselijke interacties via meerdere modaliteiten zoals video, audio en sensorgegevens.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in