Een nieuw onderzoek van Google suggereert dat geavanceerde redeneermodellen hoge prestaties leveren door debatten met meerdere agenten te simuleren, waarbij verschillende perspectieven, persoonlijkheidskenmerken en domeinexpertise betrokken zijn.
Hun experimenten tonen aan dat dit interne debat, dat zij “samenleving van het denken“, verbetert de prestaties van het model bij complexe redeneer- en planningstaken aanzienlijk. De onderzoekers ontdekten dat toonaangevende redeneermodellen zoals DeepSeek-R1 en QwQ-32B, die worden getraind via versterkend leren (RL), ontwikkelen ze intrinsiek dit vermogen om deel te nemen aan de samenleving van gedachtengesprekken zonder expliciete instructies.
Deze bevindingen bieden een routekaart voor hoe ontwikkelaars robuustere LLM-applicaties kunnen bouwen en hoe bedrijven superieure modellen kunnen trainen met behulp van hun eigen interne gegevens.
Wat is de gedachtenmaatschappij?
Het fundamentele uitgangspunt van de gedachtemaatschappij is dat redeneermodellen leren sociale dialogen met meerdere actoren na te bootsen om hun logica te verfijnen. Deze hypothese is gebaseerd op de cognitieve wetenschap, met name op het idee dat de menselijke rede in de eerste plaats is geëvolueerd als een sociaal proces voor het oplossen van problemen door middel van argumentatie en betrokkenheid bij verschillende gezichtspunten.
De onderzoekers schrijven dat “cognitieve diversiteit, die voortkomt uit variatie in vaardigheden en persoonlijkheidskenmerken, het oplossen van problemen verbetert, vooral als deze gepaard gaat met oprechte afwijkende meningen.” Dienovereenkomstig suggereren ze dat het integreren van verschillende perspectieven LLM’s in staat stelt robuuste redeneerstrategieën te ontwikkelen. Door gesprekken tussen verschillende interne persoonlijkheden te simuleren, kunnen modellen essentiële controles uitvoeren (zoals verificatie en backtracking) waarmee veelvoorkomende valkuilen zoals ongewenste vooringenomenheid en sycofantie worden vermeden.
In modellen als DeepSeek-R1 manifesteert deze ‘maatschappij’ zich rechtstreeks binnen de gedachteketen. De onderzoekers wijzen erop dat er geen afzonderlijke modellen of signalen nodig zijn om deze interactie te forceren; het debat ontstaat autonoom binnen het redeneringsproces van een enkele modelinstantie.
Voorbeelden van gedachtegenootschappen
Het onderzoek biedt tastbare voorbeelden van hoe deze interne wrijving tot betere resultaten leidt. In een experiment met een complex syntheseprobleem in de organische chemie, DeepSeek-R1 simuleerde een debat tussen meerdere verschillende interne perspectieven, waaronder een ‘Planner’ en een ‘Critical Verifier’.
De Planner stelde aanvankelijk een standaard reactiepad voor. De Critical Checker (gekenmerkt door hoge consciëntieusheid en lage vriendelijkheid) onderbrak hem echter om de veronderstelling in twijfel te trekken en kwam met een tegenargument met nieuwe feiten. Door deze vijandige controle ontdekte het model de fout, verzoende het de tegenstrijdige opvattingen en corrigeerde het het synthesepad.
Een soortgelijke dynamiek deed zich voor bij creatieve taken. Toen hem werd gevraagd de zin ‘Ik gooide mijn haat in het laaiende vuur’ te herschrijven, simuleerde het model een onderhandeling tussen een ‘Creatieve Ideator’ en een ‘Semantic Fidelity Checker’. Nadat de maker een versie had voorgesteld waarin het woord ‘diep’ werd gebruikt, antwoordde de controller: ‘Maar dit voegt ‘diep’ toe, wat niet in het origineel stond. We moeten vermijden dat we nieuwe ideeën toevoegen.’ Het model koos uiteindelijk voor een compromis dat de oorspronkelijke betekenis handhaafde en tegelijkertijd de stijl verbeterde.
Misschien wel de meest verrassende evolutie vond plaats in het ‘Countdown Game’, een wiskundige puzzel waarbij het model specifieke getallen moet gebruiken om een doelwaarde te bereiken. Aan het begin van de training probeerde het model het probleem op te lossen met behulp van een monoloogaanpak. Zoals hij via RL leerde, splitste hij zich spontaan op in twee verschillende persoonlijkheden: een ‘methodische probleemoplosser’ die berekeningen uitvoert en een ‘verkennende denker’ die de voortgang bewaakt, die mislukte paden onderbrak met opmerkingen als ‘Nog steeds geen geluk… Misschien kunnen we proberen negatieve getallen te gebruiken’, wat de methodische oplosser ertoe aanzette zijn strategie te veranderen.
Deze bevindingen betwisten de veronderstelling dat langere gedachteketens automatisch tot grotere nauwkeurigheid leiden. In plaats daarvan zorgen verschillende gedragingen, zoals het door verschillende lenzen bekijken van antwoorden, het testen van eerdere hypothesen, het teruggaan en het verkennen van alternatieven, voor verbeteringen in de redenering. De onderzoekers versterkten dit concept door de activeringsruimte van een model kunstmatig te richten om verrassing in het gesprek te veroorzaken; deze interventie activeerde een breder scala aan persoonlijkheids- en vaardigheidsgerelateerde kenmerken, waardoor de nauwkeurigheid bij complexe taken werd verdubbeld.
De implicatie is dat sociaal redeneren autonoom ontstaat via virtuele realiteit als een functie van de drang van het model om correcte antwoorden te produceren, in plaats van via expliciet menselijk toezicht. Monoloogtrainingsmodellen presteerden zelfs slechter dan onbewerkte RL, die op natuurlijke wijze gesprekken met meerdere agenten ontwikkelden. Integendeel, presteren begeleide opstelling (SFT) op het gebied van meerzijdige gesprekken en debat presteerde aanzienlijk beter dan SFT op standaard gedachteketens.
Implicaties voor zakelijke AI
Voor ontwikkelaars en zakelijke besluitvormers biedt deze informatie praktische richtlijnen voor het bouwen van krachtigere AI-toepassingen.
Tijdige engineering voor “conflict”
Ontwikkelaars kunnen de redenering in modellen voor algemene doeleinden verbeteren door hen expliciet ertoe aan te zetten een samenleving met een denkstructuur aan te nemen. Het is echter niet voldoende om het model simpelweg te vragen om met zichzelf te chatten.
“Het is niet genoeg om ‘een debat te voeren’, maar om verschillende standpunten en disposities te hebben die het debat onvermijdelijk maken en het mogelijk maken dat het debat alternatieven onderzoekt en onderscheid maakt,” vertelde James Evans, co-auteur van de studie, aan VentureBeat.
In plaats van generieke rollen zouden ontwikkelaars hints moeten ontwerpen die tegengestelde disposities toekennen (bijvoorbeeld een risicomijdende compliance officer versus een op groei gerichte productmanager) om het model te dwingen onderscheid te maken tussen alternatieven. Zelfs eenvoudige aanwijzingen die het model ertoe aanzetten ‘verrassing’ tot uitdrukking te brengen, kunnen deze hogere redeneringsroutes in gang zetten.
Ontwerp voor sociale schaalbaarheid
Terwijl ontwikkelaars de berekening van de testtijd opschalen om modellen langer te laten ‘denken’, moeten ze deze tijd structureren als een sociaal proces. Toepassingen moeten een ‘sociaal’ proces faciliteren waarin het model voornaamwoorden als ‘wij’ gebruikt, vragen stelt en expliciet alternatieven bespreekt voordat het tot een antwoord komt.
Deze aanpak kan zich ook uitstrekken tot multi-agentsystemen, waarbij verschillende persoonlijkheden die aan verschillende agenten zijn toegewezen, een kritisch debat aangaan om tot betere beslissingen te komen.
Stop met het desinfecteren van je trainingsgegevens
Misschien wel de belangrijkste implicatie ligt in de manier waarop bedrijven hun modellen trainen of verfijnen. Traditioneel reinigen datateams hun datasets om ‘gouden antwoorden’ te creëren die perfecte, lineaire paden naar een oplossing bieden. Uit het onderzoek blijkt dat dit een vergissing kan zijn.
Modellen die zijn geoptimaliseerd op basis van gespreksgegevens (bijvoorbeeld transcripties van debatten en resoluties met meerdere agenten) verbeteren het redeneren aanzienlijk sneller dan modellen die zijn getraind op zuivere monologen. Zelfs debatten die niet tot het juiste antwoord leiden, hebben waarde.
“We trainden op conversatieplatforms die tot het verkeerde antwoord leidden, versterkten vervolgens het model en ontdekten dat het net zo goed werkte bij het versterken van het juiste antwoord, wat erop wijst dat gespreksgewoonten bij het verkennen van oplossingen het belangrijkst zijn voor nieuwe problemen”, aldus Evans.
Dit impliceert dat bedrijven moeten stoppen met het weggooien van ‘rommelige’ ontwerplogboeken of Slack-threads waarin problemen iteratief zijn opgelost. Bij ‘rommel’ leert het model de gewoonte van verkennen.
Het blootleggen van de ‘black box’ voor vertrouwen en auditing
Voor zakelijk gebruik met een hoog risico is het simpelweg krijgen van een antwoord niet voldoende. Evans stelt dat gebruikers interne afwijkende meningen moeten zien om de output te kunnen vertrouwen, wat duidt op een verandering in het ontwerp van de gebruikersinterface.
“We hebben een nieuwe interface nodig die systematisch interne debatten aan ons blootlegt, zodat we kunnen ‘deelnemen’ aan het kalibreren van het juiste antwoord,” zei Evans. “We doen het beter in debatten; AI’s doen het beter in debatten; en we doen het beter als we worden blootgesteld aan AI-debatten.”
Het strategische geval van open gewichten
Deze resultaten bieden een nieuw argument in het ‘build vs. buy’-debat over open-weight-modellen versus propriëtaire API’s. Veel propriëtaire redeneermodellen verbergen hun gedachtegang en behandelen het interne debat als een bedrijfsgeheim of veiligheidsaansprakelijkheid.
Maar Evans stelt dat “niemand eerder echt een rechtvaardiging heeft aangevoerd om deze denktank te ontmaskeren”, maar dat de waarde van het controleren van deze interne conflicten onmiskenbaar aan het worden is. Totdat propriëtaire aanbieders volledige transparantie bieden, kunnen bedrijven in sectoren met hoge nalevingswetgeving ontdekken dat open-weight-modellen een duidelijk voordeel bieden: het vermogen om afwijkende meningen te zien, en niet alleen de beslissing.
“Ik geloof dat grote propriëtaire modellen informatie zullen gaan verstrekken (en licentiëren) zodra ze zich realiseren dat deze waarde bevat”, aldus Evans.
Uit onderzoek blijkt dat het werk van een AI-architect zich ontwikkelt van pure modeltraining naar iets dat dichter bij de organisatiepsychologie ligt.
“Ik geloof dat dit een geheel nieuwe grens opent op het gebied van organisatie- en kleine groepsontwerp binnen en tussen modellen die waarschijnlijk nieuwe prestatieklassen mogelijk zullen maken”, aldus Evans. “Mijn team werkt hieraan, en ik hoop dat anderen dat ook doen.”



