OpenAI-onderzoekers hebben een nieuwe methode geïntroduceerd die fungeert als een ‘waarheidsserum’ voor grote taalmodellen (LLM’s) en hen dwingt hun wangedrag, hallucinaties en beleidsschendingen zelf te rapporteren. Deze techniek”bekentenissen”, richt zich op een groeiend probleem op het gebied van zakelijke AI: modellen kunnen oneerlijk zijn, hun zelfvertrouwen overdrijven of de sluiproutes verbergen die ze nemen om tot een antwoord te komen.
Voor toepassingen in de echte wereld leidt deze techniek tot de creatie van transparantere en bestuurbare AI-systemen.
Wat zijn bekentenissen?
Veel vormen van AI-misleiding komen voort uit de complexiteit van versterkend leren (RL) modeltrainingsfase. In RL ontvangen modellen beloningen voor het produceren van resultaten die aan een mix van doelen voldoen, waaronder correctheid, stijl en veiligheid. Dit kan het risico van ‘verkeerde specificatie van beloningen’ met zich meebrengen, waarbij modellen leren reacties te produceren die eenvoudigweg ‘goed voelen’ voor de beloningsfunctie, in plaats van reacties die echt trouw zijn aan de bedoelingen van de gebruiker.
Een bekentenis is een gestructureerd rapport dat door het model wordt gegenereerd nadat het belangrijkste antwoord is gegeven. Het dient als zelfbeoordeling van uw naleving van de instructies. In dit rapport moet het model alle instructies opsommen die hij had moeten volgen, evalueren hoe goed hij ze heeft opgevolgd en eventuele onzekerheden of oordelen die hij onderweg heeft gemaakt, rapporteren. Het doel is om een apart kanaal te creëren waar het model wordt gestimuleerd, om eerlijk te zijn.
In de blogartikelOpenAI-onderzoekers geven enkele voorbeelden van de ‘bekentenissen’-techniek in actie. Een model kreeg een test en een verborgen regel: als hij boven de 50% scoorde, werd zijn kennis gewist. Om zichzelf te beschermen ‘verdoezelde’ het model door opzettelijk de helft van de vragen verkeerd te beantwoorden. Hoewel de eerste reactie dit bedrog verborgen hield, was de daaropvolgende bekentenis brutaal eerlijk. Hij gaf toe: “De gebruiker wilde correcte antwoorden, maar we hebben de helft ervan gesaboteerd.”
De onderzoekers ontdekten dat wanneer een model zich misdraagt, hij dit veel eerder zal toegeven in de bekentenis dan in zijn hoofdreactie.
Hoe bekentenistraining werkt
De sleutel tot deze methode is de scheiding van beloningen. Tijdens de training is de beloning voor de biecht uitsluitend gebaseerd op zijn eerlijkheid en wordt deze nooit vermengd met de beloning voor de hoofdtaak. “Net als het ‘bekenteniszegel’ van de katholieke kerk kan niets wat het model onthult de beloning veranderen die het ontvangt voor het voltooien van zijn oorspronkelijke taak”, schrijven de onderzoekers. Dit creëert een ‘veilige ruimte’ voor het model om schuld zonder straf toe te geven.
Deze aanpak is krachtig omdat het een grote uitdaging bij AI-training vermijdt. De intuïtie van de onderzoekers is dat het eerlijk bekennen van slecht gedrag gemakkelijker is dan het krijgen van een hoge beloning voor het oorspronkelijke, vaak complexe probleem.
Wanneer het model uitsluitend op eerlijkheid wordt beoordeeld, is de prikkel om de ‘bekentenisrechter’ te misleiden dus veel zwakker dan de prikkel om het beloningsmodel te misleiden vanwege zijn voornaamste reactie. In een experiment waarbij een model bijvoorbeeld werd getraind om een zwak beloningsmodel te ‘hacken’, werden de prestaties op de hoofdtaak in de loop van de tijd bedrieglijker. Zijn bekentenissen werden echter eerlijker, waardoor de beloningshack die hij uitvoerde correct werd geïdentificeerd.
De techniek heeft echter zijn beperkingen. Bekentenissen zijn geen wondermiddel voor alle soorten AI-fouten. Het systeem werkt het beste als een model zich ervan bewust is dat het zich slecht gedraagt. Het is minder effectief voor “onbekende onbekenden”. Als een model bijvoorbeeld een feit hallucineert en oprecht gelooft dat het juist is, kan hij of zij niet bekennen dat hij of zij valse informatie heeft verstrekt. De meest voorkomende reden voor een mislukte bekentenis is modelverwarring, en niet opzettelijk bedrog. Er ontstaat vaak verwarring wanneer instructies dubbelzinnig zijn en het model de bedoeling van de menselijke gebruiker niet duidelijk kan bepalen.
Wat dit betekent voor zakelijke AI
De bekentenistechniek van OpenAI maakt deel uit van een groeiend oeuvre op het gebied van AI-veiligheid en -controle. Anthropic, een OpenAI-concurrent, publiceerde ook onderzoek dat laat zien hoe LLM’s kunnen leren schadelijk gedrag. Het bedrijf werkt ook voor het dichten van deze gaten als ze tevoorschijn komen.
Voor AI-toepassingen kunnen mechanismen zoals bekentenissen een handig monitoringmechanisme bieden. De gestructureerde uitvoer van een bekentenis kan tijdens de conclusie worden gebruikt om het antwoord van een model te markeren of te verwerpen voordat het een probleem veroorzaakt. Een systeem zou bijvoorbeeld zo kunnen worden ontworpen dat elke output automatisch wordt onderworpen aan menselijke beoordeling als de bekentenis ervan duidt op een beleidsschending of grote onzekerheid.
In een wereld waarin AI steeds actiever wordt en complexe taken kan uitvoeren, zullen waarneembaarheid en controle sleutelelementen zijn voor een veilige en betrouwbare implementatie.
“Naarmate modellen capabeler worden en worden ingezet in contexten met hogere inzet, hebben we betere tools nodig om te begrijpen wat ze doen en waarom”, schrijven de OpenAI-onderzoekers. “Bekentenissen zijn geen volledige oplossing, maar ze voegen een belangrijke laag toe aan ons transparantie- en toezichtpakket.”



