Home Nieuws Uit een OpenAI-experiment blijkt dat schaarse modellen AI-bouwers tools kunnen bieden om...

Uit een OpenAI-experiment blijkt dat schaarse modellen AI-bouwers tools kunnen bieden om neurale netwerken te debuggen

9
0
Uit een OpenAI-experiment blijkt dat schaarse modellen AI-bouwers tools kunnen bieden om neurale netwerken te debuggen

Open AI onderzoekers zijn experimenteren met een nieuwe aanpak aan het ontwerp van neurale netwerken, met als doel het gemakkelijker te maken om modellen voor kunstmatige intelligentie te begrijpen, te debuggen en te besturen. Schaarse modellen kunnen bedrijven een beter inzicht geven in de manier waarop deze modellen beslissingen nemen.

Het is geweldig om te begrijpen hoe modellen ervoor kiezen om te reageren sterke punten van redeneermodellen voor bedrijven kunnen ze organisaties een zekere mate van vertrouwen bieden als ze zich tot AI-modellen wenden voor inzichten.

Bij de methode werden OpenAI-wetenschappers en onderzoekers betrokken bij het onderzoeken en evalueren van de modellen, niet door de prestaties na de training te analyseren, maar door interpreteerbaarheid of begrip toe te voegen via schaarse lussen.

OpenAI merkt op dat een groot deel van de ondoorzichtigheid van AI-modellen voortkomt uit de manier waarop de meeste modellen zijn ontworpen. Om een ​​beter inzicht te krijgen in het modelgedrag moeten er oplossingen worden gecreëerd.

“Neurale netwerken vormen de drijvende kracht achter de krachtigste AI-systemen van vandaag, maar ze blijven moeilijk te begrijpen”, schreef OpenAI in een blogpost. “We schrijven deze modellen niet met expliciete stapsgewijze instructies. In plaats daarvan leren ze door miljarden interne verbindingen of gewichten aan te passen totdat ze een taak onder de knie hebben. We ontwerpen de trainingsregels, maar niet het specifieke gedrag dat naar voren komt, en het resultaat is een dicht netwerk van verbindingen dat geen mens gemakkelijk kan ontcijferen.”

Om de interpreteerbaarheid van de mix te verbeteren, heeft OpenAI gekeken naar een architectuur die ontwarde neurale netwerken traint, waardoor ze gemakkelijker te begrijpen zijn. Het team trainde taalmodellen met een vergelijkbare architectuur als bestaande modellen, zoals GPT-2, met behulp van hetzelfde trainingsschema.

Het resultaat: betere interpreteerbaarheid.

De weg naar interpreteerbaarheid

Begrijpen hoe modellen werken, en ons een idee geven van hoe ze hun beslissingen nemen, is belangrijk omdat deze impact hebben op de echte wereld, zegt OpenAI.

Het bedrijf definieert interpreteerbaarheid als ‘methoden die ons helpen begrijpen waarom een ​​model een bepaalde output opleverde.’ Er zijn verschillende manieren om interpreteerbaarheid te bereiken: interpreteerbaarheid van de gedachteketen, waar redeneermodellen vaak gebruik van maken, en mechanistische interpreteerbaarheid, waarbij de wiskundige structuur van een model wordt omgekeerd.

OpenAI heeft zich gericht op het verbeteren van de mechanistische interpreteerbaarheid, wat volgens het bedrijf “tot nu toe minder direct nuttig is geweest, maar in principe een completere verklaring van modelgedrag zou kunnen bieden.”

“Door modelgedrag op het meest gedetailleerde niveau te proberen te verklaren, kan de mechanistische interpreteerbaarheid minder aannames doen en ons meer vertrouwen geven. Maar het pad van details op laag niveau naar verklaringen van complex gedrag is veel langer en moeilijker”, aldus OpenAI.

Een betere interpreteerbaarheid zorgt voor beter toezicht en geeft tijdig waarschuwingssignalen als modelgedrag niet meer in lijn is met beleid.

OpenAI merkte op dat het verbeteren van de mechanistische interpreteerbaarheid “een zeer ambitieuze gok is”, maar schaars netwerkonderzoek heeft dit verbeterd.

Hoe een model te ontwarren

Om de warboel van verbindingen die door een model zijn gecreëerd te ontwarren, heeft OpenAI eerst de meeste van deze verbindingen doorgesneden. Omdat transformatormodellen zoals de GPT-2 duizenden aansluitingen hebben, moest het team deze circuits op nul zetten. Ze praten allemaal alleen met een geselecteerd nummer, zodat de verbindingen netter worden.

Vervolgens voerde het team ‘circuit tracing’ uit op de activiteiten om interpreteerbare circuitgroeperingen te creëren. De laatste taak betrof het snoeien van het model “om het kleinste circuit te verkrijgen dat een doelverlies op de doelverdeling behaalt”, volgens Open AI. Hij streefde naar een verlies van 0,15 om de exacte knooppunten en gewichten te isoleren die verantwoordelijk zijn voor het gedrag.

“We hebben aangetoond dat het elimineren van onze spaarzaam gewogen modellen circuits oplevert die ongeveer 16 keer kleiner zijn in onze taken dan het elimineren van dichte modellen met vergelijkbare voortrainingsverliezen. We zijn ook in staat om willekeurig nauwkeurige circuits te construeren ten koste van meer randen. Dit toont aan dat circuits voor eenvoudig gedrag aanzienlijk meer ontward en lokaliseerbaar zijn in spaarzaam gewogen modellen dan in dichte modellen”, aldus het rapport.

Kleine modellen worden gemakkelijker te trainen

Hoewel OpenAI erin is geslaagd schaarse, gemakkelijker te begrijpen modellen te creëren, blijven deze aanzienlijk kleiner dan de meeste basismodellen die door bedrijven worden gebruikt. Bedrijven ze gebruiken steeds vaker kleine modellenmaar grensmodellen, zoals de zijne vlaggenschip GPT-5.1zij zullen in de toekomst nog steeds profiteren van een betere interpreteerbaarheid.

Andere modelontwikkelaars willen ook begrijpen hoe hun AI-modellen denken. Antropischwat het was zoeken naar interpreteerbaarheid al een tijdje, onlangs onthuld die Claude’s hersenen had “gehackt”. – en Claude merkte het op. Half hij probeert ook te ontdekken hoe redeneermodellen werken hun beslissingen nemen.

Naarmate meer bedrijven zich tot AI-modellen wenden om belangrijke beslissingen te nemen voor hun bedrijf en uiteindelijk voor klanten, zou onderzoek naar het inzicht in hoe modellen denken de duidelijkheid bieden die veel organisaties nodig hebben om de modellen meer te vertrouwen.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in