Home Nieuws Leg vooroordelen, stemmingen, persoonlijkheden en abstracte concepten bloot die verborgen zijn in...

Leg vooroordelen, stemmingen, persoonlijkheden en abstracte concepten bloot die verborgen zijn in brede taalkundige patronen | MIT-nieuws

2
0
Leg vooroordelen, stemmingen, persoonlijkheden en abstracte concepten bloot die verborgen zijn in brede taalkundige patronen | MIT-nieuws

Inmiddels hebben ChatGPT, Claude en andere grote taalmodellen zoveel menselijke kennis verzameld dat ze verre van eenvoudige responsgeneratoren zijn; ze kunnen ook abstracte concepten uitdrukken, zoals bepaalde tonen, persoonlijkheden, vooroordelen en stemmingen. Het is echter onduidelijk hoe deze modellen abstracte concepten precies vertegenwoordigen, te beginnen met de kennis die ze bevatten.

Nu heeft een team van MIT en de Universiteit van Californië in San Diego een manier ontwikkeld om te testen of een groot taalmodel (LLM) verborgen vooroordelen, persoonlijkheden, stemmingen of andere abstracte concepten bevat. Hun methode kan zich richten op verbindingen binnen een model die coderen voor een concept van interesse. Bovendien kan de methode deze verbindingen vervolgens manipuleren of ‘sturen’ om het concept te versterken of te verzwakken in elke reactie die een model moet geven.

Het team toonde aan dat hun methode snel meer dan 500 algemene concepten kon uitroeien en oriënteren in enkele van de grootste LLM’s die tegenwoordig worden gebruikt. Onderzoekers zouden zich bijvoorbeeld kunnen concentreren op de representaties van een model voor persoonlijkheden als ‘sociale beïnvloeder’ en ‘complottheoreticus’ en posities als ‘angst voor het huwelijk’ en ‘Boston-fan’. Ze kunnen deze representaties vervolgens verfijnen om concepten in elke reactie die door een model wordt gegenereerd, te verbeteren of te minimaliseren.

In het geval van het concept ‘complottheoreticus’ kon het team een ​​representatie van dit concept identificeren binnen een van de breedste visietaalmodellen die momenteel beschikbaar zijn. Toen ze de representatie verbeterden en vervolgens het model pushten om de oorsprong van het beroemde ‘Blauwe Marmeren’ beeld van de aarde, gemaakt door Apollo 17, te verklaren, genereerde het model een reactie met de toon en het perspectief van een complottheoreticus.

Het team erkent dat er risico’s kleven aan het extraheren van bepaalde concepten, wat zij ook illustreren (en waartegen ze waarschuwen). Over het geheel genomen zien ze de nieuwe aanpak echter als een manier om verborgen concepten en potentiële kwetsbaarheden in LLM’s aan het licht te brengen, die vervolgens omhoog of omlaag kunnen worden geschaald om de beveiliging van een model te verbeteren of de prestaties ervan te verbeteren.

“Wat dit werkelijk over LLM’s zegt, is dat ze deze concepten bevatten, maar dat ze niet allemaal actief aan de kaak worden gesteld”, zegt Adityanarayanan “Adit” Radhakrishnan, assistent-professor wiskunde aan het MIT. “Met onze methode kun je deze verschillende concepten extraheren en activeren op manieren waarop suggesties je geen antwoord kunnen geven.”

Het team publiceerde de resultaten vandaag in een onderzoek dat in het tijdschrift verscheen Wetenschap. Co-auteurs van de studie zijn onder meer Radhakrishnan, Daniel Beaglehole en Mikhail Belkin van UC San Diego, en Enric Boix-Adserà van de Universiteit van Pennsylvania.

Een vis in een zwarte doos

Met de explosie van het gebruik van ChatGPT van OpenAI, Gemini van Google, Claude van Anthropic en andere AI-assistenten, haasten wetenschappers zich om te begrijpen hoe de modellen bepaalde abstracte concepten vertegenwoordigen, zoals ‘hallucinatie’ en ‘bedrog’. In de context van een LLM is een hallucinatie een reactie die vals is of misleidende informatie bevat, die het model heeft “gehallucineerd” of ten onrechte als feit heeft geconstrueerd.

Om erachter te komen of een concept als ‘hallucinatie’ is gecodeerd in een LLM, hebben wetenschappers vaak een ‘unsupervised learning’-benadering gevolgd – een vorm van machinaal leren waarbij algoritmen ongelabelde representaties uitgebreid onderzoeken om patronen te vinden die verband kunnen houden met een concept als ‘hallucinatie’. Maar voor Radhakrishnan kan een dergelijke aanpak te breed en rekentechnisch duur zijn.

“Het is alsof je met een groot net gaat vissen en één soort vis probeert te vangen. Je zult veel vissen tegenkomen die je moet doorzoeken om de juiste te vinden”, zegt hij. “In plaats daarvan kiezen we voor aas voor de juiste vissoort.”

Hij en zijn collega’s hadden eerder het begin ontwikkeld van een meer gerichte aanpak met een soort voorspellend modelleringsalgoritme dat bekend staat als een recursive feature machine (RFM). Een RFM is ontworpen om kenmerken of patronen binnen gegevens direct te identificeren door gebruik te maken van een wiskundig mechanisme dat neurale netwerken – een brede categorie van AI-modellen waartoe ook LLM’s behoren – impliciet gebruiken om kenmerken te leren.

Omdat het algoritme een effectieve en efficiënte benadering was voor het verwerven van functies in het algemeen, vroeg het team zich af of ze het konden gebruiken om conceptrepresentaties uit te roeien in LLM’s, die veruit het meest gebruikte en misschien wel het minst begrepen type neuraal netwerk zijn.

“We wilden onze feature learning-algoritmen toepassen op LLM’s om op een gerichte manier representaties van concepten in deze grote, complexe modellen te ontdekken”, zegt Radhakrishnan.

Convergeren op een concept

De nieuwe aanpak van het team identificeert elk interessant concept binnen een LLM en ‘oriënteert’ of begeleidt de reactie van een model op basis van dit concept. De onderzoekers zochten naar 512 concepten, onderverdeeld in vijf klassen: angsten (zoals die voor het huwelijk, insecten en zelfs knopen); experts (sociale beïnvloeders, mediëvisten); stemmingen (ijdel, afstandelijk geamuseerd); een voorkeur voor locaties (Boston, Kuala Lumpur); en personages (Ada Lovelace, Neil deGrasse Tyson).

De onderzoekers zochten vervolgens naar representaties van elk concept in verschillende van de hedendaagse grote taalkundige en visuele modellen. Ze deden dit door RFM’s te trainen in het herkennen van numerieke patronen in een LLM die een bepaald interessant concept zouden kunnen vertegenwoordigen.

Een groot standaardtaalmodel is over het algemeen een neuraal netwerk dat een natuurlijke taalsuggestie accepteert, zoals “Waarom is de lucht blauw?” en verdeelt de prompt in afzonderlijke woorden, die elk wiskundig zijn gecodeerd als een lijst of vector van getallen. Het model leidt deze vectoren door een reeks rekenniveaus en creëert matrices van vele getallen die op elk niveau worden gebruikt om andere woorden te identificeren die waarschijnlijker zullen worden gebruikt om op de oorspronkelijke suggestie te reageren. Uiteindelijk komen de lagen samen in een reeks getallen die weer in tekst worden gedecodeerd, als een natuurlijke taalreactie.

De aanpak van het team traint RFM’s om numerieke patronen in een LLM te herkennen die mogelijk verband houden met een specifiek concept. Om bijvoorbeeld te zien of een LLM een representatie van een ‘complottheoreticus’ bevat, zouden onderzoekers eerst het algoritme moeten trainen om patronen te identificeren tussen de LLM-representaties van 100 suggesties die duidelijk verband houden met samenzwering en nog eens 100 suggesties die dat niet zijn. Op deze manier zou het algoritme patronen leren die verband houden met het concept van complottheoreticus. Vervolgens kunnen onderzoekers de conceptactiviteit van complottheoretici wiskundig moduleren door LLM-representaties te verstoren met deze geïdentificeerde patronen.

De methode kan worden toegepast om elk algemeen concept in een LLM te zoeken en te manipuleren. Onder de vele voorbeelden identificeerden onderzoekers representaties en manipuleerden ze een LLM om antwoorden te geven met de toon en het perspectief van een ‘complottheoreticus’. Ze identificeerden en verbeterden ook het concept van ‘anti-afwijzing’ en toonden aan dat hoewel een model normaal gesproken geprogrammeerd zou zijn om bepaalde suggesties te verwerpen, het in plaats daarvan reageert, bijvoorbeeld door instructies te geven over hoe je een bank kunt beroven.

Radhakrishnan zegt dat de aanpak kan worden gebruikt om snel kwetsbaarheden in LLM’s op te sporen en te minimaliseren. Het kan ook worden gebruikt om bepaalde eigenschappen, persoonlijkheden, stemmingen of voorkeuren te versterken, zoals het benadrukken van het concept van ‘beknoptheid’ of ‘redenering’ in elk antwoord dat door een LLM wordt gegenereerd. Het team heeft de onderliggende code van de methode openbaar gemaakt.

“LLM’s hebben duidelijk veel van deze abstracte concepten in zich opgeslagen, in sommige representaties”, zegt Radhakrishnan. “Er zijn manieren waarop we, als we deze representaties goed genoeg begrijpen, zeer gespecialiseerde LLM’s kunnen bouwen die nog steeds veilig zijn om te gebruiken, maar echt effectief zijn bij bepaalde taken.

Dit werk werd gedeeltelijk ondersteund door de National Science Foundation, de Simons Foundation, het TILOS Institute en het US Office of Naval Research.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in