De meeste talen gebruiken woordpositie en zinsstructuur om betekenis te extraheren. ‘De kat zat op de doos’ is bijvoorbeeld niet hetzelfde als ‘De doos zat op de kat’. In de loop van een lange tekst, zoals een financieel document of een roman, zal de syntaxis van deze woorden waarschijnlijk evolueren.
Op dezelfde manier kan een persoon variabelen in een stukje code bijhouden of instructies volgen die voorwaardelijke acties hebben. Dit zijn voorbeelden van staatsveranderingen en sequentiële redeneringen waarvan we verwachten dat geavanceerde AI-systemen daarin zullen uitblinken; Het bestaande, state-of-the-art aandachtsmechanisme binnen transformers – de architectuur die voornamelijk wordt gebruikt in grote taalmodellen (LLM’s) om het belang van woorden te bepalen – heeft echter theoretische en empirische beperkingen als het gaat om dergelijke mogelijkheden.
Een aandachtsmechanisme stelt een LLM in staat terug te kijken naar eerdere delen van een vraag of document en, op basis van zijn training, te bepalen welke details en woorden er het meest toe doen; dit mechanisme alleen begrijpt echter de woordvolgorde niet. Het ‘ziet’ alle invoerwoorden, d.w.z. tokens, tegelijkertijd en verwerkt ze in de volgorde waarin ze worden gepresenteerd. Daarom hebben onderzoekers technieken ontwikkeld om locatie-informatie te coderen. Dit is essentieel voor zeer gestructureerde domeinen, zoals taal. Maar de overheersende methode voor positiecodering, genaamd Rotary Position Encoding (RoPE), houdt alleen rekening met de relatieve afstand tussen tokens in een reeks en is onafhankelijk van de invoergegevens. Dit betekent dat bijvoorbeeld woorden die vier plaatsen uit elkaar liggen, zoals ‘kat’ en ‘doos’ in het bovenstaande voorbeeld, allemaal dezelfde vaste wiskundige rotatie zullen krijgen die specifiek is voor die relatieve afstand.
Nu heeft onderzoek onder leiding van MIT en het MIT-IBM Watson AI Lab een coderingstechniek opgeleverd die bekend staat als ‘PaTH Attention’ en die positionele informatie adaptief en contextbewust maakt in plaats van statisch, zoals bij RoPE.
“Transformers maken nauwkeurige en schaalbare modellering van veel domeinen mogelijk, maar ze hebben deze beperkingen met betrekking tot statusmonitoring, een klasse van verschijnselen waarvan wordt gedacht dat ze ten grondslag liggen aan belangrijke mogelijkheden die we in onze AI-systemen willen hebben. De belangrijke vraag is dus: hoe kunnen we de schaalbaarheid en efficiëntie van Transformers behouden, terwijl we toch statusmonitoring mogelijk maken?” zegt senior auteur van het artikel, Yoon Kim, universitair hoofddocent bij de afdeling Electrical and Computer Engineering (EECS), lid van het Computer Science and Artificial Intelligence Laboratory (CSAIL) en onderzoeker bij het MIT-IBM Watson AI Lab.
Een nieuw artikel over dit werk werd eerder deze maand gepresenteerd op de Conference on Neural Information Processing Systems (NeurIPS). Kim’s co-auteurs zijn onder meer hoofdauteur Songlin Yang, een EECS-afgestudeerde student en voormalig MIT-IBM Watson AI Lab zomerprogramma stagiair; Kaiyue Wen van Stanford Universiteit; Liliang Ren van Microsoft; en Yikang Shen, Shawn Tan, Mayank Mishra en Rameswar Panda van IBM Research en het MIT-IBM Watson AI Lab.
Pad naar begrip
In plaats van elk woord een vaste rotatie toe te wijzen op basis van de relatieve afstand tussen tokens, zoals RoPE doet, is PaTH Attention flexibel, waarbij tussenliggende woorden worden behandeld als een pad van kleine data-afhankelijke transformaties. Elke transformatie, gebaseerd op een wiskundige bewerking die huisbewonersreflectie wordt genoemd, fungeert als een kleine spiegel die zich aanpast afhankelijk van de inhoud van elk passerend token. Elke stap in een reeks kan van invloed zijn op hoe het model informatie later interpreteert. Door het cumulatieve effect kan het systeem modelleren hoe de betekenis verandert langs het pad tussen woorden, en niet alleen hoe ver ze uit elkaar liggen. Met deze aanpak kunnen transformatoren volgen hoe entiteiten en relaties in de loop van de tijd veranderen, waardoor het een gevoel van ‘positioneel geheugen’ krijgt. Zie dit als het bewandelen van een pad terwijl je je omgeving ervaart en hoe deze je beïnvloedt. Bovendien heeft het team ook een hardware-efficiënt algoritme ontwikkeld om de aandachtsscores tussen elk paar tokens efficiënter te berekenen, zodat de cumulatieve wiskundige transformatie van PaTH Attention wordt gecomprimeerd en opgesplitst in kleinere berekeningen, zodat deze compatibel is met snelle verwerking op GPU’s.
De MIT-IBM-onderzoekers onderzochten vervolgens de prestaties van PaTH Attention op synthetische en reële taken, inclusief redeneren, lange-contextbenchmarks en volledige LLM-training om te zien of dit het vermogen van een model om informatie bij te houden in de loop van de tijd verbeterde. Het team testte zijn vermogen om het meest recente ‘schrijf’-commando te volgen, ondanks de vele afleidende stappen en meerstaps terugroeptests, moeilijke taken voor standaard positionele codeermethoden zoals RoPE. De onderzoekers trainden ook middelgrote LLM’s en vergeleken deze met andere methoden. PaTH-aandacht verbeterde de verwarring en presteerde beter dan andere methoden op het gebied van redeneerparameters waarop het niet was getraind. Ze evalueerden ook het ophalen, redeneren en stabiliteit met de invoer van tienduizenden tokens. Er is consequent aangetoond dat PaTH Attention in staat is tot bewustzijn van de inhoud.
“We ontdekten dat onze nieuwe aanpak, zowel bij diagnostische taken die zijn ontworpen om de grenzen van transformatoren te testen als bij taken voor taalmodellering in de echte wereld, beter presteerde dan de bestaande aandachtsmechanismen, terwijl de efficiëntie ervan behouden bleef”, zegt Kim. Bovendien: “Ik zou graag willen zien of dit soort data-afhankelijke positiecoderingen, zoals PATH, de prestaties van Transformers op gestructureerde domeinen zoals biologie, in eiwit- of DNA-analyse verbeteren.”
Denk groter en efficiënter
De onderzoekers bestudeerden vervolgens hoe het PaTH-aandachtsmechanisme zou werken als het de menselijke cognitie beter zou nabootsen, waarbij we oude of minder relevante informatie negeren bij het nemen van beslissingen. Om dit te doen combineerden ze PaTH Attention met een ander positiecoderingsschema dat bekend staat als Forgetting Transformer (FoX), waarmee modellen selectief kunnen ‘vergeten’. Het resulterende PaTH-FoX-systeem voegt een manier toe om het informatiegewicht op een data-afhankelijke manier te verminderen, waardoor geweldige resultaten worden bereikt op het gebied van redeneren, langdurig contextbegrip en benchmarks voor taalmodellering. Op deze manier breidt PaTH Attention de expressieve kracht van transformatorarchitecturen uit.
Kim zegt dat dit soort onderzoek deel uitmaakt van een grotere inspanning om het ‘next big thing’ op het gebied van kunstmatige intelligentie te ontwikkelen. Hij legt uit dat een van de belangrijkste drijvende krachten achter de revoluties op het gebied van deep learning en generatieve AI de creatie is geweest van ‘bouwstenen voor algemeen gebruik die in brede domeinen kunnen worden toegepast’, zoals ‘convolutielagen, RNN-lagen (recurrent neuraal netwerk)’ en, meer recentelijk, transformatoren. Vooruitkijkend merkt Kim op dat overwegingen als hardwarenauwkeurigheid, expressiviteit, flexibiliteit en schaalbaarheid essentieel zijn en zullen blijven. Zoals hij het stelt: “de belangrijkste onderneming van het moderne architectuuronderzoek is het proberen deze nieuwe primitieven uit te vinden die de expressiviteit behouden of versterken, terwijl ze schaalbaar zijn.”
Dit werk werd gedeeltelijk ondersteund door het MIT-IBM Watson AI Lab en het AI2050-programma van Schmidt Sciences.


