Home Nieuws Het geneste leerparadigma van Google zou het geheugen- en continue leerprobleem van...

Het geneste leerparadigma van Google zou het geheugen- en continue leerprobleem van AI kunnen oplossen

4
0
Het geneste leerparadigma van Google zou het geheugen- en continue leerprobleem van AI kunnen oplossen

Google-onderzoekers hebben een nieuw AI-paradigma ontwikkeld dat gericht is op het oplossen van een van de grootste beperkingen van de hedendaagse grote taalmodellen: hun onvermogen om na de training hun kennis te leren of bij te werken. Het paradigma, genaamd Genest lerenhet herformuleert een model en de training ervan, niet als een enkel proces, maar als een systeem van geneste optimalisatieproblemen op meerdere niveaus. De onderzoekers beweren dat deze aanpak expressievere leeralgoritmen kan ontsluiten, wat leidt tot beter leren en geheugen in context.

Om hun concept te bewijzen, gebruikten de onderzoekers Nested Learning om een ​​nieuw model te ontwikkelen, genaamd Hope. Uit eerste experimenten blijkt dat het superieure prestaties levert op het gebied van taalmodellering, continu leren en redeneertaken met een lange context, wat mogelijk de weg vrijmaakt voor efficiënte AI-systemen die zich kunnen aanpassen aan reële omgevingen.

Het probleem van het geheugen van grote taalmodellen

Diepgaande leeralgoritmen heeft ertoe bijgedragen dat er geen zorgvuldige engineering en domeinexpertise nodig is die traditioneel machinaal leren vereist. Door de modellen met grote hoeveelheden gegevens te voeden, konden ze zelf de benodigde representaties leren. Deze aanpak bracht echter een aantal uitdagingen met zich mee die niet konden worden opgelost door simpelweg meer lagen op elkaar te stapelen of grotere netwerken te creëren, zoals het generaliseren naar nieuwe gegevens, het voortdurend leren van nieuwe taken en het vermijden van suboptimale oplossingen tijdens de training.

Inspanningen om deze uitdagingen te overwinnen hebben geleid tot de innovaties waartoe ze hebben geleid Transformatorende basis van de huidige grote taalmodellen (LLM’s). Deze modellen luidden “een paradigmaverschuiving in van taakspecifieke modellen naar meer algemene systemen met verschillende mogelijkheden die ontstonden als resultaat van het opschalen van de ‘juiste’ architecturen”, schrijven de onderzoekers. Er blijft echter een belangrijke beperking bestaan: LLM’s zijn na de training grotendeels statisch en kunnen hun kennisbasis niet bijwerken of nieuwe vaardigheden verwerven door nieuwe interacties.

Het enige aanpasbare onderdeel van een LLM is zijn eigen onderdeel contextueel leren vermogen, waardoor het taken kan uitvoeren op basis van de informatie die onmiddellijk wordt verstrekt. Dit maakt huidige LLM’s analoog aan een persoon die er niet in slaagt nieuwe langetermijnherinneringen te vormen. Hun kennis is beperkt tot wat ze tijdens de pre-training hebben geleerd (het verre verleden) en wat zich in hun huidige context bevindt (het onmiddellijke heden). Zodra een gesprek buiten het contextvenster gaat, gaat die informatie voor altijd verloren.

Het probleem is dat de huidige op transformatoren gebaseerde LLM’s geen mechanisme hebben voor ‘online’ consolidatie. De informatie in het contextvenster werkt nooit de langetermijnparameters van het model bij: de gewichten die zijn opgeslagen in de feed-forward-lagen. Als gevolg hiervan kan het model niet permanent nieuwe kennis of vaardigheden verwerven uit interacties; alles wat het leert verdwijnt zodra het contextvenster omklapt.

Een geneste benadering van leren

Nested Learning (NL) is ontworpen om computermodellen in staat te stellen te leren van gegevens met behulp van verschillende abstractieniveaus en tijdschalen, net als de hersenen. Behandel een enkel machine learning-model niet als een continu proces, maar als een systeem van onderling verbonden leerproblemen die tegelijkertijd met verschillende snelheden zijn geoptimaliseerd. Dit wijkt af van de klassieke visie, waarin de architectuur van een model en het optimalisatiealgoritme ervan als twee afzonderlijke componenten worden beschouwd.

Volgens dit paradigma wordt het trainingsproces gezien als de ontwikkeling van een ‘associatief geheugen’, het vermogen om gerelateerde informatie te verbinden en terug te roepen. Het model leert een datapunt aan de lokale fout toe te wijzen, wat meet hoe “verrassend” dat datapunt was. Zelfs belangrijke architectonische componenten, zoals het aandachtsmechanisme in transformatoren, kunnen worden gezien als eenvoudige associatieve geheugenmodules die toewijzingen tussen tokens leren. Door voor elke component een updatesnelheid te definiëren, kunnen deze geneste optimalisatieproblemen worden gesorteerd in verschillende “niveaus”, die de kern vormen van het NL-paradigma.

Ik hoop op continu leren

De onderzoekers brachten deze principes in de praktijk met Hope, een architectuur die is ontworpen om Nested Learning te integreren. Hope is een aangepaste versie van Titaneneen andere architectuur die Google in januari introduceerde om de geheugenbeperkingen van het Transformer-model aan te pakken. Hoewel de Titans een krachtig geheugensysteem hadden, werden de parameters slechts op twee verschillende snelheden bijgewerkt: een langetermijngeheugenmodule en een kortetermijngeheugenmechanisme.

Hope is een zelfmodificerende architectuur, uitgebreid met een “Continuum Memory System” (CMS) dat onbeperkte niveaus van in-context leren mogelijk maakt en kan worden geschaald naar grotere contextvensters. Het CMS fungeert als een reeks geheugenbanken, die elk op een andere frequentie worden bijgewerkt. Banken die sneller updaten, beheren directe informatie, terwijl langzamere banken meer abstracte kennis over langere perioden consolideren. Hierdoor kan het model zijn geheugen optimaliseren in een zelfreferentiële lus, waardoor een architectuur ontstaat met theoretisch oneindige leerniveaus.

Met betrekking tot een gevarieerde reeks taalmodellen en op gezond verstand redeneren toonde Hope een lagere verbijstering aan (een maatstaf voor hoe goed een model het volgende woord in een reeks voorspelt en de samenhang behoudt in de tekst die het genereert) en een grotere nauwkeurigheid dan zowel standaardtransformatoren als andere moderne terugkerende modellen. Hope presteerde ook beter bij “Needle-In-Hooiberg”-taken met een lange context, waarbij een model specifieke informatie moet vinden en gebruiken die verborgen is in een grote hoeveelheid tekst. Dit suggereert dat het CMS een efficiëntere manier biedt om lange reeksen informatie te beheren.

Dit is een van de vele pogingen om kunstmatige-intelligentiesystemen te creëren die informatie op verschillende niveaus verwerken. Hiërarchisch redeneermodel (HRM) van Sapient Intelligence, gebruikte een hiërarchische architectuur om het model efficiënter te maken bij het leren van redeneertaken. Redeneermodel met kleine letters (TRM), een model van Samsung, verbetert HRM door architecturale veranderingen aan te brengen, de prestaties te verbeteren en efficiënter te maken.

Hoewel veelbelovend, wordt Nested Learning geconfronteerd met enkele van dezelfde uitdagingen als deze andere paradigma’s bij het realiseren van het volledige potentieel ervan. De huidige AI-hardware- en softwarestacks zijn sterk geoptimaliseerd voor klassieke deep learning-architecturen en Transformer-modellen in het bijzonder. Het op grote schaal adopteren van Nested Learning kan fundamentele veranderingen vereisen. Als het echter aan kracht wint, zou het kunnen leiden tot veel efficiëntere LLM’s die in staat zijn om voortdurend te leren, een cruciale mogelijkheid voor zakelijke toepassingen in de echte wereld waar omgevingen, gegevens en gebruikersbehoeften voortdurend veranderen.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in