Een nieuwe studie door onderzoekers van Stanford University en Nvidia stelt een manier voor om AI-modellen na de implementatie te laten blijven leren, zonder de gevolgtrekkingskosten te verhogen. Voor zakenagenten die lange documenten, tickets en logboeken moeten verwerken, is dit een poging om “lang geheugen” te bereiken zonder aandacht te besteden aan de kosten die toenemen met de lengte van de context.
De aanpak, genaamd “Uitgebreide training over testtijden” (TTT-E2E), herformuleert taalmodellering als een continu leerprobleem: in plaats van feiten te onthouden tijdens de pre-training, leren modellen hoe ze zich in realtime kunnen aanpassen terwijl ze nieuwe informatie verwerken.
Het resultaat is een transformator die de lange-contextnauwkeurigheid van modellen met volledige aandacht kan evenaren en tegelijkertijd met bijna-RNN-efficiëntie werkt: een potentiële game-changer voor bedrijfsworkloads waarbij de contextlengte in strijd is met de kosten.
De afweging tussen nauwkeurigheid en efficiëntie
Voor ontwikkelaars die AI-systemen bouwen voor taken waarvoor lange documenten nodig zijn, brengt het kiezen van modelarchitectuur vaak een pijnlijke afweging tussen nauwkeurigheid en efficiëntie met zich mee.
Enerzijds heb je de Transformers met de volle aandacht voor zichzelf, momenteel de gouden standaard voor nauwkeurigheid. Ze zijn ontworpen om de sleutels en waarden van alle voorgaande tokens te scannen voor elk nieuw gegenereerd token, waardoor ze verliesvrij kunnen worden teruggehaald. Deze precisie brengt echter hoge kosten met zich mee: de rekenkosten per token nemen aanzienlijk toe met de lengte van de context.
Aan de andere kant zijn er lineaire tijdreeksmodellen, die de inferentiekosten constant houden, maar moeite hebben om informatie over zeer lange contexten vast te houden.
Andere benaderingen proberen het verschil te splitsen – ‘sliding window’-aandacht, hybriden die aandacht en herhaling combineren, en andere efficiëntietrucs – maar schieten nog steeds tekort in het volledig focussen op harde taalmodellering.
De onderzoekers wedden dat het ontbrekende ingrediënt compressie is: in plaats van te proberen elk token precies terug te halen, zouden modellen de zaken die belangrijk zijn in een compacte staat moeten destilleren.
Proef opleiding
De belangrijkste innovatie van het artikel is de toepassing van Test-Time Training (TTT) op taalmodellering. Dit transformeert het model van een statische database in een flexibele leerling.
Bij standaard AI-implementatie worden modellen getraind om verliezen te minimaliseren en vervolgens ingezet als bevroren artefacten. Als u probeert een statisch model te laten leren tijdens de implementatie, zullen de prestaties doorgaans slecht zijn omdat het nooit is getraind om efficiënt te updaten.
Onderzoekers lossen dit probleem op door over te schakelen van standaard voortraining (het model de feiten leren) naar meta-learning (het model leren hoe te leren). Het doel is om de “initialisatie” van het model te optimaliseren, zodat het snel nieuwe informatie kan absorberen wanneer het actief wordt.
Het proces omvat het simuleren van leren in de inferentietijd tijdens de trainingsfase:
-
Binnenlus (leren): Tijdens de training behandelt het model de tekst als een stroom en voert het kleine tijdelijke updates uit terwijl het het volgende token voorspelt, en simuleert hoe het zich zou aanpassen tijdens de gevolgtrekking.
-
Buitenste lus (leer ze leren): Het systeem werkt vervolgens de modelinitialisatie bij, zodat de volgende ronde van streamingaanpassing sneller en nauwkeuriger wordt.
Hoewel het idee van een model dat tijdens de implementatie van gewicht verandert riskant lijkt voor op betrouwbaarheid gerichte bedrijfsleiders, stelt coauteur Yu Sun dat het wiskundig gezien veiliger is dan het lijkt.
“Je moet het model zien als een RNN met een enorme verborgen staat”, zegt Sun. Hij merkt op dat het stabiliteitsprofiel van TTT vergelijkbaar is, ongeacht of een onderneming er vertrouwen in heeft om Transformer of standaard RNN te implementeren.
Dubbele geheugenarchitectuur
Om TTT-E2E te implementeren, hebben de onderzoekers de standaard Transformer-architectuur aangepast om dit nieuwe leerparadigma te ondersteunen, waardoor een hiërarchie werd gecreëerd die economisch kortetermijncontextbeheer scheidt van selectieve langetermijngeheugenupdates.
-
THet model gebruikt de aandacht van een schuifraam in plaats van volledige aandacht. Dit fungeert als het “werkgeheugen” van het model en kijkt alleen terug naar een vast venster met recente tokens om onmiddellijke syntaxis en lokale referenties te verwerken. Dit zorgt ervoor dat de kosten voor het verwerken van een nieuw token constant blijven en niet stijgen naarmate de context groter wordt.
-
Het model maakt gebruik van ‘gerichte gewichtsupdates’. Terwijl bij standaardmodellen de gewichten tijdens gebruik volledig bevroren zijn, wijst TTT-E2E specifieke secties (meerlaagse Perceptron-lagen in de laatste 25% van de modelblokken) aan als veranderlijk.
-
De architectuur maakt gebruik van ‘dual track storage’ om te voorkomen dat het model vergeten wordt zijn algemene training tijdens het leren van een nieuw document. Elk bijwerkbaar blok bevat twee MLP-componenten: een statische laag die vooraf getrainde algemene kennis bevat en een dynamische laag die in realtime wordt bijgewerkt om de context van het huidige document op te slaan.
De innovatie ligt in de manier waarop het model omgaat met de informatie die uit het schuifraam komt. Bij een standaard schuifraammodel wordt een token, zodra het uit het zicht verdwijnt, vergeten. TTT-E2E voorkomt dit door compressie. Terwijl het venster beweegt, gebruikt het model next-token-voorspelling om informatie te ‘comprimeren’ die rechtstreeks naar de gewichten van de dynamische MLP-lagen stroomt. Hierdoor worden de essentie en feiten van eerdere delen van het document geconsolideerd in de sjabloonstructuur, die als langetermijngeheugen dient.
TTT-E2E in actie
Het belangrijkste resultaat: TTT-E2E blijft verbeteren naarmate de contextlengte toeneemt, waarbij de volledige aandacht wordt gematcht of overschreden, terwijl efficiënte basislijnen zich stabiliseren na ongeveer 32.000 tokens.
Om hun aanpak te valideren, trainden de onderzoekers modellen variërend van 125 miljoen tot 3 miljard parameters. Ze gebruikten een trainingsproces in twee fasen: pre-training op contexten met 8.000 tokens en afstemming op contexten met 128.000 tokens. Deze modellen zijn getest aan de hand van robuuste basislijnen, waaronder Transformers met volledige aandacht, Transformers met Sliding Window Attention (SWA), hybride modellen (Mamba 2 en Gated DeltaNet) en TTT-KVB (een oudere vorm van training die wordt getest).
De resultaten benadrukken aanzienlijke vooruitgang op het gebied van schaalvergroting. Bij het meest kritische experiment werden de prestaties getest toen het invoerdocument groeide van 8.000 naar 128.000 tokens. De Full Attention Transformer, de gouden standaard, bleef zijn prestaties verbeteren (minder verlies) naarmate de context groeide. Efficiënte basislijnen zoals Mamba 2, Gated DeltaNet en SWA bereiken daarentegen een limiet, waarbij hun prestaties afnemen of afvlakken na 32.000 tokens.
De nieuwe TTT-E2E-methode werd met succes aangepast aan de contextlengte, waardoor het gedrag van volledige aandacht werd nagebootst. In experimenten met 3B-parametermodellen behield TTT-E2E feitelijk een lagere verbijstering (betere prestaties) dan volledige aandacht over het gehele contextvenster.
Cruciaal was dat deze prestatie niet ten koste ging van de snelheid. Wat de inferentielatentie betreft, kwam TTT-E2E overeen met de efficiëntie van RNN’s. Met een contextlengte van 128.000 tokens was TTT-E2E 2,7 keer sneller dan de Full-Attention Transformer op Nvidia H100-hardware.
Sun wijst erop dat, cruciaal voor adoptie, TTT-modellen vandaag de dag kunnen worden ingezet voor gevolgtrekking op de standaard Transformer-infrastructuur om deze versnellingen te bereiken. Hij waarschuwt echter dat het trainingsaspect van de vergelijking (met name de buitenste lus) momenteel complexer en langzamer is dan standaardmethoden, wat een obstakel vormt dat nog steeds technische optimalisatie vereist.
De voordelen worden zelfs nog drastischer naarmate de data groeit. Sun stelt dat het voordeel verder zou moeten toenemen in contexten met miljoenen tokens, hoewel deze cijfers eerder projecties zijn dan de huidige basisimplementaties.
De aanpak heeft echter specifieke beperkingen die geworteld zijn in de ontwerpfilosofie. De onderzoekers voerden een ‘Needle in a Haystack’-test uit, waarbij het model een specifiek, geïsoleerd stukje informatie (zoals een toegangscode) moet ophalen, verborgen in een groot tekstblok. In deze evaluatie presteerde Full Attention aanzienlijk beter dan alle andere methoden, inclusief TTT-E2E.
Dat komt omdat Full Attention afhankelijk is van een cache die het vrijwel verliesvrij oproepen van specifieke details mogelijk maakt, terwijl TTT-E2E afhankelijk is van compressie. Compressie legt intuïtie en belangrijke informatie perfect vast, maar mist mogelijk specifieke, willekeurige details die niet passen in de aangeleerde patronen.
Dit onderscheid heeft belangrijke implicaties voor bedrijfsdatapijplijnen, met name voor RAG. Sun suggereert dat TTT RAG niet overbodig zal maken, maar het opnieuw zal definiëren. Hij vergelijkt TTT met ‘het verbeteren van het menselijk brein’ met algemene kennis, terwijl RAG een noodzakelijk instrument voor precisie zal blijven, ‘vergelijkbaar met hoe mensen nog steeds dingen op een notitieblok moeten opschrijven.’ Voor bedrijfsteams is het voordeel dat TTT het aantal ophaalmomenten vermindert, maar de noodzaak voor exacte externe opslag niet wegneemt.
Hoewel de techniek werd gedemonstreerd op de Transformer-architectuur, merken de onderzoekers op dat “TTT in principe kan worden toegepast op elke basisarchitectuur” die scheiding van langetermijn- en kortetermijngeheugencomponenten mogelijk maakt.
“Wij geloven dat deze twee soorten geheugen elkaar zullen blijven aanvullen”, concludeerden de onderzoekers.
Kijkend naar de toekomst voorspelt Sun een paradigmaverschuiving waarin de primaire vorm van AI-geheugen sterk gecomprimeerd zal zijn in plaats van exact. Hoewel de modellen een “redelijk” venster van perfecte herinnering van ongeveer 128.000 tokens zullen behouden, gelooft hij dat TTT-architecturen uiteindelijk een “gecomprimeerd geheugen van miljarden tokens” zullen ontsluiten. het veranderen van de manier waarop zakelijke agenten contextherinnering, kosten en duur balanceren.



