Wanneer bedrijven LLM’s voor nieuwe bedrijven verfijnen, lopen ze het risico alles te verbreken wat de modellen al weten. Dit dwingt bedrijven om voor elke vaardigheid afzonderlijke sjablonen te onderhouden.
Onderzoekers van MIT, het Improbable AI Lab en ETH Zürich hebben een nieuwe techniek ontwikkeld waarmee grote taalmodellen nieuwe vaardigheden en kennis kunnen leren zonder hun vaardigheden uit het verleden te vergeten.
Hun techniek, genaamd ontwikkeling van zelfdistillatie (SDFT), stelt modellen in staat rechtstreeks te leren van demonstraties en hun eigen experimenten door gebruik te maken van de inherente leermogelijkheden van moderne LLM’s. Experimenten tonen aan dat SDFT consistent beter presteert dan traditionele supervisie-fine-tuning (SFT)-prestaties, terwijl de beperkingen van algoritmen voor versterkend leren worden aangepakt.
Voor bedrijfsapplicaties zorgt de methode ervoor dat één enkel model in de loop van de tijd meer vaardigheden kan verzamelen zonder dat er sprake is van prestatievermindering bij eerdere taken. Dit biedt een potentieel pad voor het creëren van AI-agenten die zich kunnen aanpassen aan dynamische zakelijke omgevingen, waarbij ze indien nodig nieuwe eigen kennis en vaardigheden kunnen verwerven zonder dure omscholingscycli te vereisen of hun algemene redeneervermogen te verliezen.
De uitdaging van continu leren
Eenmaal getraind en ingezet, blijft een LLM statisch. Hij werkt zijn meetgegevens niet bij om nieuwe vaardigheden te verwerven, nieuwe kennis te internaliseren of door ervaring te verbeteren. Om echt adaptieve AI te bouwen, moet de industrie “continu leren“, waardoor systemen kennis kunnen vergaren, net zoals mensen dat gedurende hun hele loopbaan doen.
De meest effectieve manier om patronen te leren is door middel van ‘beleidsgebaseerd leren’. Bij deze benadering leert het model van de gegevens die het genereert, waardoor het zijn eigen fouten en redeneerprocessen kan corrigeren. Dit staat in contrast met leren door simpelweg statische datasets te imiteren. Zonder beleidsgebaseerd leren zijn modellen vatbaar voor “catastrofale vergeetachtigheid”, een fenomeen waarbij het leren van een nieuwe taak ervoor zorgt dat het model kennis uit het verleden en het vermogen om eerdere taken uit te voeren verliest.
Beleidsgericht leren vereist echter doorgaans dat dit wel het geval is versterkend leren (RL), die afhankelijk is van een expliciete beloningsfunctie om de modeluitvoer te evalueren. Dit werkt goed voor problemen met duidelijke resultaten, zoals wiskunde en programmeren. Maar in veel praktijkscenario’s (bijvoorbeeld het schrijven van een juridisch document of het samenvatten van een vergadering) is het definiëren van een wiskundige beloningsfunctie moeilijk of onmogelijk.
RL-methoden falen ook vaak als ze proberen een model volledig nieuwe informatie te leren, zoals een specifiek bedrijfsprotocol of een nieuwe productlijn. Zoals Idan Shenfeld, promovendus bij MIT en co-auteur van het artikel, tegen VentureBeat zei: “Hoe vaak het basismodel het ook probeert, het kan geen correcte antwoorden genereren voor een onderwerp waar het geen kennis van heeft”, wat betekent dat het nooit een positief signaal krijgt om van te leren.
Het standaardalternatief is gesuperviseerde fijnafstelling (SFT), waarbij het model wordt getraind op een vaste dataset van expertdemonstraties. Hoewel SFT duidelijke waarheid biedt, valt het inherent buiten het beleid. Omdat het model eenvoudigweg de gegevens nabootst in plaats van te leren van zijn pogingen, slaagt het er vaak niet in om te generaliseren naar voorbeelden die buiten de distributie vallen en lijdt het zwaar onder catastrofaal vergeten.
SDFT probeert deze leemte op te vullen door de voordelen van beleidsgebaseerd leren mogelijk te maken door alleen vooraf opgenomen demonstraties te gebruiken, zonder de noodzaak van een beloningsfunctie.
Hoe de SDFT werkt
SDFT lost dit probleem op door gebruik te maken van ‘destillatie’, een proces waarbij een modelleerling een leraar leert imiteren. De intuïtie van de onderzoekers was om de eigen ‘learning in context’ (ICL)-mogelijkheden van het model te gebruiken om een feedbacklus binnen één enkel model te creëren.
Leren in context is het fenomeen waarbij je de LLM een moeilijke taak geeft en een of meer demonstraties geeft van hoe soortgelijke problemen worden opgelost. Meer geavanceerde LLM’s zijn ontworpen om nieuwe problemen met ICL-voorbeelden op te lossen, zonder enige parameterupdates.
Tijdens de trainingscyclus gebruikt SDFT het model in twee rollen.
De leraar: De query wordt geleverd met een bevroren versie van het model, samen met demonstraties van experts. Met behulp van ICL leidt de leraar het juiste antwoord af en de logische redenering die nodig is om tot dit antwoord te komen.
De leerling: Deze versie ziet alleen de query en simuleert een real-world implementatiescenario waarin geen antwoordsleutel beschikbaar is.
Wanneer de leerling een antwoord genereert, geeft de docent, die toegang heeft tot deskundige demonstraties, feedback. De leerling werkt vervolgens zijn parameters bij, zodat deze beter aansluiten bij de verdeling van de leraar.
Dit proces creëert effectief een op beleid afgestemde leercyclus door elementen van SFT en RL te combineren. Supervisie komt niet voort uit een statische dataset, maar uit de eigen interactie en resultaten van het model. Het stelt het model in staat zijn redeneertrajecten te corrigeren zonder dat een extern beloningssignaal nodig is. Dit proces werkt ook voor nieuwe kennis die RL zou missen.
SDFT in actie
Om de aanpak te valideren, testten de onderzoekers SDFT met open gewicht Qwen 2.5-model op drie complexe vaardigheden op ondernemingsniveau: wetenschappelijke vragen en antwoorden, het gebruik van softwaretools en medisch redeneren.
De resultaten toonden aan dat SDFT nieuwe taken effectiever leerde dan standaardmethoden. Op de Science Q&A-benchmark behaalde het SDFT-model een nauwkeurigheid van 70,2%, vergeleken met 66,2% voor de standaard SFT-benadering.
Belangrijker voor de acceptatie door ondernemingen is de impact op catastrofaal vergeten. Naarmate het standaard SFT-model de wetenschappelijke taak leerde, stortte zijn vermogen om algemene vragen (zoals logica of geesteswetenschappen) te beantwoorden in. Daarentegen verbeterde het SDFT-model de wetenschappelijke taak, terwijl de score voor “Vorige Taken” stabiel bleef op 64,5%. Deze stabiliteit suggereert dat bedrijven modellen zouden kunnen specialiseren voor specifieke afdelingen (bijvoorbeeld personeelszaken of juridische zaken) zonder het gezond verstand of het fundamentele redeneervermogen van het model aan te tasten.
Het team simuleerde ook een scenario voor kennisinjectie, waarbij een dataset van fictieve ‘natuurrampen in 2025’ werd gecreëerd om het model nieuwe feiten te leren. Ze testten het model op indirecte redeneervragen, zoals “Welke landen hadden, gezien de overstromingen van 2025, waarschijnlijk humanitaire hulp nodig?”
Standaard SFT produceerde een model dat feiten opsloeg, maar moeite had om ze te gebruiken in redeneerscenario’s. Het SDFT-model, dat de logica tijdens de training had geïnternaliseerd, scoorde 98% op dezelfde vragen.
Ten slotte voerden de onderzoekers een sequentieel leerexperiment uit, waarbij ze het model na elkaar trainden op wetenschap, gereedschapsgebruik en medische taken. Terwijl de prestaties van het standaardmodel fluctueerden, waarbij eerdere vaardigheden verloren gingen terwijl nieuwe werden geleerd, verzamelde het SDFT-model met succes alle drie de vaardigheden zonder regressie.
Deze functie pakt een groot pijnpunt aan voor bedrijven die momenteel ‘sjabloondierentuinen’ met afzonderlijke adapters voor verschillende taken exploiteren.
“Wij bieden de mogelijkheid om één enkel model te onderhouden voor alle behoeften van het bedrijf”, aldus Shenfeld. Deze consolidatie “kan leiden tot een substantiële verlaging van de inferentiekosten” omdat organisaties niet meerdere modellen tegelijkertijd hoeven te hosten.
SDFT-beperkingen en beschikbaarheid
De code voor SDFT is beschikbaar op GitHub en klaar om te worden geïntegreerd in bestaande modeltrainingsworkflows.
“De SDFT-pijplijn lijkt meer op de RL-pijplijn, omdat er tijdens de training online respons moet worden gegenereerd”, aldus Shenfeld. Ze werken samen met Hugging Face om SDFT in laatstgenoemde te integreren Transformatorversterking leren (TRL), voegde hij eraan toe en merkte op dat er al een pull-verzoek openstaat voor ontwikkelaars die de integratie willen testen.
Voor teams die SDFT overwegen, komen de praktische afwegingen neer op modelgrootte en berekening. De techniek vereist modellen met in-context leren die sterk genoeg zijn om als leraren van zichzelf te fungeren: momenteel ongeveer 4 miljard parameters met nieuwere architecturen zoals Qwen 3, hoewel Shenfeld verwacht dat binnenkort 1 miljard parametermodellen zullen werken. Het vereist ongeveer 2,5 keer de berekening van standaard fijnafstemming, maar is het meest geschikt voor organisaties die één enkel model nodig hebben om in de loop van de tijd meerdere vaardigheden te verzamelen, vooral in sectoren waar het definiëren van een beloningsfunctie voor versterkend leren moeilijk of onmogelijk is.
Hoewel effectief, heeft de methode computationele afwegingen. SDFT is ongeveer vier keer langzamer en vereist 2,5 keer meer rekenkracht (FLOP’s) dan standaard fijnafstemming, omdat het model tijdens de training actief zijn eigen reacties (“rolls”) moet genereren om deze te vergelijken met die van de leraar. De onderzoekers wijzen er echter op dat organisaties, omdat het model kennis beter vasthoudt, de kostbare, uit meerdere stappen bestaande herscholingsprocessen kunnen vermijden die vaak nodig zijn om modellen te repareren die lijden aan catastrofale vergeetachtigheid.
De techniek is er ook van afhankelijk dat het onderliggende model groot genoeg is om te profiteren van leren in context. Het artikel merkt op dat kleinere modellen (bijvoorbeeld 3 miljard parameters) het aanvankelijk moeilijk hadden omdat ze niet over de ‘intelligentie’ beschikten om als leraren van zichzelf op te treden.
Shenfeld zei echter dat de snelle verbetering van kleine modellen deze dynamiek verandert. “De Qwen 2.5 3B-modellen waren te zwak, maar uit sommige experimenten die we momenteel doen, kwamen we erachter dat het Qwen 3 4B-model behoorlijk sterk is”, zei hij. “Ik voorzie een toekomst waarin zelfs 1B-modellen ICL-mogelijkheden zullen hebben die goed genoeg zijn om SDFT te ondersteunen.”
Uiteindelijk is het doel om verder te gaan dan statische snapshots naar systemen die verbeteren door gebruik.
“Levenslang leren, gekoppeld aan de mogelijkheid om leersignalen uit ongestructureerde gebruikersinteracties te halen… zal leiden tot modellen die in de loop van de tijd blijven verbeteren”, aldus Shenfeld.
“Denk eens aan het feit dat het grootste deel van de verwerking over de hele wereld al wordt gebruikt voor gevolgtrekkingen in plaats van voor training. We moeten manieren vinden om deze verwerking te gebruiken om onze modellen te verbeteren.”


