Redeneren Grote Taalmodellen (LLM) zijn ontworpen om complexe problemen op te lossen door ze in een reeks kleinere stappen op te delen. Deze krachtige modellen zijn zeer geschikt voor veeleisende taken zoals geavanceerde programmering en meerfaseplanning.
Maar het ontwikkelen van redeneermodellen vereist een enorme hoeveelheid rekenwerk en energie vanwege de inefficiëntie in het trainingsproces. Terwijl sommige van de krachtige processors continu aan complexe zoekopdrachten werken, zitten anderen in de groep stil.
Onderzoekers van het MIT en elders hebben een manier gevonden om deze inactieve rekentijd te gebruiken om de training van redeneermodellen efficiënt te versnellen.
Hun nieuwe methode traint automatisch een kleiner, sneller model om de resultaten van grotere LLM-redeneringen te voorspellen, die het grotere model verifieert. Dit vermindert de hoeveelheid werk die het redeneermodel moet doen, waardoor het trainingsproces wordt versneld.
De sleutel tot dit systeem is het vermogen om het kleinste model adaptief te trainen en in te zetten, zodat het alleen wordt geactiveerd als sommige processors inactief zijn. Door gebruik te maken van computerbronnen die anders verspild zouden zijn, versnelt het de training zonder dat dit extra kosten met zich meebrengt.
Bij testen op LLM met meerdere redeneringen verdubbelde de methode de trainingssnelheid terwijl de nauwkeurigheid behouden bleef. Dit zou de kosten kunnen verlagen en de energie-efficiëntie kunnen verhogen van het ontwikkelen van geavanceerde LLM’s voor toepassingen zoals het voorspellen van financiële trends of het detecteren van risico’s in elektriciteitsnetwerken.
“Mensen willen modellen die complexere taken aankunnen. Maar als dit het doel is van modelontwikkeling, dan moeten we prioriteit geven aan efficiëntie. We hebben een verliesloze oplossing voor dit probleem gevonden en zo een full-stack systeem ontwikkeld dat in de praktijk behoorlijk opmerkelijke versnellingen kan opleveren”, zegt Qinghao Hu, een MIT-postdoc en co-hoofdauteur van een artikel over deze techniek.
Hij wordt vergezeld door co-hoofdauteur Shang Yang, een afgestudeerde student elektrotechniek en computerwetenschappen (EECS); Junxian Guo, een EECS-afgestudeerde student; senior auteur Song Han, universitair hoofddocent bij EECS, lid van het Electronics Research Laboratory en vooraanstaand wetenschapper bij NVIDIA; evenals anderen bij NVIDIA, ETH Zürich, MIT-IBM Watson AI Lab en de Universiteit van Massachusetts in Amherst. Het onderzoek zal worden gepresenteerd op de ACM International Conference on Architectural Support for Programming Languages and Operating Systems.
Knelpunt in de opleiding
Ontwikkelaars willen dat LLM’s kunnen redeneren om fouten in hun kritische denkproces te identificeren en te corrigeren. Met deze functionaliteit kunnen ze ingewikkelde vragen oplossen die een standaard LLM zouden doen struikelen.
Om hen deze vaardigheid te leren, trainen ontwikkelaars redenerende LLM’s met behulp van een techniek die versterkend leren (RL) wordt genoemd. Het model genereert meerdere mogelijke antwoorden op een vraag, ontvangt een prijs voor de beste kandidaat en wordt bijgewerkt op basis van het beste antwoord. Deze stappen worden duizenden keren herhaald terwijl het model leert.
Maar onderzoekers hebben ontdekt dat het proces van het genereren van meerdere reacties, de zogenaamde uitrol, tot 85% van de uitvoeringstijd kan in beslag nemen die nodig is voor RL-training.
“Vergeleken hiermee kost het updaten van het model, dat eigenlijk het ‘trainingsdeel’ is, heel weinig tijd”, zegt Hu.
Dit knelpunt doet zich voor bij standaard RL-algoritmen omdat alle processors in de trainingsgroep hun antwoorden moeten voltooien voordat ze naar de volgende fase kunnen gaan. Omdat sommige processors aan zeer lange reacties werken, wachten andere die kortere reacties hebben gegenereerd, op voltooiing.
“Ons doel was om deze downtime om te zetten in versnelling zonder kostenverspilling”, voegt Hu toe.
Ze probeerden een bestaande techniek te gebruiken, speculatieve decodering genaamd, om de zaken te versnellen. Bij speculatieve decodering gaat het om het trainen van een kleiner model, een tekenaar genaamd, om snel de toekomstige uitkomsten van het grotere model te raden.
Het grotere model test de hypothesen van de redacteur, en de antwoorden die het accepteert worden gebruikt voor training.
Omdat het grotere model alle hypothesen van de editor in één keer kan testen, in plaats van elke uitvoer opeenvolgend te genereren, versnelt het het proces.
Een adaptieve oplossing
Maar bij speculatieve decodering wordt het tekenmodel over het algemeen slechts één keer getraind en blijft het statisch. Dit maakt de techniek onpraktisch voor versterkend leren, aangezien het redeneermodel tijdens de training duizenden keren wordt bijgewerkt.
Een statische ontwerper zou na slechts een paar stappen snel verouderd en nutteloos worden.
Om dit probleem te overwinnen, creëerden onderzoekers een flexibel systeem dat bekend staat als ‘Taming the Long Tail’ of TLT.
Het eerste deel van TLT is een adaptieve tekentrainer, die vrije tijd op inactieve processors gebruikt om het tekenmodel on-the-fly te trainen, zodat het goed op één lijn blijft met het doelmodel zonder extra computerbronnen te gebruiken.
Het tweede onderdeel, een adaptieve uitrolengine, zorgt voor speculatieve decodering om automatisch de optimale strategie voor elke nieuwe batch invoer te selecteren. Dit mechanisme verandert de speculatieve decoderingsconfiguratie op basis van de kenmerken van de trainingswerklast, zoals het aantal invoer dat door het conceptmodel wordt verwerkt en het aantal invoer dat door het doelmodel wordt geaccepteerd tijdens het testen.
Bovendien hebben de onderzoekers het conceptmodel zo ontworpen dat het licht van gewicht is, zodat het snel kan worden getraind. TLT hergebruikt enkele componenten van het redeneermodeltrainingsproces om de redacteur te trainen, wat tot verdere versnellingswinsten leidt.
“Zodra sommige processors hun korte vragen hebben afgerond en inactief zijn, schakelen we ze onmiddellijk over naar het trainen van het conceptmodel met behulp van dezelfde gegevens die ze gebruiken voor het implementatieproces. Het belangrijkste mechanisme is onze adaptieve speculatieve decodering – deze winst zou zonder dit niet mogelijk zijn”, zegt Hu.
Ze testten TLT op meerdere LLM’s voor redeneren die waren getraind met behulp van datasets uit de echte wereld. Het systeem versnelde de training met 70 tot 210 procent, terwijl de nauwkeurigheid van elk model behouden bleef.
Als bijkomend voordeel zou het kleine tekenmodel gemakkelijk als gratis bijproduct kunnen worden gebruikt voor efficiënte implementatie.
In de toekomst willen onderzoekers TLT integreren in meer soorten trainings- en inferentiekaders en nieuwe toepassingen voor versterkend leren vinden die met deze aanpak kunnen worden versneld.
“Aangezien redeneren de belangrijkste werklast blijft worden die de vraag naar gevolgtrekkingen aanstuurt, doet Qinghao’s TLT uitstekend werk bij het aanpakken van het computationele knelpunt bij het trainen van deze redeneermodellen. Ik denk dat deze methode zeer nuttig zal zijn in de context van efficiënte AI”, zegt Han.
Dit werk wordt gefinancierd door het MIT-IBM Watson AI Lab, het MIT AI Hardware Program, de MIT Amazon Science Hub, de Hyundai Motor Company en de National Science Foundation.



