Home Nieuws De onderzoekers hebben 3x gevolgtrekkingsversnellingen rechtstreeks in de LLM-gewichten ingevoegd, zonder speculatieve...

De onderzoekers hebben 3x gevolgtrekkingsversnellingen rechtstreeks in de LLM-gewichten ingevoegd, zonder speculatieve decodering

3
0
De onderzoekers hebben 3x gevolgtrekkingsversnellingen rechtstreeks in de LLM-gewichten ingevoegd, zonder speculatieve decodering

Omdat AI-gestuurde workflows de kosten en latentie van lange redeneerketens vermenigvuldigen, heeft een team van de Universiteit van Maryland, Lawrence Livermore National Labs, Columbia University en TogetherAI een manier gevonden om een ​​drievoudige doorvoerwinst te behalen rechtstreeks in de gewichten van een model.

In tegenstelling tot speculatieve decodering, waarvoor een afzonderlijk redactiemodel vereist is, vereist deze aanpak geen extra infrastructuur, maar slechts één speciaal token dat wordt toegevoegd aan de bestaande architectuur van het model.

De grenzen van het voorspellen van het volgende token

De volgende tokenvoorspelling, dat wil zeggen het genereren van tekst van één token per voorwaartse doorgang, creëert een doorvoerlimiet die extreem duur wordt wanneer modellen duizenden tokens moeten produceren. Dit knelpunt is vooral problematisch bij redeneermodellen, die vaak duizenden ‘keten van gedachten”-token voordat het definitieve antwoord wordt geproduceerd, wat leidt tot een trage en dure gebruikerservaring.

Multi-token voorspelling (MTP) biedt een alternatief trainingsparadigma waarmee een taalmodel meerdere tokens tegelijk kan produceren in één enkele voorwaartse doorgang. Het model kan bijvoorbeeld worden getraind om een ​​blok tokens in één keer te voorspellen in plaats van alleen het volgende token.

John Kirchenbauer, een promovendus in computerwetenschappen aan de Universiteit van Maryland en co-auteur van het artikel, vertelde VentureBeat dat naarmate we richting agent-gebaseerde workflows evolueren, de focus verschuift van de algehele doorvoer naar de snelheid van de individuele gebruiker. “Nu ultralange denksporen de norm zijn en externe agentcircuits deze kosten verder vermenigvuldigen, wordt latentie een even belangrijke dimensie van de algehele service-efficiëntie als bruto tokens per seconde per hardware-eenheid (tps/GPU)”, aldus Kirchenbauer. Hij zei dat hoewel de standaard batch-next-token-voorspelling al optimaal is voor de algehele doorvoer, de nieuwe aanpak “ernaar streeft om de GPU te verzadigen met slechts één gebruikersquery om de latentie voor die ene gebruiker te verminderen.”

Er zijn andere methoden, maar deze hebben nadelen. “Het is vermeldenswaard dat speculatieve decodering en diffusie-LLM’s als een op efficiëntie gericht alternatief voor next token forecast (NTP) beide op latentie gerichte versnellingstechnieken zijn”, aldus Kirchenbauer. Maar speculatieve decodering vereist de implementatie en het beheer van een aanvullend ‘tekenmodel’, dat meer absolute berekeningen gebruikt voor het opstellen en verifiëren. MTP daarentegen “maakt gebruik van een soortgelijk soort afweging, is eenvoudigweg gemakkelijker te bedienen en op zichzelf wetenschappelijk interessant.”

De huidige MTP-paradigma’s hebben echter beperkingen. Het standaarddoel voor het trainen van een taalmodel voor MTP is het vergelijken van de voorspellingen met de onderliggende tekst van een dataset. De valkuil is dat deze standaardtraining het model leert om zelfstandig de waarschijnlijkheid van een token op een specifieke locatie te voorspellen, in plaats van zich druk te maken over de gezamenlijke relatie tussen een reeks tokens.

Als een model meerdere tokens tegelijk probeert te voorspellen met behulp van deze standaardmethode, doen zich twee belangrijke problemen voor. De eerste is grammaticale mismatch. Als een model bijvoorbeeld twee woorden voorspelt die volgen op het voorvoegsel ‘De dierenverzorger heeft de dieren gevoed’, kan het onafhankelijk van elkaar monsters nemen en een niet-overeenkomende zin produceren, zoals ‘pandavlees’ of ‘leeuwenbamboe’ in plaats van ‘pandabamboe’ en ‘leeuwenvlees’.

Het tweede probleem is gedegenereerde herhaling. Omdat typische tekst onvoorspelbaar is, zal een model dat een token 100 plaatsen in de toekomst probeert te voorspellen op basis van een standaard dataset eenvoudigweg ‘de’ voorspellen, aangezien dit het meest voorkomende woord in het Engels is. Dit resulteert erin dat het model onzin produceert als “…de de de…” voor posities in de verre toekomst.

Voorspelling van meerdere tokens via zelfdistillatie

Om het probleem van het genereren van meerdere tokens op te lossen, stellen onderzoekers een nieuwe trainingstechniek voor die gebruik maakt van een leerling-leraarschema. Een studentenmodel, dat wil zeggen het model dat meerdere tokens leert voorspellen, genereert een deterministisch multi-tokenblok. Een lerarenmodel, dat fungeert als een sterk taalkundig model dat het volgende token voorspelt, evalueert dat blok. De leraar treedt op als criticus en berekent hoe waarschijnlijk en coherent de door de leerling voorgestelde volgorde is. Als de leerling met een niet-overeenkomende zin komt, zoals ‘bamboe-leeuw’, kent de leraar deze zin toe als een hoog verlies, en leert hij de leerling die constructie te vermijden.

Afbeelding tegoed: VentureBeat met Nano Banana Pro

Het paradigma is geïnspireerd door op beleid gebaseerd versterkend leren, omdat het leerlingmodel niet simpelweg een statische tekst uit het hoofd leert. Het genereert een volledige uitrol (opeenvolging van acties in RL-jargon) onmiddellijk parallel op een enkele stap vooruit en ontvangt een beloning op basis van hoe goed de leraar denkt dat het is. In tegenstelling tot statische methoden onder toezicht, waarbij trainingsparen vooraf worden vastgelegd, is de feedback hier dynamisch en wordt deze in realtime gegenereerd door de resultaten van de leerling. De sterke leraar controleert ook de consistentie van de tokens, wat voorkomt dat het studentenmodel gedegenereerde resultaten zoals herhaalde woorden leert.

Voor ontwikkelaars ligt de schoonheid van deze aanpak in de eenvoud ervan. “Er zijn eigenlijk geen veranderingen aan de architectuur behalve de toevoeging van een speciaal token”, zei Kirchenbauer. Het coöpteren van een ongebruikt slot in de bestaande inbeddingsmatrix van een model om als een mask token zet de techniek opeenvolgende bewerkingen om in parallelle bewerkingen. “Elk standaardmodel van de volgende token-voorspellingstaal kan op deze manier worden aangepast… de interne implementatie – MoE, aandacht voor vensters, SSM-lagen, enz. – blijft intact en vormt geen obstakels voor aanpassing.”

Voor technische teams betekent dit dat aanpassingen kunnen worden toegepast op modellen die al in productie zijn, zonder dat de pijpleidingen opnieuw moeten worden opgebouwd.

ConfAdapt

Afbeelding tegoed: VentureBeat met Nano Banana Pro

Het tegelijkertijd genereren van meerdere tokens kan echter de nauwkeurigheid van het antwoord op het moment van de gevolgtrekking in gevaar brengen. Om de generatiesnelheid te maximaliseren zonder dat dit ten koste gaat van de uitvoerkwaliteit, introduceren de auteurs een adaptieve decoderingsstrategie genaamd ConfAdapt.

ConfAdapt evalueert bij elke stap een betrouwbaarheidsdrempel, zoals 90%. Het model genereert een blok tokens, maar bewaart alleen tokens die aan deze hoge betrouwbaarheidsdrempel voldoen of deze overschrijden. Wanneer de binnenkomende tekst zeer voorspelbaar of structureel is, is de betrouwbaarheid van het model zeer hoog. Het accepteert en produceert in één keer een groot aantal tokens, waardoor veel rekentijd wordt bespaard op eenvoudige tokens. Vervolgens richt het zijn dure stappen met één token op moeilijkere tokens die meer rekeninspanning vereisen.

Multi-token voorspelling op de proef gesteld

Om te zien hoe het trainingsparadigma in de praktijk werkte, pasten de onderzoekers hun methode toe op populaire modellen met instructies met open gewicht. Ze testten het krachtige model Llama-3.1-8B-Magpie voor algemene doeleinden en de kleinere, efficiëntere Qwen3-4B-Instruct-2507, die vaak wordt gekozen voor kostengevoelige bedrijfsimplementaties. Beide modellen zijn geoptimaliseerd op MetaMathQA, een dataset van synthetische wiskundeproblemen op de basisschool die sterk afhankelijk zijn van redeneersporen.

MTP met ConfAdapt

Voorbeeld van multi-tokenblokken gegenereerd met ConfAdapt (bron: arXiv)

Uit de experimenten bleek een duidelijk evenwicht tussen snelheid en nauwkeurigheid. Met behulp van de ConfAdapt-strategie behaalde het Llama-3.1-8B-model een versnelling van 3x met een nauwkeurigheidsdaling van minder dan 3% ten opzichte van wiskundige benchmarks. Het Qwen3-4B-model behaalde dezelfde 3x snelheid met een iets hogere nauwkeurigheidsdaling van 7%. Met agressievere instellingen konden 5x versnellingen worden bereikt, hoewel ze hogere nauwkeurigheidsboetes met zich meebrachten.

Hoe dit zich vertaalt in activiteiten in de echte wereld, hangt af van de voorspelbaarheid. “Omdat de ConfAdapt-aanpak de versnelling op natuurlijke wijze aanpast aan de intrinsieke entropie in het domein, kan het model, wanneer het precies ‘weet’ wat er daarna komt, dit in één enkele stap uitvoeren,” merkte hij op, wat leidde tot een enorme versnelling van voorspelbare taken, waarbij meerdere stappen werden gebruikt voor onzekere uitkomsten.

Er werden ook versnellingen overgedragen tussen domeinen die niet waren opgenomen in de multi-token voorspellingstrainingsfase. Dit omvatte taken binnen hetzelfde domein als de trainingsgegevens, zoals wiskunde en redeneren, maar ook taken met een open einde, zoals creatief schrijven en samenvatten.

Screenshot gedateerd 20-02-2026 om 21:22:58 uur

De goede plek van MTP met ConfAdapt is ongeveer 3x sneller (bron: arXiv)

Ondanks deze leeroverdracht mogen bedrijven die deze modellen voor gespecialiseerde taken implementeren, er niet volledig op vertrouwen. “Onze aanbeveling zou zijn om het model voor MTP te verfijnen/aan te passen met behulp van monsters uit de speciale industriële sector”, aldus Kirchenbauer. “De beste prestaties worden waarschijnlijk behaald als MTP-aanpassing wordt uitgevoerd met behulp van distributiedomeinverzoeken.”

Het dienen van compatibiliteit en de weg die voor ons ligt

Het onderzoeksteam heeft de hunne vrijgegeven modellen getraind in knuffelgezicht en zal binnenkort worden vrijgegeven de code voor hun MTP-framework. Infrastructuurteams die deze modellen integreren in vLLM of SGLang zullen rekening moeten houden met veranderingen in de manier waarop KV-batching en caching worden afgehandeld, maar dit is een eenmalige technische investering en geen voortdurende last. Kirchenbauer ziet echter “geen duidelijke belemmeringen voor integratie” en bevestigde dat het team “met een aantal systeemexperts samenwerkt om de kortste weg naar integratie te identificeren.”

Het advies van Kirchenbauer voor teams die vrijgegeven modellen willen testen: Begin met speelgoedsuggesties zoals het tellen of herhalen van een zin om de voordelen van ConfAdapt in actie te zien, en pas het model vervolgens aan met behulp van voorbeelden uit uw specifieke implementatiedomein om de beste resultaten te krijgen. “Over het algemeen verwachten we dat een productieklare implementatie van onze aanpak de levenscyclus van het bouwen en implementeren van agentische modellen met lage latentie kan vereenvoudigen”, concludeert Kirchenbauer. “Terwijl de bestaande versnellingstechnieken voor NTP-modellen zich vrijwel uitsluitend richten op inferentiebedrading en logica, brengt onze aanpak slechts een deel van de complexiteit in het model zelf, waardoor het grotendeels complementair is aan bestaand werk.”

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in