In de chaotische wereld van Large Language Model (LLM)-optimalisatie hebben ingenieurs de afgelopen jaren steeds esoterischere rituelen ontwikkeld om betere antwoorden te krijgen.
We hebben ‘Chain of Thought’ gezien (waarbij het model wordt gevraagd stap voor stap na te denken en vaak deze ‘redenen van redeneren’ aan de gebruiker worden getoond), ‘Emotionele chantage’ (het model vertellen dat haar carrière afhangt van het antwoord, of dat ze beschuldigd worden van seksueel wangedrag) en complexe multi-shot promptstructuren.
Maar een nieuw artikel gepubliceerd door Google Research suggereert dat we er misschien te veel over hebben nagedacht. De onderzoekers ontdekten dat het simpelweg herhalen van de invoerquery (dat wil zeggen, het letterlijk kopiëren en plakken van de prompt zodat deze twee keer verschijnt) de prestaties van belangrijke modellen, waaronder Gemini, GPT-4o, Claude en DeepSeek, consequent verbetert.
Het document, getiteld “Snelle herhaling verbetert niet-redenerende LLM’s” , dat vorige maand vlak voor de feestdagen werd gepubliceerd, presenteert een bevinding die bijna verdacht eenvoudig is: voor taken die geen complexe redeneerstappen vereisen, levert het tweemaal uitspreken van de suggestie aanzienlijk betere resultaten op dan het één keer zeggen.
Sterker nog, vanwege de manier waarop de transformatorarchitectuur werkt, levert deze ‘vreemde truc’ vrijwel geen nadelen op in termen van opwekkingssnelheid.
De causale blinde vlek
Om te begrijpen waarom het herhalen van een vraag een supercomputer slimmer maakt, moet je rekening houden met de architectonische beperkingen van het standaard Transformer-model.
De meeste moderne LLM’s zijn getraind als ‘causale’ taalmodellen. Dit betekent dat ze tekst strikt van links naar rechts verwerken. Wanneer het model het vijfde token in uw zin verwerkt, kan het de tokens 1 tot en met 4 “bijwonen” (let op), maar heeft geen kennis van token 6, omdat dit nog niet is gebeurd.
Dit creëert een fundamentele beperking in de manier waarop modellen gebruikersquery’s begrijpen. Zoals de auteurs opmerken, is de volgorde van de informatie uiterst belangrijk.
Een query die is opgemaakt als levert vaak andere resultaten op dan omdat in het laatste geval het model de vraag leest voordat hij de context kent waarop het deze moet toepassen.
Snelle herhaling schendt deze beperking door een invoer te transformeren in .
Het moment dat het model het bestand begint te verwerken seconde iteratie van de query, heeft deze de eerste iteratie al “gelezen”. Hierdoor kunnen de tokens in de tweede kopie voor elk individueel token in de eerste kopie zorgen.
In feite geniet de tweede iteratie een vorm van bidirectionele aandacht: het kan “terugkijken” naar de hele vraag om onduidelijkheden op te lossen of specifieke details op te halen die mogelijk in één keer gemist zijn.
De benchmarks: 47 overwinningen, 0 verliezen
De onderzoekers, Yaniv Leviathan, Matan Kalman en Yossi Matias, testten deze hypothese op een reeks van zeven populaire benchmarks, waaronder ARC, OpenBookOA, GSM8K en MMLU-Pro. Ze evalueerden zeven verschillende modellen, variërend van lichtgewicht modellen zoals de Gemini 2.0 Flash Lite en GPT-4o-mini tot zwaargewichten zoals de Claude 3.7 Sonnet en DeepSeek V3. De resultaten waren statistisch duidelijk. Bij het vragen naar modellen Niet om expliciet te redeneren (dat wil zeggen eenvoudigweg een direct antwoord geven), won onmiddellijke herhaling 47 van de 70 onderlinge tests vergeleken met de basislijn, zonder verliezen. De winst was vooral opmerkelijk bij taken waarbij het nauwkeurig ophalen van een signaal vereist was. Het team ontwierp een aangepaste ‘NameIndex’-benchmark, waarbij het model een lijst met 50 namen krijgt en wordt gevraagd de 25e te identificeren.
Deze enorme sprong illustreert perfect de ‘causale blinde vlek’. In één keer kan het model de telling uit het oog verliezen tegen de tijd dat het de 25e naam bereikt. Bij de herhaalde stap heeft het model feitelijk de hele lijst in zijn “werkgeheugen” voordat het probeert de ophaaltaak op te lossen.
De “gratis lunch” van latentie
Doorgaans verhoogt het toevoegen van tekst aan een prompt de kosten en de latentie. Als u de invoer verdubbelt, verdubbelt u dan zeker de wachttijd? Verrassend genoeg, nee. Het artikel laat zien dat snelle herhaling in wezen ‘gratis’ is met betrekking tot de door de gebruiker waargenomen latentie. LLM-verwerking is verdeeld in twee fasen:
-
Precompilatie: Het model verwerkt de invoerprompt. Dit is zeer parallelleerbaar; de GPU kan de volledige promptarray tegelijkertijd verwerken.
-
Generatie (decodering): Het model genereert het antwoord per token. Dit is serieel en traag.
Tijdige herhaling draagt alleen maar bij aan het werk in de voorvullen fase. Omdat moderne hardware de precompilatie zo efficiënt afhandelt, merkt de gebruiker nauwelijks het verschil. De onderzoekers ontdekten dat het herhalen van de suggestie werkte Niet het verlengde de lengte van het gegenereerde antwoord, noch verhoogde het de latentie van de “time to first token” voor de meeste modellen. De enige uitzonderingen waren de modellen van Anthropic (Claude Haiku en Sonnet) op extreem lange verzoeken, waarbij de prefill-fase uiteindelijk een knelpunt bereikte. Maar in de overgrote meerderheid van de gebruiksgevallen verbetert de techniek de nauwkeurigheid zonder de chatervaring te vertragen.
Redeneren versus herhaling
Er is één kanttekening: deze techniek is in de eerste plaats bedoeld voor ‘niet-redenerende’ taken: scenario’s waarin u een direct antwoord wilt in plaats van een stapsgewijze afleiding.
Toen de onderzoekers snelle herhaling testten in combinatie met ‘ketendenken’ (het model vragen om ‘stap voor stap na te denken’), verdwenen de winsten grotendeels, met neutrale tot licht positieve resultaten (5 overwinningen, 1 verlies, 22 gelijke spelen).
De auteurs gaan ervan uit dat redeneermodellen van nature zelf een versie van herhaling uitvoeren. Wanneer een model ‘denkt’, herhaalt het vaak het uitgangspunt van de vraag in de gegenereerde uitvoer voordat het deze oplost. Daarom wordt het expliciet herhalen van de prompt in de invoer overbodig.
Voor toepassingen waarbij een snelle, directe reactie nodig is zonder de breedsprakigheid (en de kosten) van langdurig redeneren, biedt snelle herhaling echter een krachtig alternatief.
Strategische implementatie voor het bedrijf
Voor zakelijk leiderschap vertegenwoordigt dit onderzoek een van de zeldzaamste dingen in de AI-ontwikkeling: ‘gratis’ optimalisatie. Maar kapitalisatie vereist nuance; Dit is geen blindelings geschakelde instelling voor de hele organisatie, maar eerder een tactische aanpassing die gevolgen heeft voor de techniek, de orkestratie en de beveiliging.
Voor technische leads die de eeuwige driehoek van snelheid, kwaliteit en kosten in evenwicht houden, biedt tijdige herhaling een manier om boven uw gewichtsklasse uit te stijgen. Uit de gegevens blijkt dat kleinere, snellere modellen, zoals de Gemini 2.0 Flash Lite, een vrijwel perfecte ophaalnauwkeurigheid kunnen bereiken (van 21,33% naar 97,33%) door simpelweg de invoer tweemaal te verwerken.
Dit verandert de calculus voor modelselectie: voordat ze overstappen op een groter, duurder model om een knelpunt in de nauwkeurigheid op te lossen, moeten ingenieurs eerst testen of eenvoudige herhaling hun huidige ‘Lite’-modellen in staat stelt de kloof te dichten. Dit is een potentiële strategie om de snelheids- en kostenvoordelen van lichtgewicht infrastructuur te behouden zonder concessies te doen aan de mijnbouw- en herstelprestaties.
Deze logica verschuift op natuurlijke wijze de last naar de orkestratielaag. Voor degenen die de middleware en API-gateways beheren die AI-applicaties samenbrengen, zou tijdige herhaling waarschijnlijk een standaard, onzichtbaar onderdeel van pijplijnlogica moeten worden in plaats van een gebruikersgedrag.
Omdat de techniek echter neutraal is voor taken die veel redeneren, maar zeer effectief is voor directe reacties, vereist deze voorwaardelijke toepassing. Een intelligent orkestratiesysteem zou automatisch verzoeken identificeren die naar niet-redenerende eindpunten worden gerouteerd, zoals entiteitsextractie, classificatie of eenvoudige vragen en antwoorden, en de prompt verdubbelen voordat deze aan het model wordt doorgegeven. Dit optimaliseert de prestaties op infrastructuurniveau en levert betere resultaten zonder tussenkomst van de eindgebruiker of verhoging van het opwekkingsbudget.
Ten slotte introduceert deze toegenomen focus een nieuwe variabele voor beveiligingsteams.
Als het herhalen van een prompt de intentie van een gebruiker ten opzichte van het model verduidelijkt, ligt het voor de hand dat kwade bedoelingen ook kunnen worden opgehelderd. Beveiligingsdirecteuren zullen hun red-teaming-protocollen moeten bijwerken om ‘herhaalde injectie’-aanvallen te testen, om te zien of het herhalen van een jailbreak-commando (bijvoorbeeld ‘Negeer eerdere instructies’) ervoor zorgt dat het model effectiever ‘deelneemt’ aan de inbreuk. Integendeel, dit mechanisme biedt een nieuw defensief instrument: de herhaling van systeemsuggesties.
Het tweemaal aangeven van beveiligingsrails aan het begin van het contextvenster zou het model kunnen dwingen de beveiligingsbeperkingen strikter te respecteren, wat zou kunnen fungeren als een goedkope versterking voor robuuste beveiligingsoperaties.
Waarom dit belangrijk is
Dit onderzoek benadrukt een cruciaal inzicht voor ontwikkelaars die voortbouwen op LLM’s: onze huidige modellen worden nog steeds diep beperkt door hun eenrichtingskarakter. Terwijl we wachten op nieuwe architecturen die causale blindheid kunnen oplossen, bieden ruwe maar effectieve oplossingen zoals snelle herhaling onmiddellijke waarde. De auteurs suggereren dat dit standaardgedrag voor toekomstige systemen kan worden.
Mogelijk zien we binnenkort dat inferentie-engines stilletjes onze aanwijzingen op de achtergrond verdubbelen voordat ze naar het model worden gestuurd, of dat we ‘redeneringsmodellen’ zien die zijn getraind om deze herhalingsstrategie te internaliseren om efficiënter te zijn. Als u momenteel moeite heeft om een model complexe instructies te laten volgen of specifieke details uit een lang document te halen, is de oplossing wellicht geen betere prompt. Misschien moet je het nog een keer zeggen.


