Onderzoekers van Stanford, Nvidia en Together AI hebben een nieuwe techniek ontwikkeld die nieuwe oplossingen voor zeer complexe problemen kan ontdekken. Ze zijn er bijvoorbeeld in geslaagd een kritische GPU-kernel te optimaliseren zodat deze 2x sneller werkt dan eerdere state-of-the-art geschreven door menselijke experts.
Hun techniek, genaamd “Proeftraining om te ontdekken” (TTT-Discover), daagt het huidige paradigma uit om modellen “langer te laten nadenken” over redeneerproblemen. TTT-Discover stelt het model in staat om door te gaan met trainen tijdens het inferentieproces en de gewichten voor het betreffende probleem bij te werken.
De grenzen van het ‘bevroren’ redeneren
De huidige AI-strategieën voor ondernemingen zijn vaak gebaseerd op ‘bevroren’ modellen. Of u nu een gesloten of open redeneermodel gebruikt, de modelparameters zijn statisch. Bij het bevragen van deze modellen zoeken ze naar antwoorden binnen het vaste spruitstuk van hun trainingsgegevens. Dit werkt goed voor problemen die lijken op wat het model eerder heeft gezien.
Echte ontdekkingsproblemen, zoals het uitvinden van een nieuw algoritme of het bewijzen van een nieuwe wiskundige stelling, vallen echter per definitie buiten de distributie. Als de oplossing een logische sprong vereist die niet bestaat in de trainingsset, zal een bevroren model waarschijnlijk mislukken, ongeacht hoeveel berekeningen er tijdens de gevolgtrekking aan worden besteed.
In commentaar op VentureBeat illustreerde Mert Yuksekgonul, een co-auteur van het artikel en een afgestudeerde student aan Stanford, dit onderscheid aan de hand van een beroemde wiskundige ontdekking:
“Ik geloof dat denkmodellen bijvoorbeeld P != NP niet zouden kunnen bewijzen zonder testgebaseerde training, net zoals Andrew Wiles de laatste stelling van Fermat niet zou kunnen bewijzen zonder de zeven jaar die hij besteedde aan het geïsoleerd onderzoeken van dit ene probleem en voortdurend leren van zijn mislukkingen.”
TTT-Discover behandelt het testprobleem niet als een vraag die beantwoord moet worden, maar als een omgeving die beheerst moet worden. Terwijl het model het probleem probeert op te lossen, genereert het verschillende soorten gegevens: mislukkingen, gedeeltelijke successen en fouten. In plaats van deze gegevens weg te gooien, gebruikt TTT-Discover deze om de gewichten van het model in realtime bij te werken, waardoor het model zich effectief op die specifieke uitdaging kan concentreren in plaats van een zeer algemeen raamwerk voor probleemoplossing te ontwikkelen.
Een andere benadering van versterkend leren
TTT-Discover zorgt voor een fundamentele verandering in de manier waarop redeneermodellen worden getraind. Bij standaard training voor versterkend leren (RL) is het doel een generalistisch beleid dat gemiddeld goed presteert bij veel taken. In TTT-Discover is het doel om de beste oplossing te vinden voor een heel specifiek probleem, en politiek is “een middel daartoe”, aldus de auteurs. Zodra het model het artefact ontdekt (d.w.z. de geoptimaliseerde code, het bewijs of het molecuul), kan het neurale netwerk dat het produceerde, worden weggegooid.
Om dit te bereiken hebben de onderzoekers twee specifieke componenten ontworpen die TTT-Discover onderscheiden van standaard versterkend leren:
-
Entropische doelstelling: Standaard RL optimaliseert voor de gemiddelde verwachte beloning. Als een model een riskant pad bewandelt en faalt, wordt het model door standaard RL bestraft. TTT-Discover zet dit op zijn kop. Het maakt gebruik van een ‘entropisch doel’ dat exponentieel weegt op de resultaten met hoge beloningen. Dit dwingt het model om ‘veilige’ gemiddelde antwoorden te negeren en agressief te zoeken naar ‘eureka’-uitschieters: oplossingen waarvan de kans klein is dat ze worden gevonden, maar die een enorme beloning bieden.
-
PUCT-zoekopdracht: Het systeem introduceert PUCT, een boomzoekalgoritme geïnspireerd op AlfaZero. Verken verschillende oplossingstrajecten en bouw een dataset van proefprojecten op. Het model traint vervolgens in realtime op deze dataset en leert herkennen welke deelstappen tot resultaten met hoge beloningen leiden.
Kortom, deze methode werkt het beste bij problemen met een continu beloningssignaal. Het systeem heeft een manier nodig om de incrementele voortgang te meten, zoals ‘uitvoeringstijd in microseconden’ of ‘foutpercentage’, in plaats van een binair ‘goed/mislukt’-signaal. Hierdoor kan het model de geleidelijke verbetering richting de optimale oplossing volgen.
De economie van ‘zware gevolgtrekkingen’
Voor bedrijven die gewend zijn om fracties van een cent per API-oproep te betalen, vereist het kostenprofiel van TTT-Discover een mentaliteitsverandering. In hun experimenten rapporteerden de onderzoekers dat een enkele ontdekkingsrun ongeveer 50 trainingsstappen en duizenden implementaties omvat, wat ongeveer $ 500 per probleem kost.
TTT-Discover zou kunnen gaan over “statische, hoogwaardige activa” in plaats van triviale, terugkerende problemen die kunnen worden opgelost met bestaande modellen en benaderingen.
Stel je een cloud-native bedrijf voor dat een datapijplijn beheert die elke nacht petabytes aan informatie verwerkt. Als die pijplijn afhankelijk is van een specifieke SQL-query of GPU-kernel, kan het optimaliseren van de code met zelfs maar 1% honderdduizenden dollars aan jaarlijkse computerkosten besparen. In deze context is het uitgeven van $500 om een 50% snellere kernel te vinden een triviale uitgave met een onmiddellijke ROI.
“Dit is logischer voor beslissingen met een lage frequentie en een hoge impact, waarbij een enkele verbetering veel meer waard is dan de rekenkosten”, aldus Yuksekgonul. “Supply chain routing, medicijnontwerp en materiaalontdekking komen in aanmerking. In deze context kan het uitgeven van honderden dollars aan een enkele ontdekkingsstap zichzelf gemakkelijk terugbetalen.”
Implementatieoverwegingen
Een van de belangrijkste bevindingen voor de acceptatie door ondernemingen is dat TTT-Discover geen eigen grensmodel vereist. Onderzoekers hebben baanbrekende resultaten bereikt met behulp van gpt-oss-120bOpenAI’s open gewichtsmodel. De onderzoekers hebben heeft de code vrijgegeven voor TTT-Discover zodat onderzoekers en ontwikkelaars het voor hun eigen modellen kunnen gebruiken.
Omdat de techniek met open modellen werkt, kunnen bedrijven deze ‘discovery loop’ volledig binnen hun eigen beveiligde VPC’s of on-premise H100-clusters draaien zonder hun eigen data naar servers van derden te sturen.
“Als een bedrijf al aan versterkingsleren doet, is er geen extra infrastructuur nodig”, zegt Yuksekgonul. “TTT-Discover gebruikt dezelfde trainingsstack (GPU, rolloutworkers, optimizers, checkpoints).”
Als ze RL nog niet gebruiken, moeten ze die infrastructuur bouwen. Maar bedrijven kunnen ook bestaande oplossingen gebruiken om de complexiteit van het proces te verminderen. De onderzoekers orkestreerden deze trainingstrajecten met behulp van de API-knutselen door Thinking Machines, een API die de complexiteit van gedistribueerde training en gevolgtrekking afhandelt.
“Tools zoals Tinker (en open varianten, zoals OpenTinker) verlagen de installatiekosten, en zowel de arbeids- als de computerkosten zullen waarschijnlijk in de loop van de tijd afnemen”, zei hij.
Gebruiksscenario’s uit de echte wereld
De onderzoekers gebruikten TTT-Discover op vier verschillende technische gebieden: systeemtechniek, algoritmeontwerp, biologie en wiskunde. In vrijwel alle gevallen heeft de methode een nieuwe stand van de techniek bereikt.
In één experiment optimaliseerde het model GPU-kernels voor matrixvermenigvuldiging (inclusief de “TriMul” -kernel die werd gebruikt in AlphaFold), waardoor uitvoeringssnelheden tot 2x sneller worden bereikt dan eerdere state-of-the-art en beter presteert dan de beste door mensen geschreven kernels in de ranglijst.
In concurrerende programmeerscenario’s (BijCoder), loste complexe heuristische problemen (bijvoorbeeld het optimaliseren van geometrische beperkingen voor visnetten) beter op dan toonaangevende menselijke experts en eerdere AI-basislijnen.
Voor ondernemingen hangt de overgang van deze academische maatstaven naar bedrijfswaarde af van een specifieke beperking: het bestaan van een verifieerbaar scalair signaal. In tegenstelling tot een tekstgenererende chatbot heeft TTT-Discover een harde maatstaf nodig (bijvoorbeeld uitvoeringstijd, foutenpercentage of winstmarge) voor optimalisatie.
Yuksekgonul zei dat deze eis een duidelijke grens trekt tussen waar deze technologie wel en niet mag worden gebruikt. “Op dit moment is de belangrijkste vereiste een betrouwbaar scalair signaal van vooruitgang – kosten, fouten, moleculaire eigenschappen – waartegen het systeem kan optimaliseren,” zei hij.
Dit stimuleert de adoptie van bedrijven richting ‘harde’ technische en operationele uitdagingen zoals logistiek, supply chain en asset management, waarbij problemen zoals vlootroutering of bemanningsplanning vaak afhankelijk zijn van statische heuristieken. TTT-Discover kan deze behandelen als optimalisatieomgevingen, waarbij uren worden besteed aan het vinden van een routestructuur die de dagelijkse brandstofkosten met 5% verlaagt.
De eis voor duidelijke verificatiepunten sluit kwalitatieve taken uit, zoals het ‘schrijven van een betere marketingstrategie’, waarbij verificatie subjectief is en onderhevig is aan ruis.
“Problemen die moeilijk te verifiëren zijn, zijn nog steeds een open vraag”, zei Yuksekgonul.
Met de huidige technologie is de beste manier om verificateurs te ontwerpen, maar “het robuust en moeilijk te omzeilen maken van deze verificateurs is een uitdaging en we hebben nog geen goede oplossing”, voegde hij eraan toe.
Van gevolgtrekking naar uitvinding
De bredere implicatie is dat AI-stacks van ondernemingen mogelijk moeten evolueren om dit soort probleemgestuurd leren te ondersteunen.
“Systemen die rond een bevroren model zijn gebouwd, zullen aanpassing per probleem (of per domein) moeten ondersteunen, en bedrijven zullen betere probleemspecificaties en interne feedbacksignalen nodig hebben om het leren tijdens het testen effectief te maken”, aldus Yuksekgonul. “Als de training wordt uitgevoerd binnen een particuliere VPC, kan de trainingscyclus ook worden geïntegreerd met een groter deel van de interne omgeving van het bedrijf, en niet alleen met een centrale laboratoriumpijplijn.”
Voor het bedrijf ligt de waarde in het identificeren van ‘miljoenendollarproblemen’: optimalisatie-uitdagingen waarbij een verifieerbare maatstaf bestaat, maar de menselijke vooruitgang tot stilstand is gekomen. Dit zijn de kandidaten voor TTT-Discover. Door latentie en hogere kosten voor specifieke vragen te accepteren, kunnen bedrijven hun gevolgtrekkingsberekeningen omzetten in een geautomatiseerd R&D-laboratorium, waar oplossingen worden ontdekt die voorheen buiten bereik waren van zowel mensen als bevroren AI-modellen.



