Met een indrukwekkende prestatie heeft de Japanse startup Sakana AI’s ALE-Agent-codeermiddel heeft onlangs de eerste plaats behaald in de AtCoder Heuristic Contest (AHC058), een complexe coderingswedstrijd met gecompliceerde optimalisatieproblemen – en een moeilijkere en misschien wel significantere uitdaging dan benchmarks als HumanEval, die voornamelijk het vermogen testen om geïsoleerde functies te schrijven en waar veel AI-modellen en agenten nu routinematig met gemak doorheen gaan (“benchmarkverzadiging”).
Sakana’s De met ALE-Agent behaalde resultaten suggereren een verschuiving naar agenten die zichzelf kunnen optimaliseren om goed te navigeren en goed te presteren in complexe, dynamische systemen zoals bedrijfssoftwarestacks, workflows en besturingsomgevingen.
In vier uur tijd gebruikte de agent gevolgtrekkingstijdschaling om honderden oplossingen te genereren, te testen en te herhalen, waarmee een probleem werd opgelost dat doorgaans diepe intuïtie en tijdrovend vallen en opstaan door menselijke experts vereist. Het presteerde beter dan meer dan 800 menselijke deelnemers, waaronder concurrerende programmeurs op hoog niveau.
Hoe ALE-Agent werkt
De uitdaging in AHC058 was een klassieker combinatorische optimalisatie probleem. Deelnemers kregen de taak een reeks machines met hiërarchische relaties te beheren, zoals machines die appels produceren en andere machines die deze appelproducerende machines bouwen. Het doel was om de productie over een vast aantal ploegendiensten te maximaliseren.
In de bedrijfswereld volgt deze workflow doorgaans een strikt patroon: een domeinexpert werkt samen met een klant om een ‘objectieve functie’ te definiëren (ook wel een Scorer genoemd), waarna ingenieurs een softwaresysteem bouwen om deze te optimaliseren. Deze problemen zijn notoir moeilijk omdat ze niet in één stap kunnen worden opgelost. Ze vereisen verkenning, strategie en het vermogen om van richting te veranderen als een plan niet werkt.
Menselijke experts benaderen dit probleem doorgaans met behulp van een tweestapsstrategie. Ten eerste gebruiken ze een ‘Greedy’-methode (een lichtgewicht oplosser die bij elke stap onmiddellijk de beste keuze maakt) om een fatsoenlijke basisoplossing te genereren. Dan solliciteren ze”gesimuleerde gloeien“, een techniek die het bestaande plan neemt en kleine, willekeurige aanpassingen maakt om te zien of de score verbetert. Deze standaardaanpak is echter rigide. Als het aanvankelijke hebzuchtige plan de verkeerde kant op gaat, kan gesimuleerd uitgloeien dit zelden oplossen, omdat er alleen wordt gezocht naar lokale verbeteringen in een slecht deel van de oplossingsruimte.
De innovatie van ALE-Agent was om dit statische initialisatiehulpmiddel om te zetten in een dynamische reconstructie-engine. In plaats van te vertrouwen op onmiddellijke waarde, heeft de agent onafhankelijk een concept afgeleid dat ‘virtuele macht’ wordt genoemd. Het kende waarde toe aan componenten die nog niet operationeel waren en behandelde deze alsof ze al waarde bezaten. Door potentiële toekomstige activa te evalueren in plaats van alleen de huidige activa, profiteerde de agent van het ‘samengestelde rente-effect’, een concept dat expliciet werd geïdentificeerd in zijn boek. interne registers. In wezen zou hij een paar stappen vooruit kunnen kijken en aan de toekomst kunnen denken in plaats van te kijken naar de directe feedback die hij van zijn omgeving krijgt.
Cruciaal was dat de agent deze strategie gedurende een periode van vier uur moest volhouden zonder de focus te verliezen, een veel voorkomende faalwijze die bekend staat als ‘context drift’. In commentaar aan VentureBeat legde het AI-team van Sakana uit dat de agent tekstuele ‘inzichten’ genereert door na te denken over elk bewijsstuk. Hij verzamelt deze kennis om te voorkomen dat hij terugkeert naar eerder mislukte strategieën en creëert een werkgeheugen waarmee hij een paar stappen vooruit kan kijken in plaats van simpelweg te reageren op onmiddellijke feedback.
Bovendien integreerde de agent hebzuchtige methoden rechtstreeks in de gesimuleerde gloeifase om te voorkomen dat hij vast kwam te zitten in het lokale optimale, door gebruik te maken van snelle reconstructie om grote delen van de oplossing in een mum van tijd weg te gooien en te reconstrueren.
Van coderen tot bedrijfsoptimalisatie
Deze innovatie past direct in bestaande zakelijke workflows waar al een scorefunctie beschikbaar is. Momenteel vertrouwen bedrijven op schaars technisch talent om optimalisatie-algoritmen te schrijven. ALE-Agent demonstreert een toekomst waarin mensen de “Ondertekenaar” definiëren (d.w.z. de bedrijfslogica en doelstellingen) en de agent de technische implementatie afhandelt.
Hierdoor verschuift het operationele knelpunt van technische capaciteit naar metrische duidelijkheid. Als een bedrijf een doel kan meten, kan de agent het optimaliseren. Dit heeft directe toepassingen in de logistiek, zoals voertuigrouting, maar ook serverloadbalancing en toewijzing van middelen.
Volgens het AI-team van Sakana zou dit de optimalisatie kunnen democratiseren. “Het maakt een toekomst mogelijk waarin niet-technische klanten rechtstreeks met de agent kunnen communiceren, waardoor zakelijke beperkingen in realtime kunnen worden gewijzigd totdat ze de gewenste output krijgen”, zeiden ze.
Het AI-team van Sakana vertelde VentureBeat dat ALE-Agent momenteel bedrijfseigen is en niet beschikbaar is voor openbaar gebruik, en dat het bedrijf zich momenteel richt op interne ontwikkeling en proof-of-concept-samenwerkingen met bedrijven.
Tegelijkertijd kijkt het team al vooruit naar het “automatisch herschrijven” van agenten. Deze toekomstige agenten zouden hun eigen markers kunnen definiëren, waardoor ze haalbaar worden voor slecht gedefinieerde problemen waarbij menselijke experts moeite hebben om duidelijke initiële parameters te formuleren.
De kosten van intelligentie
Het runnen van ALE-Agent was niet goedkoop. De vier uur durende operatie bracht ongeveer $ 1.300 aan computerkosten met zich mee, waaronder meer dan 4.000 redeneringsoproepen naar modellen zoals GPT-5.2 EN Tweeling 3 Pro. Hoewel deze prijs voor een enkele codeertaak misschien hoog lijkt, is het rendement op de investering bij optimalisatieproblemen vaak asymmetrisch. In de context van vermogensbeheer kunnen eenmalige kosten van een paar duizend dollar resulteren in miljoenen dollars aan jaarlijkse efficiëntiebesparingen.
Bedrijven die eenvoudigweg op kostenbesparingen anticiperen, missen echter mogelijk het strategische plaatje. Terwijl de kosten van tokens afnemen, kunnen de totale uitgaven zelfs stijgen naarmate bedrijven strijden om betere antwoorden, een concept dat bekend staat als Jevons paradox.
“Hoewel slimmere algoritmen de efficiëntie zullen vergroten, is de kernwaarde van AI het vermogen om enorme oplossingsruimten te verkennen”, aldus het Sakana AI-team. “Naarmate de inferentiekosten afnemen, in plaats van simpelweg de besparingen te verzilveren, zullen bedrijven er waarschijnlijk voor kiezen om dat gemak te benutten om nog diepere en bredere zoekopdrachten uit te voeren om superieure oplossingen te vinden.”
Het experiment benadrukt de enorme waarde die nog moet worden ontsloten door middel van tijdschalingstechnieken. Naarmate AI-systemen het vermogen krijgen om complexe redeneringstaken in langere contexten uit te voeren, kunnen agenten door het bouwen van betere steigers en het toewijzen van grotere budgetten voor ‘denktijd’ wedijveren met de beste menselijke experts.



