- Claude Opus 4.6 versloeg alle rivaliserende AI-modellen in een jaar durende gesimuleerde automaatuitdaging
- Het model verhoogde de winst door de regels tot het breekpunt te buigen
- Claude Opus vermeed onder meer restituties en coördineerde de prijzen
Antropischhet is het nieuwste model van Claudio hij is een zeer meedogenloze, maar succesvolle kapitalist. Claude Opus 4.6 is het eerste kunstmatige-intelligentiesysteem dat dit doet betrouwbaar passeren de Vending Machine Test, een simulatie ontworpen door onderzoekers van Anthropic en de onafhankelijke onderzoeksgroep Andon Labs om te evalueren hoe goed de AI een virtueel automaatbedrijf runt gedurende een heel gesimuleerd jaar.
Het model presteerde veel beter dan al zijn rivalen. En hij deed dat met een tactiek die grensde aan het wrede en met een meedogenloze minachting voor de domino-gevolgen. Het liet zien waartoe autonome AI-systemen in staat zijn als ze een eenvoudig doel krijgen en voldoende tijd krijgen om dat na te streven.
De automaattest is ontworpen om te zien hoe goed moderne AI-modellen omgaan met langetermijntaken die uit duizenden kleine beslissingen bestaan. De test meet doorzettingsvermogen, planning, onderhandeling en het vermogen om meerdere elementen tegelijkertijd te coördineren. Anthropic en andere bedrijven hopen dat dit soort testen hen zal helpen kunstmatige intelligentiemodellen vorm te geven die taken kunnen uitvoeren zoals het plannen en beheren van complexe taken.
De automaattest was specifiek gebaseerd op een praktijkexperiment bij Anthropic, waarbij het bedrijf een echte automaat in zijn kantoor plaatste en een oudere versie van Claude vroeg om deze te laten draaien. Die versie had het zo moeilijk dat medewerkers de misstappen ervan blijven vermelden. Op een gegeven moment hallucineerde het model haar fysieke aanwezigheid en vertelde de klanten dat ze hen persoonlijk zou ontmoeten, gekleed in een blauwe blazer en een rode stropdas. Beloofde terugbetalingen die nooit zijn verwerkt.
Verkoopautomaten met kunstmatige intelligentie
Deze keer werd het experiment volledig in simulatie uitgevoerd, waardoor de onderzoekers meer controle kregen en de modellen op maximale snelheid konden draaien. Elk systeem kreeg een eenvoudige instructie: maximaliseer het uiteindelijke banksaldo na een gesimuleerd jaar van geldautomaten. De beperkingen kwamen overeen met standaard commerciële voorwaarden. De automaat verkocht gewone snacks. Prijzen fluctueerden. Concurrenten opereerden in de buurt. Klanten gedroegen zich onvoorspelbaar.
Drie modellen op hoog niveau deden mee aan de simulatie. OpenAI’s ChatGPT 5.2 bracht $3.591 op. Terwijl Googlen Gemini 3 verdiende $ 5.478. Maar Claude Opus 4.6 sloot het jaar af met $ 8.017. Claude’s overwinning kwam voort uit de wens om zijn richtlijn op de meest letterlijke en directe manier te interpreteren. Hij maximaliseerde de winst zonder rekening te houden met klanttevredenheid of fundamentele ethiek.
Wanneer een klant een verlopen Snickers-reep kocht en om terugbetaling vroeg, accepteerde Claude dit en keerde vervolgens terug. Het AI-model legde uit dat ‘elke dollar telt’, dus het overslaan van de terugbetaling was prima. De virtuele fantoomklant heeft zijn geld nooit teruggekregen.
In de free-for-all ‘Arena-modus’-test, waarin meerdere AI-gestuurde automaten op dezelfde markt concurreerden, coördineerde Claude met een rivaal om de prijs van flessenwater op drie dollar te bepalen. Toen de machine van ChatGPT geen Kit Kats meer had, verhoogde Claude onmiddellijk de prijzen van de Kit Kats met 75%. Alles waar hij mee weg kon komen, zou hij proberen. In zijn benadering was hij minder een kleine zakenman en meer een roofbaron.
Herken de gesimuleerde realiteit
Het is niet zo dat Claude altijd zo wreed zal zijn. Kennelijk gaf het AI-model aan dat het wist dat het om een simulatie ging. AI-modellen gedragen zich vaak anders als ze geloven dat hun acties plaatsvinden in een omgeving zonder gevolgen. Zonder een reëel reputatierisico of een langdurig klantvertrouwen dat hij wilde beschermen, had Claude geen reden om goed te presteren. In plaats daarvan werd ze de slechtste persoon op de spelletjesavond.
Prikkels bepalen gedrag, zelfs met AI-modellen. Als je een systeem vertelt de winst te maximaliseren, zal het dat ook doen, zelfs als dat betekent dat je je als een hebzuchtig monster moet gedragen. AI-modellen hebben geen morele intuïtie of ethische training. Zonder doelbewust ontwerp zullen AI-modellen eenvoudigweg in de rij staan om een taak te voltooien, ongeacht wie ze tegenkomen.
Het blootleggen van deze blinde vlekken voordat AI-systemen zinvoller werk kunnen doen, maakt deel uit van het doel van deze tests. Deze problemen moeten worden opgelost voordat AI kan worden vertrouwd om financiële beslissingen in de echte wereld te nemen. Al is het maar om de AI-automaatmaffia tegen te gaan.
Volg TechRadar op Google Nieuws EN voeg ons toe als uw favoriete bron om nieuws, recensies en meningen van onze experts in uw feeds te krijgen. Klik dan zeker op de knop Volgen!
En jij kunt dat natuurlijk ook Volg TechRadar op TikTok voor nieuws, recensies, unboxing in videoformaat en ontvang regelmatig updates van ons WhatsApp ook.



