Home Nieuws De grootste AI-benchmark in 2026? Vertrouwen

De grootste AI-benchmark in 2026? Vertrouwen

Door

2 januari 2026

In 2026 (en daarna) zal de beste maatstaf voor grote taalmodellen niet MMLU, AgentBench of GAIA zijn. Het zal zo zijn Vertrouwen-iets NAAR DE het zal opnieuw opgebouwd moeten worden voordat het breed bruikbaar en waardevol kan zijn voor zowel consumenten als bedrijven.

Onderzoekers identificeren er verschillende vormen van vertrouwen in AI. Bij mensen die chatbots als metgezellen of vertrouwenspersonen gebruiken, meten ze gevoelens dat de AI welwillend of integer is. Bij mensen die kunstmatige intelligentie gebruiken productiviteit of in het bedrijfsleven meten ze iets dat ‘competentievertrouwen’ wordt genoemd, of de overtuiging dat de AI accuraat is en geen feiten hallucineert. Ik zal me concentreren op dat tweede type.

Het vertrouwen in vaardigheden kan stijgen of dalen. Een gebruiker van een AI-tool begint, heel rationeel, met het geven van eenvoudige taken aan de AI, bijvoorbeeld het zoeken naar feiten of het samenvatten van lange documenten. Als de AI het goed doet met deze zaken, denkt de gebruiker uiteraard “wat kan ik hier nog meer mee doen?” Mogelijk geven ze de AI een iets lastigere taak. Als de AI de zaken goed blijft doen, groeit het vertrouwen. Als de AI faalt of een antwoord van lage kwaliteit geeft, zal de gebruiker twee keer nadenken voordat hij de volgende keer probeert de taak te automatiseren.

Stappen vooruit, stappen achteruit

De huidige AI-chatbots, die worden aangedreven door grote generatieve AI-modellen, zijn veel beter dan de chatbots die we in 2023 en 2024 hadden. Maar AI-tools beginnen nog maar net vertrouwen op te bouwen bij de meeste gebruikers en bij de meeste leidinggevenden op C-niveau, in de hoop dat de tools de bedrijfsfuncties zullen stroomlijnen. Mijn vertrouwen in chatbots is in 2025 gegroeid. Maar ook afgenomen.

Voorbeeld: Ik raakte in een lang gesprek met een van de populaire chatbots over de inhoud van een lang document. De AI maakte een aantal interessante observaties over het werk en stelde een aantal verstandige manieren voor om de hiaten op te vullen. Vervolgens maakte hij een opmerking die in tegenspraak leek met iets waarvan ik wist dat het in het document stond.

Toen ik de ontbrekende gegevens rapporteerde, gaf hij onmiddellijk zijn fout toe. Toen ik hem (opnieuw) vroeg of hij het hele document had verwerkt, bleef hij volhouden dat hij dat had gedaan. Een andere AI-chatbot stuurde een onderzoeksrapport terug op basis van twintig bronnen. Maar er waren geen citaten in de tekst die specifieke uitspraken aan specifieke bronnen koppelden. Na het toevoegen van citaten in de tekst merkte ik dat de AI op twee plaatsen zich voor een belangrijk feit op één enkele, niet erg betrouwbare bron had gebaseerd.

Ik heb geleerd dat AI-modellen nog steeds moeite hebben met lange chats met grote hoeveelheden informatie en dat ze niet goed zijn in het waarschuwen van de gebruiker als hij in de problemen zit. De ervaring veranderde mijn vertrouwen in de tools.

Worstelen met onduidelijkheid

Nu we 2026 ingaan, bevindt het verhaal van generatieve AI zich nog in de beginfase. Het verhaal begon met AI-laboratoria die modellen ontwikkelden die konden converseren, schrijven en samenvatten. Nu lijken grote AI-laboratoria erop te vertrouwen dat AI-agenten autonoom complexe taken kunnen uitvoeren, gebruik kunnen maken van tools en hun werk kunnen vergelijken met expertgegevens. Ze lijken ervan overtuigd dat agenten binnenkort in staat zullen zijn om met menselijk oordeel om te gaan met dubbelzinnigheid.

Als grote bedrijven gaan geloven dat deze agenten dergelijke taken betrouwbaar kunnen uitvoeren, zou dat enorme inkomsten betekenen voor het AI-bedrijf dat ze heeft ontwikkeld. Op basis van hun huidige investeringen van honderden miljarden in AI-infrastructuur lijken AI-bedrijven en hun aanhangers te geloven dat deze uitkomst binnen handbereik ligt.

Zelfs als AI intellect op menselijk niveau zou kunnen toevoegen aan de zakelijke scenario’s van morgen, kan het nog steeds enige tijd duren om vertrouwen op te bouwen onder besluitvormers en werknemers. Tegenwoordig is het vertrouwen in kunstmatige intelligentie niet hoog. Adviesbureau KPMG ondervroeg 48.000 mensen in 47 landen (waarvan twee derde regelmatig AI gebruikt) en gevonden dat hoewel 83% gelooft dat AI nuttig zal zijn, slechts 46% daadwerkelijk de resultaten van AI-tools vertrouwt. Sommigen hebben misschien een vals vertrouwen in de technologie: tweederde van de respondenten zegt soms op AI-resultaten te vertrouwen zonder de nauwkeurigheid ervan te evalueren.

Maar ik betwijfel of AI-agenten net zo bereid zijn om complexe taken uit te voeren en met dubbelzinnigheid om te gaan als menselijke experts dat zouden kunnen. Naarmate AI door steeds meer mensen en bedrijven wordt gebruikt, zullen ze te maken krijgen met een universum van unieke problemen in verschillende contexten die nog nooit eerder zijn gezien. Ik betwijfel of de huidige AI-agenten de manieren van mensen en de wereld goed genoeg begrijpen om in dergelijke situaties hun eigen weg te improviseren. Nog niet in ieder geval.

De beperkingen van de modellen

Feit is dat AI-bedrijven hetzelfde type AI-modellen (gebaseerd op transformatoren) gebruiken om redeneermiddelen te ondersteunen als ze gebruikten voor vroege chatbots, die in wezen woordgeneratoren waren. De belangrijkste functie van dergelijke modellen, en het doel van al hun trainingen, is het voorspellen van het volgende woord (of pixel of audiobit) in een reeks, zegt de CEO van Microsoft AI (en medeoprichter van Google DeepMind). Mustafa Süleyman uitgelegd in een recente podcast. “Je gebruikt die heel eenvoudige functie voor het voorspellen van de waarschijnlijkheid van woorden om te simuleren hoe het is om een interessant gesprek te voeren of complexe vragen te beantwoorden,” zei hij.

Suleyman en anderen betwijfelen het. Suleyman is van mening dat de huidige modellen geen rekening houden met enkele van de belangrijkste factoren die bepalen wat mensen zeggen en doen. “Natuurlijk zouden we verwachten dat iets dat de kenmerken van intelligentie heeft, ook de onderliggende synthetische fysiologie zou hebben die wij hebben, maar dat is niet het geval,” zei Suleyman. “Er is geen pijnnetwerk. Er is geen emotioneel systeem. Er is geen innerlijke wil, drive of verlangen.”

AI-pionier (en winnaar van de Turing Award) Yann LeCun zegt dat de huidige LLM’s nuttig genoeg zijn om op waardevolle manieren te worden toegepast, maar hij denkt dat ze nooit de algemene of menselijke intelligentie zullen bereiken die nodig is om het hoogwaardige werk te doen dat AI-bedrijven hopen te doen. Om paden door de complexiteit van de echte wereld te leren aanvoelen, zou de AI een trainingsregime nodig hebben met een veel grotere bandbreedte dan alleen woorden, afbeeldingen en computercode, zegt LeCun. Misschien moeten ze de wereld leren kennen via iets dat meer lijkt op de multisensorische ervaring die baby’s hebben, en moeten ze over het buitengewone vermogen beschikken om al deze informatie snel te verwerken en op te slaan, zoals baby’s doen, zegt hij.

Suleyman en LeCun kunnen het mis hebben. Bedrijven als OpenAI en Anthropic kunnen intelligentie op menselijk niveau bereiken met behulp van modellen waarvan de oorsprong in taal ligt.

AI-beheer is belangrijk

Ondertussen is expertise slechts één factor in het vertrouwen in AI onder zakelijke gebruikers. Bedrijven gebruiken governanceplatforms om te monitoren of en hoe AI-systemen bijvoorbeeld problemen met de naleving van de regelgeving kunnen veroorzaken of het bedrijf kunnen blootstellen aan het risico van cyberaanvallen. “Als het om AI gaat, willen grote bedrijven het vertrouwen genieten van klanten, investeerders en toezichthouders”, zegt Navrina Singh, oprichter en CEO van bestuursplatform Crede AI. “AI-governance vertraagt ons niet; het is het enige dat meetbaar vertrouwen mogelijk maakt en intelligentie laat groeien zonder de wereld te ontwrichten.”

Ondertussen zal het tempo waarin mensen taken delegeren aan AI worden gematigd door vertrouwen. AI-tools moeten worden ingezet voor taken waar ze goed in zijn, zodat het vertrouwen in de resultaten groeit. Het zal tijd kosten en het is een bewegend doelwit omdat AI voortdurend verbetert. Het ontdekken en delegeren van nieuwe taken aan AI, het monitoren van de resultaten en het bijstellen van de verwachtingen zullen in de 21e eeuw hoogstwaarschijnlijk onderdeel worden van het routinewerk.

Nee, AI zal volgend jaar het bedrijfsleven niet plotseling opnieuw uitvinden. 2026 zal niet “het jaar van de agent” zijn. Het zal tien jaar duren voordat AI-instrumenten zich bewijzen en effectiever worden. Vertrouwen is het verhardende middel.

Nieuwsbron

De grootste AI-benchmark in 2026? Vertrouwen

Stappen vooruit, stappen achteruit

Worstelen met onduidelijkheid

De beperkingen van de modellen

AI-beheer is belangrijk

LAAT EEN REACTIE ACHTER Annuleer reactie

EDITOR PICKS

Infostealers voegden Clawdbot toe aan hun doelwitlijsten voordat de meeste beveiligingsteams wisten dat het...

Te midden van huwelijkscontroverses nemen Smriti Mandhana en Palaash Muchhal deze moedige stap; Netizens...

Amanda Seyfried voert “campagne” voor “Mamma Mia!” Opvolgd

Jonathan Bailey reflecteert op de eenzaamheid van het opgroeien als homo: ‘Het was niet...