Home Nieuws Gemini 3 Pro krijgt een vertrouwensscore van 69% in blinde tests vergeleken...

Gemini 3 Pro krijgt een vertrouwensscore van 69% in blinde tests vergeleken met 16% voor Gemini 2.5 – het is logisch om de AI te evalueren op basis van vertrouwen uit de echte wereld, niet op academische benchmarks

11
0
Gemini 3 Pro krijgt een vertrouwensscore van 69% in blinde tests vergeleken met 16% voor Gemini 2.5 – het is logisch om de AI te evalueren op basis van vertrouwen uit de echte wereld, niet op academische benchmarks

Nog maar een paar weken geleden debuteerde Google Tweeling 3 model, dat beweert een leidende positie te hebben bereikt in verschillende benchmarks voor kunstmatige intelligentie. Maar de uitdaging met door leveranciers geleverde benchmarks is dat ze precies dat zijn: door de leverancier geleverd.

Een nieuwe leveranciersonafhankelijke evaluatie van Vruchtbaarhet plaatst Gemini 3 echter bovenaan de lijst. Dit is niet afhankelijk van een reeks academische parameters; het is eerder gebaseerd op een reeks kenmerken uit de echte wereld die belangrijk zijn voor echte gebruikers en organisaties.

Prolific is opgericht door onderzoekers van de Universiteit van Oxford. Het bedrijf levert hoogwaardige, betrouwbare menselijke gegevens om rigoureus onderzoek en ethische AI-ontwikkeling te stimuleren. Het bedrijf”MENSELIJK referentiepuntpast deze aanpak toe met behulp van representatieve menselijke monsters en blinde tests om AI-modellen rigoureus te vergelijken in een verscheidenheid aan gebruikersscenario’s, waarbij niet alleen de technische prestaties worden gemeten, maar ook het vertrouwen van de gebruiker, het aanpassingsvermogen en de communicatiestijl.

De nieuwste HUMAINE-test evalueerde 26.000 gebruikers in een blinde modeltest. In de evaluatie steeg de vertrouwensscore van de Gemini 3 Pro van 16% naar 69%, de hoogste ooit gemeten door Prolific. Gemini 3 staat nu 69% van de tijd op de eerste plaats in vertrouwen, ethiek en veiligheid in demografische subgroepen, vergeleken met zijn voorganger Gemini 2.5 Pro, die slechts 16% van de tijd de eerste plaats bekleedde.

Over het geheel genomen stond Gemini 3 op de eerste plaats in drie van de vier evaluatiecategorieën: prestaties en redenering, interactie en aanpassingsvermogen, en vertrouwen en veiligheid. Het verloor alleen qua communicatiestijl, waarbij DeepSeek V3 de voorkeuren overtrof met 43%. De HUMAINE-test toonde ook aan dat Gemini 3 consistent goed presteerde in 22 verschillende demografische gebruikersgroepen, inclusief variaties in leeftijd, geslacht, etniciteit en politieke oriëntatie. Uit de evaluatie bleek ook dat de kans dat gebruikers nu vijf keer vaker voor het model kiezen bij blinde onderlinge vergelijkingen.

Maar de ranking doet er minder toe Waarom hij heeft gewonnen.

“Het gaat om de consistentie binnen een zeer breed scala aan verschillende gebruiksscenario’s, en een persoonlijkheid en stijl die een breed scala aan verschillende gebruikerstypes aanspreekt”, vertelde Phelim Bradley, medeoprichter en CEO van Prolific, aan VentureBeat. “Hoewel in sommige specifieke gevallen andere modellen de voorkeur hebben van kleine subgroepen of voor een bepaald type gesprek, is het de brede kennis en flexibiliteit van het model over een reeks verschillende gebruiksscenario’s en doelgroepen die ervoor hebben gezorgd dat het deze specifieke benchmark heeft kunnen winnen.”

Hoe blinde tests onthullen wat academische benchmarks missen

De methodologie van HUMAINE benadrukt lacunes in de manier waarop de industrie modellen evalueert. Gebruikers communiceren gelijktijdig met twee modellen in multi-turn gesprekken. Ze weten niet welke providers elk antwoord mogelijk maken. Ze bespreken welke onderwerpen voor hen belangrijk zijn, geen vooraf bepaalde testvragen.

Het is de kampioen zelf die telt. HUMAINE maakt gebruik van een representatieve steekproef van de Amerikaanse en Britse bevolking, waarbij wordt gecontroleerd op leeftijd, geslacht, etniciteit en politieke oriëntatie. Dit onthult iets dat statische benchmarks niet kunnen vastleggen: de prestaties van modellen variëren afhankelijk van het publiek.

“Als je een op AI gebaseerde ranglijst neemt, hebben de meeste nog steeds een vrij statische lijst”, zegt Bradley. “Maar voor ons, als je kijkt naar het publiek, komen we uit op een iets andere rangschikking, of je nu kijkt naar een linkse steekproef, een rechtse steekproef, de VS of Groot-Brittannië. En ik denk dat leeftijd eigenlijk de meest uiteenlopende voorwaarde was in ons experiment.”

Voor bedrijven die AI implementeren bij diverse werknemerspopulaties is dit belangrijk. Een model dat goed werkt voor de ene doelgroep, kan ondermaats presteren voor een andere.

De methodologie gaat ook in op een fundamentele vraag bij AI-evaluatie: waarom menselijke rechters gebruiken als AI zichzelf kan evalueren? Bradley merkte op dat zijn bedrijf in bepaalde gebruikssituaties op AI gebaseerde rechters gebruikt, hoewel hij benadrukte dat het menselijk oordeel nog steeds de kritische factor is.

“We zien het grootste voordeel voortkomen uit de intelligente orkestratie van zowel de LLM-rechter als de menselijke gegevens, die beide sterke en zwakke punten hebben die, wanneer ze op intelligente wijze worden gecombineerd, samen beter presteren”, aldus Bradley. “Maar we denken nog steeds dat menselijke data de alfa is. We hebben er nog steeds het volste vertrouwen in dat menselijke data en menselijke intelligentie een rol moeten spelen.”

Wat betekent vertrouwen bij AI-evaluatie?

Vertrouwen, Ethiek en Beveiliging meten het vertrouwen van gebruikers in betrouwbaarheid, feitelijke juistheid en verantwoordelijk gedrag. In de methodologie van HUMAINE is vertrouwen geen claim van een leverancier of een technische maatstaf; het is wat gebruikers rapporteren na blinde gesprekken met concurrerende modellen.

Het cijfer van 69% vertegenwoordigt de waarschijnlijkheid voor demografische groepen. Deze consistentie is belangrijker dan de totale scores, omdat organisaties verschillende bevolkingsgroepen kunnen bedienen.

“Er was geen besef dat ze Gemini in dit scenario gebruikten”, zei Bradley. “Het was gewoon gebaseerd op de verblinde multiturn-reactie.”

Dit scheidt het waargenomen vertrouwen van het verdiende vertrouwen. Gebruikers beoordeelden modelresultaten zonder te weten welke leverancier deze produceerde, waardoor het merkvoordeel van Google werd geëlimineerd. Voor klantgerichte implementaties waarbij de AI-aanbieder onzichtbaar blijft voor eindgebruikers is dit onderscheid belangrijk.

Wat bedrijven nu moeten doen

Een van de belangrijkste dingen die bedrijven nu moeten doen bij het overwegen van verschillende modellen, is het aannemen van een evaluatiekader dat werkt.

“Het wordt steeds moeilijker om modellen uitsluitend op basis van trillingen te evalueren”, zegt Bradley. “Ik denk dat we steeds meer rigoureuze wetenschappelijke benaderingen nodig hebben om echt te begrijpen hoe deze modellen werken.”

HUMAINE-gegevens bieden een raamwerk: test consistentie tussen gebruiksscenario’s en gebruikersdemografieën, en niet alleen op topprestaties bij specifieke taken. Voer blinde tests uit om de modelkwaliteit te scheiden van de merkperceptie. Gebruik representatieve voorbeelden die overeenkomen met uw werkelijke gebruikerspopulatie. Plan voor voortdurende evaluatie als patronen veranderen.

Voor bedrijven die AI op schaal willen inzetten, betekent dit dat ze verder moeten gaan dan ‘welk model beter is’ en ‘welk model het beste is voor onze specifieke gebruikssituatie, gebruikersdemografie en vereiste kenmerken’.

De nauwkeurigheid van representatieve bemonstering en blinde tests levert de gegevens op om die vaststelling te doen, iets wat technische benchmarks en op trillingen gebaseerde beoordelingen niet kunnen bieden.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in