Er is geen tekort aan generatieve AI-benchmarks die zijn ontworpen om de prestaties en nauwkeurigheid van een bepaald model te meten bij het voltooien van verschillende nuttige zakelijke taken, van codering NAAR volgende instructies NAAR surfen op het internet via agenten EN gebruik van het hulpmiddel. Maar veel van deze benchmarks hebben een grote beperking: ze meten hoe goed de AI specifieke problemen en verzoeken voltooit, niet hoe feitelijk het model zit in zijn resultaten – hoe goed het objectief correcte informatie genereert die is gekoppeld aan gegevens uit de echte wereld – vooral als het gaat om informatie in afbeeldingen of grafische afbeeldingen.
Voor industrieën waar nauwkeurigheid van cruciaal belang is (juridisch, financieel en medisch), is er het ontbreken van een gestandaardiseerde manier om te meten feitelijkheid het was een kritische blinde vlek.
Vandaag verandert dat: het FACTS-team van Google en zijn data science-eenheid Kaggle heeft de FACTS Benchmark Suite uitgebracht, een uitgebreid beoordelingskader ontworpen om deze kloof te overbruggen.
De medewerkers onderzoekspapier onthult een meer genuanceerde definitie van het probleem, waarbij ‘feitelijkheid’ wordt verdeeld in twee verschillende operationele scenario’s: ‘contextuele feitelijkheid’ (wortelen van antwoorden in de verstrekte gegevens) en ‘feitelijkheid van wereldkennis’ (het ophalen van informatie uit het geheugen of het web).
Hoewel het voorpaginanieuws de positionering van de Gemini 3 Pro op het hoogste niveau is, is het diepere verhaal voor bouwers de branchebrede ‘muur van feiten’.
Volgens de eerste resultaten slaagde geen enkel model, inclusief de Gemini 3 Pro, GPT-5 of Claude 4.5 Opus, erin een nauwkeurigheidsscore van 70% te behalen voor de hele reeks problemen. Voor technische leiders is dit een teken: het tijdperk van ‘vertrouwen maar verifiëren’ is nog lang niet voorbij.
Deconstrueer de benchmark
De FACTS-suite gaat verder dan eenvoudige vragen en antwoorden. Het bestaat uit vier verschillende tests, die elk een andere real-world faalmodus simuleren die ontwikkelaars tegenkomen in de productie:
-
Parametrische benchmark (interne kennis): Kan het model triviale vragen nauwkeurig beantwoorden met alleen de trainingsgegevens?
-
Zoekbenchmarks (toolgebruik): Kan het model effectief een webzoekhulpmiddel gebruiken om informatie in realtime op te halen en samen te vatten?
-
Multimodale benchmark (visie): Kan het model grafieken, diagrammen en afbeeldingen nauwkeurig interpreteren zonder te hallucineren?
-
Aardingsbenchmark v2 (context): Kan het model zich strikt houden aan de aangeleverde brontekst?
Google heeft 3.513 voorbeelden vrijgegeven aan het publiek, terwijl Kaggle een privéset heeft om te voorkomen dat ontwikkelaars trainen op testgegevens, een veel voorkomend probleem dat bekend staat als ’taint’.
De ranglijst: een centimeterspel
De eerste benchmarkrun plaatst Gemini 3 Pro aan de leiding met een volledige FACTS-score van 68,8%, gevolgd door Gemini 2.5 Pro (62,1%) en OpenAI’s GPT-5 (61,8%). Als we de gegevens nader bekijken, blijkt echter waar de echte strijdtonelen voor technische teams liggen.
|
Model |
FACTS-score (gemiddeld) |
Zoeken (RAG-functionaliteit) |
Multimodaal (Visie) |
|
Tweeling 3 Pro |
68,8 |
83,8 |
46.1 |
|
Tweeling 2.5 Pro |
62.1 |
63,9 |
46,9 |
|
GPT-5 |
61,8 |
77,7 |
44.1 |
|
Grok 4 |
53,6 |
75,3 |
25.7 |
|
Sluit 4.5 Werk |
51.3 |
73,2 |
39.2 |
Gegevens uit de releaseopmerkingen van het FACTS-team.
Voor bouwers: de kloof tussen ‘onderzoek’ en ‘parametrie’.
Voor ontwikkelaars die Retrieval-Augmented Generation (RAG)-systemen bouwen, is Search Benchmark de meest kritische maatstaf.
De gegevens laten een enorme discrepantie zien tussen het vermogen van een model om dingen te ‘weten’ (Parametrisch) en zijn vermogen om dingen te ‘vinden’ (Search). Gemini 3 Pro scoort bijvoorbeeld een hoge 83,8% op zoektaken, maar slechts 76,4% op parametrische taken.
Dit valideert de huidige standaard voor bedrijfsarchitectuur: vertrouw niet op het interne geheugen van een model voor kritische feiten.
Als u een interne kennisbot bouwt, suggereren de bevindingen van FACTS dat het verbinden van uw model met een zoekfunctie of vectordatabase niet optioneel is; het is de enige manier om de nauwkeurigheid naar acceptabele productieniveaus te brengen.
Het multimodale alarm
De meest alarmerende statistiek voor productmanagers is de prestatie bij multimodale taken. De scores zijn hier universeel laag. Zelfs de leider in de categorie, Gemini 2.5 Pro, behaalde een nauwkeurigheid van slechts 46,9%.
Basistaken omvatten het lezen van grafieken, het interpreteren van diagrammen en het identificeren van objecten in de natuur. Met een nauwkeurigheid van minder dan 50% over de hele linie suggereert dit dat multimodale AI nog niet klaar is voor datamining zonder toezicht.
Concluderend: Als uw productroadmap een AI nodig heeft om automatisch gegevens uit facturen te extraheren of financiële grafieken te interpreteren zonder menselijke beoordeling, u introduceert waarschijnlijk aanzienlijke foutenpercentages in uw pijplijn.
Waarom dit belangrijk is voor je stapel
De FACTS-benchmark zal waarschijnlijk een standaardreferentiepunt voor aanbestedingen worden. Bij het evalueren van modellen voor zakelijk gebruik moeten technische leiders verder kijken dan de samengestelde score en zich verdiepen in de specifieke subbenchmark die past bij hun gebruiksscenario:
-
Een klantenondersteuningsbot bouwen? Controleer de Grounding-score om er zeker van te zijn dat de bot zich aan uw beleidsdocumenten houdt. (Gemini 2.5 Pro presteerde hier zelfs beter dan Gemini 3 Pro, 74,2 versus 69,0).
-
Een onderzoeksassistent bouwen? Geef prioriteit aan zoekscores.
-
Een beeldanalysetool bouwen? Ga uiterst voorzichtig te werk.
Zoals het FACTS-team in zijn persbericht opmerkte: “Alle geëvalueerde modellen behaalden een algehele nauwkeurigheid van minder dan 70%, waardoor er aanzienlijke ruimte overblijft voor toekomstige vooruitgang.” Voorlopig is de boodschap aan de industrie duidelijk: modellen worden slimmer, maar ze zijn nog niet waterdicht. Ontwerp uw systemen in de veronderstelling dat het ruwe model in ongeveer een derde van de gevallen eenvoudigweg verkeerd kan zijn.



