Er is tegenwoordig geen tekort aan AI-benchmarks op de markt, met populaire opties zoals Het laatste onderzoek naar de mensheid (HLE), ARC-AGI-2 en GDPval, naast vele andere.
AI-agenten blinken uit in het oplossen van abstracte wiskundige problemen en het behalen van de examens op PhD-niveau waarop de meeste benchmarks zijn gebaseerd, maar Databricks heeft een vraag voor het bedrijf: kunnen ze daadwerkelijk het documentintensieve werk aan dat de meeste bedrijven nodig hebben?
Het antwoord is, zo blijkt uit nieuw onderzoek van het dataplatform en kunstmatige intelligentiebedrijf, ontnuchterend. Zelfs de best presterende AI-agenten bereiken een nauwkeurigheid van minder dan 45% bij taken die de werklasten van echte ondernemingen weerspiegelen, waardoor een kritische kloof wordt blootgelegd tussen academische benchmarks en de zakelijke realiteit.
“Als we onze onderzoeksinspanningen richten op het verbeteren van bestaande benchmarks, zullen we waarschijnlijk niet de juiste problemen oplossen om van Databricks een beter platform te maken”, vertelde Erich Elsen, hoofdonderzoeker bij Databricks, aan VentureBeat. “Daarom hebben we rondgekeken. Hoe kunnen we een maatstaf creëren die, als we beter worden, we ook daadwerkelijk beter worden in het oplossen van de problemen van onze klanten?”
Het resultaat is OfficeQA, een benchmark die is ontworpen om AI-agenten te testen op gezond redeneren: het beantwoorden van vragen op basis van complexe eigen datasets met ongestructureerde document- en tabelgegevens. In tegenstelling tot bestaande benchmarks die zich richten op abstracte mogelijkheden, vertegenwoordigt OfficeQA de economisch waardevolle taken die bedrijven daadwerkelijk uitvoeren.
Waarom academische benchmarks het bedrijfsniveau niet bereiken
Volgens Elsen hebben populaire AI-benchmarks vanuit zakelijk perspectief talloze tekortkomingen.
HLE biedt toepassingen die expertise op doctoraal niveau op verschillende gebieden vereisen. ARC-AGI evalueert abstract redeneren door de visuele manipulatie van gekleurde rasters. Beide verleggen de grenzen van de mogelijkheden van AI, maar weerspiegelen niet het dagelijkse werk van bedrijven. Zelfs GDPval, speciaal in het leven geroepen om economisch nuttige taken te evalueren, slaat zijn doel voorbij.
“We hebben een behoorlijk zware wetenschappelijke of technische achtergrond en maken soms beoordelingen die dat weerspiegelen”, zegt Elsen. “Ze zijn dus wiskundig gezien extreem veeleisend, wat een grote en nuttige taak is, maar het verleggen van de grenzen van de menselijke wiskunde is niet wat klanten proberen te doen met Databricks.”
Hoewel AI vaak wordt gebruikt voor klantenondersteuning en coderingsapps, heeft het klantenbestand van Databricks een bredere reeks vereisten. Elsen merkte op dat het beantwoorden van vragen over documenten of documentcorpora een veel voorkomende taak is in bedrijven. Dit vereist het ontleden van complexe tabellen met geneste kopteksten, het ophalen van informatie uit tientallen of honderden documenten en het uitvoeren van berekeningen waarbij een fout van één cijfer ertoe kan leiden dat organisaties slechte zakelijke beslissingen nemen.
Bouw een referentiepunt dat de complexiteit van zakelijke documenten weerspiegelt
Om een zinvolle test van het gegronde redeneervermogen te kunnen maken, had Databricks een dataset nodig die de rommelige realiteit van bedrijfseigen bedrijfsdocumentcorpora benaderde, terwijl deze vrij beschikbaar bleef voor doorzoeking. Het team belandde in de United States Treasury Bulletins, die vanaf 1939 gedurende vijf decennia maandelijks werden gepubliceerd en daarna elk kwartaal.
Treasury Bulletins vinkt elk vakje af om de complexiteit van bedrijfsdocumenten te verifiëren. Elk bulletin is 100 tot 200 pagina’s lang en bestaat uit proza, complexe tabellen, grafieken en cijfers die de activiteiten van de Schatkist beschrijven: waar het federale geld vandaan kwam, waar het naartoe ging en hoe het overheidsoperaties financierde. Het corpus beslaat ongeveer 89.000 pagina’s, verspreid over acht decennia. Tot 1996 waren bulletins scans van fysieke documenten; ze werden vervolgens digitaal in PDF-formaat geproduceerd. USAFacts, een organisatie wiens missie het is om “overheidsgegevens gemakkelijker toegankelijk en begrijpelijker te maken”, werkte samen met Databricks om de benchmark te ontwikkelen, waarbij Treasury Bulletins als ideaal werden geïdentificeerd en ervoor werd gezorgd dat vragen realistische gebruiksscenario’s weerspiegelden.
De 246 vragen vereisen dat agenten complexe uitdagingen beheren die verband houden met documenten uit de echte wereld: gescande afbeeldingen, hiërarchische tabelstructuren, tijdelijke gegevens die meerdere rapporten bestrijken en de behoefte aan externe kennis zoals inflatieaanpassingen. Vragen variëren van eenvoudige zoekacties naar waarden tot meerstapsanalyses waarvoor statistische berekeningen en vergelijkingen van jaar tot jaar nodig zijn.
Om ervoor te zorgen dat de benchmark effectief documentgebaseerd ophalen vereist, filterde Databricks de vragen die LLM’s konden beantwoorden met alleen parametrische kennis of zoeken op internet. Dit elimineerde de eenvoudigste en enkele verrassend complexe vragen waarbij de modellen gebruik maakten van historische financiële gegevens die tijdens de pre-training waren opgeslagen.
Elke vraag heeft een goed onderbouwd en gevalideerd antwoord (meestal een getal, soms datums of kleine lijstjes), waardoor geautomatiseerde evaluatie zonder menselijk oordeel mogelijk is. Deze ontwerpkeuze is belangrijk: het maakt versterkende leerbenaderingen (RL) mogelijk die verifieerbare beloningen vereisen, vergelijkbaar met de manier waarop modellen trainen op codeerproblemen.
De huidige prestaties laten belangrijke hiaten zien
Databricks testte de Claude Opus 4.5-agent (met behulp van de Claude SDK) en de GPT-5.1-agent (met behulp van de OpenAI File Search API). De bevindingen zouden elk bedrijf dat groot inzet op de huidige capaciteiten van agenten een pauze moeten inblazen.
Indien geleverd met onbewerkte PDF-documenten:
De prestaties verbeterden echter aanzienlijk wanneer ze werden voorzien van vooraf geanalyseerde versies van pagina’s met behulp van Databricks’ ai_parse_documentDit geeft aan dat de slechte prestaties van onbewerkte PDF’s voortkomen uit het feit dat LLM API’s moeite hebben met parseren in plaats van met redeneren. Zelfs als de documenten geanalyseerd zijn, laten de experimenten ruimte voor verbetering zien.
Bij het opgeven van documenten die zijn geparseerd met Databricks ai_parse_document:
Drie belangrijke bevindingen voor bedrijfsimplementaties
De test identificeerde cruciale inzichten voor professionals:
Analyse blijft de fundamentele bouwsteen: Complexe tabellen met geneste kopteksten, samengevoegde cellen en ongebruikelijke opmaak produceren vaak verkeerd uitgelijnde waarden. Zelfs bij het ontvangen van nauwkeurige Oracle-pagina’s hadden agenten vooral te kampen met parseerfouten, hoewel de prestaties bijna verdubbelden met vooraf geparseerde documenten.
Documentversiebeheer zorgt voor dubbelzinnigheid: Financiële en regelgevende documenten worden beoordeeld en opnieuw gepubliceerd, wat betekent dat er meerdere geldige antwoorden zijn, afhankelijk van de publicatiedatum. Agenten stoppen vaak met zoeken zodra ze een plausibel antwoord hebben gevonden, waardoor meer gezaghebbende bronnen verloren gaan.
Visueel redeneren is een leemte: Ongeveer 3% van de vragen vereist interpretatie van tabellen of grafieken, terwijl de huidige agenten consequent falen. Voor bedrijven waar datavisualisaties cruciale informatie communiceren, betekent dit een aanzienlijke beperking van de mogelijkheden.
Hoe bedrijven OfficeQA kunnen gebruiken
De benchmarkstructuur maakt specifieke verbetertrajecten mogelijk die verder gaan dan alleen scoren.
“Omdat je naar het juiste antwoord kunt kijken, kun je gemakkelijk vaststellen of de fout uit de analyse komt”, legt Elsen uit.
Deze geautomatiseerde evaluatie maakt een snelle iteratie van pijplijnanalyse mogelijk. Geverifieerde antwoorden maken ook RL-training mogelijk, vergelijkbaar met codeerbenchmarks, omdat er geen menselijk oordeel vereist is.
Elsen zei dat de benchmark “een heel sterk feedbacksignaal” biedt voor ontwikkelaars die aan zoekoplossingen werken. Hij waarschuwde er echter voor om het niet als trainingsgegevens te behandelen.
“In ieder geval in mijn verbeelding is het doel van het vrijgeven ervan meer een evaluatie en niet een bron van ruwe trainingsgegevens”, zei hij. “Als je je te specifiek op deze omgeving afstemt, is het onduidelijk hoe generaliseerbaar de bevindingen van je agent zouden zijn.”
Wat dit betekent voor zakelijke AI-implementaties
Voor bedrijven die momenteel documentintensieve AI-agentsystemen implementeren of plannen, biedt OfficeQA een ontnuchterende realitycheck. Zelfs de nieuwste frontier-modellen bereiken slechts 43% nauwkeurigheid op onbewerkte PDF’s en blijven zelfs bij optimale documentanalyse niet onder de 70%. De prestaties op de moeilijkste vragen bedragen 40%, wat erop wijst dat er aanzienlijke ruimte voor verbetering is.
Drie directe gevolgen:
Evalueer de complexiteit van uw document: Als uw documenten lijken op het complexiteitsprofiel van Treasury-bulletins (gescande afbeeldingen, geneste tabelstructuren, kruisverwijzingen tussen documenten), kunt u een nauwkeurigheid verwachten die ruim onder de verwachtingen van de leverancier ligt. Test uw echte documenten voordat u ze in productie neemt.
Plan voor het analyseknelpunt: Testresultaten geven aan dat analyses een belangrijk obstakel blijven. Budgeteer tijd en middelen voor op maat gemaakte analyseoplossingen in plaats van ervan uit te gaan dat standaard OCR voldoende is.
Plan voor faalwijzen bij moeilijke vragen: Zelfs met optimale analyse zitten agenten op 40% van de complexe vragen die uit meerdere stappen bestaan. Voor bedrijfskritische documentworkflows die analyse van meerdere documenten, statistische berekeningen of visueel redeneren vereisen, zijn de huidige agentcapaciteiten mogelijk niet gereed zonder aanzienlijk menselijk toezicht.
Voor bedrijven die toonaangevend willen zijn op het gebied van AI-gestuurde documentintelligentie biedt deze benchmark een concreet beoordelingskader en identificeert specifieke lacunes in de capaciteiten die moeten worden aangepakt.


