Home Nieuws Databricks: “PDF-parsing voor agent AI is nog steeds niet opgelost”: nieuwe tool...

Databricks: “PDF-parsing voor agent AI is nog steeds niet opgelost”: nieuwe tool vervangt multi-service pipelines door één enkele functie

9
0
Databricks: “PDF-parsing voor agent AI is nog steeds niet opgelost”: nieuwe tool vervangt multi-service pipelines door één enkele functie

Er zitten veel bedrijfsgegevens vast in PDF-documenten. Zeker, AI-tools hebben PDF’s kunnen importeren en analyseren, maar de nauwkeurigheid, tijd en kosten waren niet ideaal. Nieuwe technologie van Databricks zou de situatie kunnen veranderen.

Het bedrijf heeft deze week zijn “ai_parse_document”-technologie gedetailleerd beschreven, nu geïntegreerd met Databricks Agent Bricks-platform. De technologie lost een kritiek knelpunt op bij de adoptie van AI in ondernemingen: ongeveer 80% van de bedrijfskennis blijft opgesloten in pdf’s, rapporten en diagrammen die AI-systemen moeilijk accuraat kunnen verwerken en begrijpen.

“Er bestaat een algemene opvatting dat het parseren van PDF’s een opgelost probleem is, maar dat is in werkelijkheid niet het geval”, zegt Erich Elsen, hoofdonderzoeker bij Databricks, tegen VentureBeat. “De uitdaging is niet alleen dat documenten ongestructureerd zijn; het is ook dat zakelijke PDF’s inherent complex zijn. Ze combineren native digitale inhoud met gescande pagina’s en foto’s van fysieke documenten, samen met tabellen, grafieken en onregelmatige lay-outs, en de meeste bestaande tools slagen er niet in om die informatie nauwkeurig vast te leggen.”

De verborgen complexiteit achter documentanalyse

Hoewel optische tekenherkenning (OCR) al tientallen jaren bestaat, stelt Elsen dat het extraheren van gestructureerde, bruikbare gegevens uit echte bedrijfsdocumenten fundamenteel onopgelost blijft.

Belangrijke elementen zoals tabellen met samengevoegde cellen, bijschriften en ruimtelijke relaties tussen documentelementen worden routinematig verwijderd of verkeerd geïnterpreteerd door bestaande tools, waardoor downstream AI-applicaties, augmented generation (RAG)-systemen of business intelligence-dashboards onbetrouwbaar worden.

De typische bedrijfsoplossing was het op elkaar stapelen van meerdere imperfecte tools: één service voor lay-outdetectie, een andere voor OCR, een derde voor het extraheren van tabellen, evenals aanvullende API’s voor figuuranalyse. Deze aanpak vereist maanden van aangepaste data-engineering en doorlopend onderhoud naarmate documentformaten evolueren.

“Om dit te compenseren moesten teams meerdere imperfecte tools op elkaar stapelen of grote custom pipelines bouwen, waarbij ze maandenlang bezig waren met data-engineering in plaats van met innovatie”, aldus Elsen. “ai_parse_document lost dit probleem op door rijke, gestructureerde gegevens uit documenten uit de echte wereld te extraheren, zodat organisaties eindelijk ongestructureerde gegevens rechtstreeks binnen Databricks kunnen vertrouwen en opvragen.”

Technische aanpak: end-to-end training versus pijplijnstapelen

Er zijn tegenwoordig talloze services op de markt beschikbaar voor het analyseren van PDF’s, waaronder onder meer AWS Textract, Google Document AI en Azure Document Intelligence. Elsen betoogde dat de tool, in plaats van alleen maar tekst te lezen, een systeem van moderne AI-componenten gebruikt die end-to-end zijn getraind om gestructureerde context met de allernieuwste kwaliteit te extraheren.

De functie gaat verder dan de basisextractie en legt het volgende vast:

  • Tabellen blijven precies behouden zoals ze verschijnen, inclusief samengevoegde cellen en geneste structuren

  • Figuren en diagrammen met bijschriften en beschrijvingen gegenereerd door kunstmatige intelligentie

  • Ruimtelijke metadata en selectiekaders voor nauwkeurige locatie van items

  • Optionele beelduitvoer voor multimodale onderzoekstoepassingen

Alle resultaten worden rechtstreeks in de Databricks Unity-catalogus opgeslagen als Delta-tabellen, wat betekent dat de geanalyseerde documenten doorzoekbare gestructureerde gegevens worden zonder de Databricks-omgeving te verlaten. Dit is een belangrijke onderscheidende factor ten opzichte van cloudservices waarvoor gegevensexport nodig is voor verwerking.

“Met datagerichte training en geoptimaliseerde inferentie hebben we 3-5x lagere kosten gerealiseerd, waarbij we toonaangevende systemen als Textract, Document AI en Azure Document Intelligence evenaren of zelfs overtreffen”, aldus Elsen.

Vroege adoptie door bedrijven in de productie- en industriële sectoren

Verschillende grote bedrijven hebben ai_parse_document al in productie geïmplementeerd met gebruiksscenario’s variërend van het optimaliseren van de data science-workflow, het democratiseren van documentverwerking en het ontwikkelen van RAG-applicaties.

Elsen merkte bijvoorbeeld op dat Rockwell Automation ai_parse_document gebruikt om de configuratieoverhead voor zijn datawetenschappers te verminderen.

“Wat ooit een aanzienlijke configuratie vereiste om complexe oplossingen te ondersteunen, is nu vereenvoudigd, waardoor teams meer tijd kunnen besteden aan innovatie en minder tijd aan het beheren van de infrastructuur”, zei hij.

TE Connectivity gebruikt ondertussen ai_parse_document om de verwerking van ongestructureerde gegevens te democratiseren.

“Voorheen vereiste het extraheren van tabellen, tekst en metagegevens uit documenten complexe, code-intensieve workflows”, aldus Elsen. “Met Databricks hebben ze dit allemaal samengevat in één enkele SQL-functie, waardoor geavanceerde documentverwerking toegankelijk is voor elk datateam, niet alleen voor datawetenschappers.”

Emerson Electric is een andere early adopter. Het bedrijf gebruikt ai_parse_document voor een RAG-use-case. Elsen legde uit dat Emerson, door parallelle documentanalyse rechtstreeks binnen Delta-tabellen mogelijk te maken, het bouwen van RAG-applicaties snel en eenvoudig heeft gemaakt, allemaal binnen de bestaande Databricks-omgeving.

Het platformintegratiespel

Hoewel Databricks een lange geschiedenis heeft met open source, is de ai_parse_document technologie een eigen onderdeel van het Databricks-platform.

In tegenstelling tot zelfstandige documentintelligentie-API’s is ai_parse_document diep geïntegreerd met het Agent Bricks-platform van Databricks, een verzameling AI-functies en orkestratiemogelijkheden voor het bouwen van productie-AI-agents.

De functie werkt met de bredere data-infrastructuur van Databricks, waaronder:

  • Spark declaratieve pijplijnen: Zorg voor automatische incrementele verwerking, wat betekent dat nieuwe documenten die binnenkomen in SharePoint, S3 of Azure Data Lake Storage automatisch worden geanalyseerd zonder handmatige orkestratie.

  • Eenheidscatalogus: Beheert machtigingen, audittrails en gegevensafstamming voor geanalyseerde inhoud, net zoals voor gestructureerde gegevens.

  • Vector zoeken: Indexeer geparseerde documentelementen, waaronder tekst, tabellen en figuren met bijschriften voor multimodale RAG-toepassingen.

  • AI-functieketen: Hiermee kunnen ontwikkelaars de uitvoer van ai_parse_document rechtstreeks doorsturen naar ai_extract (entiteitsextractie), ai_classify (documentcategorisering) en ai_summarize (inhoud samenvatten) binnen één enkele SQL-query.

  • Supervisor van meerdere agenten: Coördineert documentverwerkingsagenten met andere gespecialiseerde agenten voor complexe workflows.

“Analyse is nog maar het begin en zelden een doel op zichzelf”, aldus Elsen. “Het doel is om klanten in staat te stellen onze ai_-functies, zoals ai_extract en ai_classify, samen met ai_parse_document te koppelen om hun documenten om te zetten in bruikbare gegevens en inzichten. We willen het ook gemakkelijk maken om een ​​corpus van documenten om te zetten in een kennisdatabase voor gebruik in RAG of andere middelen voor het ophalen van informatie. “

Wat dit betekent voor de AI-strategie van uw bedrijf

Voor bedrijven die AI-agentsystemen bouwen, is het van cruciaal belang om te begrijpen hoe PDF-documenten daadwerkelijk door de systemen worden gebruikt en begrepen.

De Databricks-aanpak werpt nieuw licht op een probleem dat velen als opgelost hadden kunnen beschouwen. Daag bestaande verwachtingen uit met een nieuwe architectuur die meer soorten workflows ten goede zou kunnen komen. Dit is echter een platformspecifieke functie die zorgvuldige overweging vereist voor organisaties die Databricks nog niet gebruiken.

Voor technische besluitvormers die AI-agentplatforms evalueren, komt het erop neer dat documentintelligentie zich ontwikkelt van een gespecialiseerde externe dienst naar een geïntegreerde platformcapaciteit.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in