Home Nieuws De meeste RAG-systemen begrijpen geen geavanceerde documenten: ze vernietigen ze

De meeste RAG-systemen begrijpen geen geavanceerde documenten: ze vernietigen ze

4
0
De meeste RAG-systemen begrijpen geen geavanceerde documenten: ze vernietigen ze

Inmiddels hebben veel bedrijven een vorm van RAG geïmplementeerd. De belofte is verleidelijk: indexeer uw PDF’s, sluit een LLM aan en democratiseer onmiddellijk uw zakelijke kennis.

Maar voor industrieën die afhankelijk zijn van zware techniek is de realiteit teleurstellend. De ingenieurs stellen specifieke vragen over de infrastructuur en de bot hallucineert.

Mislukking het staat niet in de LLM. De fout zit in de voorbewerking.

Standaard RAG-pijplijnen behandelen documenten als platte tekstreeksen. Ze gebruiken ‘chunking met een vaste grootte’ (het knippen van een document om de 500 tekens). Dit werkt voor proza, maar vernietigt de logica van technische handleidingen. Snijd tabellen doormidden, scheid bijschriften van afbeeldingen en negeer de visuele hiërarchie van de pagina.

IHet verbeteren van de betrouwbaarheid van de RAG betekent niet dat je een groter model moet kopen; het gaat over het oplossen van het ‘dark data’-probleem door middel van semantische slicing en multimodale tekstualisering.

Hier is de architecturale structuur om een ​​RAG-systeem te bouwen dat daadwerkelijk een handleiding kan lezen.

De misvatting van het opsplitsen in brokken van vaste grootte

In een standaard Python RAG-tutorial wordt tekst gesplitst op basis van het aantal tekens. In een zakelijke PDF is dit rampzalig.

Als een tabel met beveiligingsspecificaties 1.000 tokens omvat en de blokgrootte 500 is, splitst u gewoon de kop ‘spanningslimiet’ door de waarde ‘240V’. DE vectordatabase bewaart ze apart. Wanneer een gebruiker vraagt: “Wat is de spanningslimiet?”, Vindt het ophaalsysteem de header maar niet de waarde. De LLM, gedwongen te antwoorden, gokt vaak.

De oplossing: semantische onderverdeling

De eerste stap om de productie-RAG te verbeteren is het opgeven van het willekeurig tellen van tekens ten gunste van documentintelligentie.

Met behulp van opmaakbewuste analysetools (zoals Azure Document Intelligence) kunnen we gegevens segmenteren op basis van de documentstructuur, zoals hoofdstukken, secties en alinea’s, in plaats van op het aantal tokens.

  • Logische samenhang: Een sectie die een specifiek deel van de machine beschrijft, wordt als een enkele vector onderhouden, zelfs als deze in lengte varieert.

  • Tafelopslag: De parser identificeert een tabelgrens en dwingt het hele raster tot één stuk, waarbij de rij-kolomrelaties behouden blijven die essentieel zijn voor nauwkeurig ophalen.

In onze interne kwaliteitsbenchmarks heeft de overstap van vaste naar semantische splitsing de nauwkeurigheid van het ophalen van gegevens in tabelvorm aanzienlijk verbeterd, waardoor spec-fragmentatie effectief is gestopt.

Ontgrendel visuele donkere gegevens

De tweede faalwijze van bedrijfs-RAG is blindheid. Een enorme hoeveelheid bedrijfs-IP bestaat niet uit tekst, maar uit stroomdiagrammen, schema’s en systeemarchitectuurdiagrammen. Standaard insluitsjablonen (zoals text-embedding-3-small) kunnen deze afbeeldingen niet “zien”. Ze worden tijdens het indexeren overgeslagen.

Als uw antwoord in een stroomdiagram staat, zegt uw RAG-systeem: “Ik weet het niet.”

De oplossing: multimodale tekstualisering

Om de diagrammen doorzoekbaar te maken, hebben we een multimodale voorbewerkingsstap geïmplementeerd met behulp van vision-compatibele modellen (met name GPT-4o) voordat de gegevens het vectorarchief bereiken.

  1. OCR-extractie: Uiterst nauwkeurige optische tekenherkenning haalt tekstlabels uit de afbeelding.

  2. Generatieve ondertitels: Het visiemodel analyseert het beeld en genereert een gedetailleerde natuurlijke-taalbeschrijving (“Een stroomdiagram dat laat zien dat proces A leidt tot proces B als de temperatuur boven de 50 graden komt”).

  3. Hybride inbedding: Deze gegenereerde beschrijving wordt ingebed en opgeslagen als metadata gekoppeld aan de originele afbeelding.

Wanneer een gebruiker nu zoekt naar “temperatuurprocesstroom”, komt de vectorzoekopdracht overeen beschrijvingzelfs als de originele bron een PNG-bestand was.

Het niveau van vertrouwen: op bewijs gebaseerde gebruikersinterface

Voor zakelijke adoptie is nauwkeurigheid slechts het halve werk. De andere helft wel verifieerbaarheid.

In een standaard RAG-interface geeft de chatbot een tekstantwoord en vermeldt een bestandsnaam. Dit dwingt de gebruiker om de pdf te downloaden en naar de pagina te zoeken om de claim te verifiëren. Bij risicovolle vragen (“Is deze chemische stof ontvlambaar?”) vertrouwen gebruikers de bot eenvoudigweg niet.

DE architectuur moet visuele citatie implementeren. Omdat we de link tussen het tekstblok en de hoofdafbeelding tijdens de voorbewerkingsfase hebben behouden, kan de gebruikersinterface naast het tekstuele antwoord de exacte grafiek of tabel weergeven die is gebruikt om het antwoord te genereren.

Met dit ‘laat je werk zien’-mechanisme kunnen mensen de AI-redeneringen onmiddellijk verifiëren, waardoor de vertrouwenskloof wordt gedicht die zoveel mensen het leven kost interne kunstmatige intelligentieprojecten.

Toekomstbestendig: inheemse multimodale inbedding

Hoewel de methode van ‘textualisatie’ (het omzetten van afbeeldingen in tekstuele beschrijvingen) tegenwoordig de praktische oplossing is, evolueert de architectuur snel.

We zien nu al de opkomst van inheemse multimodale inbedding (zoals Cohere’s Embedd 4). Deze modellen kunnen tekst en afbeeldingen in dezelfde vectorruimte in kaart brengen zonder de tussenstap van ondertiteling. Hoewel we momenteel een meertrapspijplijn gebruiken voor maximale controle, zal de toekomst van de data-infrastructuur waarschijnlijk ‘end-to-end’-vectorisatie met zich meebrengen, waarbij de lay-out van een pagina rechtstreeks wordt ingebed.

Ook: hoe LLM met lange context kosteneffectief wordt, kan de behoefte aan chunking afnemen. Al snel konden we hele handleidingen in het contextvenster plaatsen. Totdat de latentie en de kosten voor het aanroepen van miljoenen tokens echter aanzienlijk afnemen, zal semantische voorverwerking de economisch meest haalbare strategie voor realtime systemen blijven.

Conclusie

Het verschil tussen een RAG-demo en een productiesysteem is de manier waarop het omgaat met de chaotische realiteit van bedrijfsgegevens.

Beschouw uw documenten niet langer als eenvoudige tekstreeksen. Als u wilt dat uw AI uw bedrijf begrijpt, moet u de structuur van uw documenten respecteren. Door semantische segmentatie te implementeren en visuele gegevens in uw grafieken te ontsluiten, transformeert u uw RAG-systeem van een ‘trefwoordzoeker’ in een echte ‘kennisassistent’.

Dippu Kumar Singh is een AI-architect en data-ingenieur.

Welkom bij de VentureBeat-community!

In ons gastpostprogramma delen technische experts inzichten en bieden ze neutrale, niet-verdeelde inzichten over kunstmatige intelligentie, data-infrastructuur, cyberbeveiliging en andere geavanceerde technologieën die de toekomst van de onderneming vormgeven.

Lees meer uit ons gastenpostprogramma en bekijk ons richtlijnen als u geïnteresseerd bent om uw artikel bij te dragen!

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in