Home Nieuws Dit boomzoekraamwerk behaalt 98,7% op documenten waarin vectorzoeken mislukt

Dit boomzoekraamwerk behaalt 98,7% op documenten waarin vectorzoeken mislukt

4
0
Dit boomzoekraamwerk behaalt 98,7% op documenten waarin vectorzoeken mislukt

Een nieuw open source-framework genaamd Indexpagina lost een van de oude problemen van Retrieval-Augmented Generation (RAG) op: het beheren van zeer lange documenten.

De klassieke RAG-workflow (documenten blokkeren, inbedding berekenen, opslaan in een vectordatabase en topmatches ophalen op basis van semantische gelijkenis) werkt goed voor basistaken zoals vragen en antwoorden op kleine documenten.

PageIndex verlaat de standaard “chunk-and-embed”-methode volledig en behandelt het ophalen van documenten niet als een zoekprobleem, maar als een navigatieprobleem.

Maar terwijl bedrijven RAG proberen te verplaatsen naar risicovolle workflows (het beoordelen van financiële overzichten, het analyseren van juridische contracten, het navigeren door farmaceutische protocollen), stuiten ze op een nauwkeurigheidsbarrière die optimalisatie niet kan oplossen.

AlphaGo voor documenten

PageIndex pakt deze beperkingen aan door een concept te lenen van videogame-AI in plaats van van zoekmachines: boomzoeken.

Wanneer mensen specifieke informatie moeten vinden in een compact leerboek of een lang jaarverslag, scannen ze niet elke paragraaf lineair. Ze raadplegen de index om het betreffende hoofdstuk te identificeren, vervolgens de sectie en ten slotte de specifieke pagina. PageIndex dwingt de LLM om dit menselijke gedrag te repliceren.

In plaats van vectoren vooraf te berekenen, bouwt het raamwerk een “globale index” van de documentstructuur, waardoor een boom ontstaat waarin knooppunten hoofdstukken, secties en subsecties vertegenwoordigen. Wanneer een zoekopdracht binnenkomt, doorzoekt LLM de boom, waarbij elk knooppunt expliciet wordt geclassificeerd als relevant of irrelevant op basis van de volledige context van het verzoek van de gebruiker.

Hoe PageIndex werkt (bron: PageIndex GitHub)

“In computertermen is een inhoudsopgave een boomgestructureerde weergave van een document, en de navigatie ervan komt overeen met het doorzoeken van de boom,” zei Zhang. “PageIndex past hetzelfde basisidee toe – zoeken in bomen – om het ophalen van documenten te zien en kan worden gezien als een AlphaGo-achtig systeem voor het ophalen van documenten in plaats van voor gamen.”

Dit verschuift het architecturale paradigma van passief ophalen, waarbij het systeem eenvoudigweg de bijbehorende tekst ophaalt, naar actieve navigatie, waarbij een agentmodel beslist waar te kijken.

De grenzen van semantische gelijkenis

Er zit een fundamentele fout in het hoe Traditionele RAG beheert complexe gegevens. Bij het ophalen van vectoren wordt ervan uitgegaan dat de tekst die semantisch het dichtst bij de zoekopdracht van een gebruiker ligt, ook het meest relevant is. In professionele omgevingen faalt deze veronderstelling vaak.

Mingtian Zhang, mede-oprichter van PageIndex, wijst op financiële rapportage als een goed voorbeeld van deze manier van falen. Als een financieel analist een AI vraagt ​​naar ‘EBITDA’ (winst vóór rente, belastingen, afschrijvingen en amortisatie), haalt een standaard vectordatabase elk onderdeel op waar dat acroniem of een soortgelijke term voorkomt.

“Meerdere secties kunnen EBITDA vermelden met vergelijkbare bewoordingen, maar slechts één sectie definieert de precieze berekening, aanpassingen of rapportagereikwijdte die relevant zijn voor de vraag”, vertelde Zhang aan VentureBeat. “Een op gelijkenis gebaseerde retriever heeft moeite om deze gevallen te onderscheiden, omdat de semantische signalen bijna niet van elkaar te onderscheiden zijn.”

Dit is de kloof tussen intentie en inhoud. De gebruiker wil het woord “EBITDA” niet vinden; ze willen de ‘logica’ erachter voor dat specifieke kwartaal begrijpen.

Bovendien ontdoen traditionele inbedding de vraag van zijn context. Omdat insluitingsmodellen strikte limieten voor de invoerlengte hebben, ziet het ophaalsysteem meestal alleen de specifieke gestelde vraag, waarbij eerdere wendingen in het gesprek worden genegeerd. Dit scheidt de ophaalfase van het redeneerproces van de gebruiker. Het systeem koppelt documenten aan een korte, gedecontextualiseerde zoekopdracht in plaats van aan de volledige geschiedenis van het probleem dat de gebruiker probeert op te lossen.

Het multi-hop redeneerprobleem oplossen

De impact van deze structurele aanpak in de echte wereld is het meest zichtbaar bij ‘multi-hop’-query’s waarbij AI een spoor van broodkruimels door verschillende delen van een document moet volgen.

In een recente benchmarktest, bekend als FinanceBench, werd een op PageIndex gebaseerd systeem genaamd “Overige 2.5” behaalde een state-of-the-art nauwkeurigheidsscore van 98,7%. De prestatiekloof tussen deze aanpak en vectorgebaseerde systemen wordt duidelijk als je analyseert hoe ze omgaan met interne referenties.

Zhang geeft het voorbeeld van een vraag over de totale waarde van uitgestelde activa in een jaarverslag van de Federal Reserve. Het hoofdgedeelte van het rapport beschrijft de “verandering” in waarde, maar vermeldt niet het totaal. De tekst bevat echter een voetnoot: “Zie bijlage G van dit rapport… voor meer gedetailleerde informatie.”

Een vectorgebaseerd systeem faalt hier doorgaans. De tekst in bijlage G lijkt in niets op de vraag van de gebruiker over uitgestelde taken; het is waarschijnlijk gewoon een tabel met getallen. Omdat er geen semantische overeenkomst is, negeert de vectordatabase deze.

De op redenering gebaseerde retriever leest echter de aanwijzing in de hoofdtekst, volgt de structurele link naar bijlage G, lokaliseert de juiste tabel en retourneert het nauwkeurige cijfer.

De afweging tussen latentie en veranderende infrastructuur

Voor enterprise-architecten is latentie de onmiddellijke zorg van een op LLM gebaseerd zoekproces. Vectorzoekopdrachten vinden plaats in milliseconden; als een LLM een inhoudsopgave “leest”, betekent dit een aanzienlijk langzamere gebruikerservaring.

Zhang legt echter uit dat de door de eindgebruiker waargenomen latentie verwaarloosbaar kan zijn vanwege de manier waarop herstel is geïntegreerd in het generatieproces. In een klassieke RAG-opstelling is het ophalen een blokkerende stap: het systeem moet de database doorzoeken voordat het een antwoord kan genereren. Met PageIndex vindt het ophalen inline plaats, tijdens het redeneerproces van het model.

“Het systeem kan onmiddellijk beginnen met streamen en het ophalen zodra het is gegenereerd”, aldus Zhang. “Dit betekent dat PageIndex geen extra ‘fetch gate’ toevoegt vóór het eerste token, en Time to First Token (TTFT) vergelijkbaar is met een reguliere LLM-oproep.”

Deze architectonische verandering vereenvoudigt ook de data-infrastructuur. Door de afhankelijkheid van inbedding te elimineren, hoeven bedrijven niet langer een speciale vectordatabase bij te houden. De boomgestructureerde index is licht genoeg om in een traditionele relationele database zoals PostgreSQL te passen.

Dit pakt een groeiend pijnpunt aan in LLM-systemen met ophaalcomponenten: de complexiteit van het synchroon houden van vectorarchieven met levende documenten. PageIndex scheidt structuurindexering van tekstextractie. Als een contract wordt gewijzigd of een beleid wordt bijgewerkt, kan het systeem kleine wijzigingen verwerken door alleen de getroffen subboom opnieuw te indexeren in plaats van het hele corpus van het document opnieuw te verwerken.

Een beslissingsmatrix voor het bedrijf

Hoewel de nauwkeurigheidsverbeteringen overtuigend zijn, is het zoeken naar boomstructuren geen universele vervanging voor het zoeken naar vectoren. Technologie kan beter worden gezien als een gespecialiseerd hulpmiddel voor ‘diepgaand werk’ dan als een wondermiddel voor elke herstelactiviteit.

Voor korte documenten, zoals e-mails of chatlogboeken, past de hele context vaak binnen het contextvenster van een moderne LLM, waardoor elk opzoeksysteem overbodig is. Voor taken die uitsluitend gebaseerd zijn op semantische ontdekking, zoals het aanbevelen van vergelijkbare producten of het vinden van inhoud met een vergelijkbare ‘sfeer’, blijven vectorinbedding daarentegen de superieure keuze omdat het doel nabijheid is en niet redeneren.

PageIndex valt precies in het midden: lange, zeer gestructureerde documenten waarbij de kosten van fouten hoog zijn. Dit omvat technische handleidingen, FDA-registraties en fusieovereenkomsten. In deze scenario’s is de vereiste verifieerbaarheid. Een bedrijfssysteem moet niet alleen het antwoord kunnen uitleggen, maar ook het pad dat is gevolgd om het te vinden (bijvoorbeeld door te bevestigen dat u paragraaf 4.1 hebt gecontroleerd, de verwijzing naar bijlage B hebt gevolgd en de daar gevonden gegevens hebt samengevat).

Pagina-index versus RAG

Afbeelding tegoed: VentureBeat met Nano Banana Pro

De toekomst van agentherstel

De opkomst van frameworks als PageIndex signaleert een grotere trend in de AI-stack: de verschuiving naar “RAG-agentNaarmate modellen beter in staat worden te plannen en te redeneren, verschuift de verantwoordelijkheid voor het vinden van gegevens van de databaselaag naar de modellaag.

We zien dit al in de codeerruimte, waar agenten het leuk vinden Code Claudio en Cursor stappen af ​​van eenvoudige vectorzoekopdrachten ten gunste van actieve verkenning van de codebasis. Zhang gelooft dat generiek documentherstel hetzelfde traject zal volgen.

“Vectordatabases hebben nog steeds geschikte gebruiksscenario’s”, zei Zhang. “Maar hun historische rol als standaarddatabase voor LLM en AI zal in de loop van de tijd minder duidelijk worden.”

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in