Home Nieuws Het tijdperk van op agenten gebaseerde AI vereist het opbouwen van gegevens,...

Het tijdperk van op agenten gebaseerde AI vereist het opbouwen van gegevens, geen betere suggesties

2
0
Het tijdperk van op agenten gebaseerde AI vereist het opbouwen van gegevens, geen betere suggesties

De consensus in de industrie is dat 2026 het jaar van ‘kunstmatige intelligentie’ zal zijn. We zijn snel voorbij chatbots die eenvoudigweg tekst samenvatten. We betreden het tijdperk van autonome agenten die taken uitvoeren. We verwachten van hen dat ze vluchten boeken, systeemstoringen diagnosticeren, de cloudinfrastructuur beheren en mediastreams in realtime personaliseren.

Als technologiemanager die toezicht houdt op platforms die 30 miljoen gelijktijdige gebruikers bedienen tijdens grote mondiale evenementen zoals de Olympische Spelen en de Super Bowl, heb ik de onaantrekkelijke realiteit achter deze hype gezien: agenten zijn ongelooflijk kwetsbaar.

Leidinggevenden en VC’s zijn geobsedeerd door modelbenchmarks. Ze bespreken Llama 3 versus GPT-4. Ze richten zich op het maximaliseren van de grootte van het contextvenster. Toch negeren ze het echte punt van mislukking. De belangrijkste reden waarom autonome agenten falen in de productie is vaak te wijten aan problemen met de gegevenshygiëne.

In het vorige tijdperk van ‘human-in-the-loop’-analyses was datakwaliteit een beheersbaar probleem. Als er een probleem is met een ETL-pijplijn, kan een dashboard een onjuist boekingsnummer weergeven. Een menselijke analist zou de anomalie opmerken, rapporteren en repareren. De straal van de explosie was beperkt.

In de nieuwe wereld van autonome agentendat vangnet is verdwenen.

Als een datapijplijn vandaag de dag afwijkt, rapporteert een agent niet zomaar het verkeerde nummer. We moeten het mis hebben actie. Biedt het verkeerde servertype. Beveel een horrorfilm aan aan een gebruiker die tekenfilms kijkt. Het hallucineert een reactie van de klantenservice op basis van corrupte vectorinbedding.

Om AI op NFL- of Olympische schaal uit te voeren, heb ik me gerealiseerd dat het standaard opschonen van gegevens niet voldoende is. We kunnen de gegevens niet zomaar ‘monitoren’. We moeten er wetgeving over maken.

Een oplossing voor dit specifieke probleem zou de vorm kunnen aannemen van een ‘datakwaliteit – denk ik’-framework. Het werkt als een ‘dataconstitutie’. Pas duizenden geautomatiseerde regels toe voordat een enkele byte aan gegevens een AI-model kan raken. Hoewel ik het specifiek heb toegepast op de streamingarchitectuur van NBCUniversal, is de methodologie universeel voor elk bedrijf dat AI-agents wil operationeel maken.

Dat is de reden waarom “defensieve data-engineering” en de Filosofie van het geloof het zijn de enige manieren om het Agentic-tijdperk te overleven.

De vectordatabaseval

Het grootste probleem met AI-agents is dat ze de context vertrouwen die je ze impliciet geeft. Als u RAG gebruikt, is de vectordatabase het langetermijngeheugen van de agent.

Standaardproblemen met de gegevenskwaliteit zijn catastrofaal vectordatabases. In traditionele SQL-databases is een nulwaarde eenvoudigweg een nulwaarde. In een vectordatabase kan een nulwaarde of schema-mismatch de semantische betekenis van de gehele inbedding vertekenen.

Overweeg een scenario waarin metagegevens afdrijven. Stel dat uw pijplijn videometadata opneemt, maar een race condition zorgt ervoor dat de tag ‘genre’ wegvalt. Je metadata kunnen een video markeren als ‘live sport’, maar de insluiting is gegenereerd op basis van een ‘nieuwsfragment’. Wanneer een agent de database doorzoekt naar ’touchdown-hoogtepunten’, haalt hij het nieuwsfragment op omdat zoeken naar vectorgelijkenis werkt op een beschadigd signaal. De agent levert die clip vervolgens aan miljoenen gebruikers.

Op grote schaal kunt u niet vertrouwen op downstream-monitoring om dit te detecteren. Tegen de tijd dat het anomaliealarm afgaat, heeft de agent al duizenden slechte beslissingen genomen. Kwaliteitscontroles moeten zich naar de absolute “linkerkant” van de pijplijn verplaatsen.

Het ‘I Believe’-raamwerk: 3 principes om te overleven

DE Ik geloof Van het raamwerk wordt verwacht dat het als poortwachter fungeert. Het is een kwaliteitsarchitectuur voor meerdere huurders die zich tussen acquisitiebronnen en AI-modellen bevindt.

Voor technologieleiders die hun eigen ‘grondwet’ willen opbouwen, zijn hier de drie niet-onderhandelbare zaken die ik aanbeveel.

1. Het “quarantaine”-model is verplicht: In veel moderne dataorganisaties geven ingenieurs de voorkeur aan de ‘ELT’-aanpak. Ze dumpen de onbewerkte gegevens in een meer en ruimen deze daarna op. Voor AI-agenten is dit onaanvaardbaar. Je kunt een agent niet laten drinken uit een vervuild meer.

DE Ik geloof De methodologie legt een strenge ‘dead letter wachtrij’ op. Als een datapakket een contract schendt, wordt het onmiddellijk in quarantaine geplaatst. Het bereikt nooit de database van de vervoerder. Het is veel beter voor een agent om te zeggen “Ik weet het niet” vanwege ontbrekende gegevens, dan vol vertrouwen te liegen vanwege slechte gegevens. Dit ‘schakelpatroon’ is essentieel voor het voorkomen van spraakmakende hallucinaties.

2. De regeling is wet: Jarenlang is de sector op weg gegaan naar flexibiliteit zonder patroon om snel te kunnen handelen. We moeten deze trend keren voor grote AI-pijplijnen. We moeten strenge typering en referentiële integriteit toepassen.

Mijn ervaring is dat een robuust systeem schaalgrootte vereist. De implementatie die ik begeleid heb, is momenteel in uitvoering meer dan 1.000 actieve regels draait op realtime streams. Deze controleren niet alleen op nulwaarden. Ze controleren de consistentie van de bedrijfslogica.

  • Voorbeeld: Komt het ‘user_segment’ in de gebeurtenisstroom overeen met de actieve taxonomie in het functiearchief? Zo niet, blokkeer het dan.

  • Voorbeeld: Bevindt de tijdstempel zich binnen het acceptabele latentievenster voor realtime gevolgtrekking? Zo niet, laat het dan met rust.

3. Vectorconsistentiecontroles Dit is de nieuwe grens voor SRE’s. We moeten geautomatiseerde controles implementeren om ervoor te zorgen dat tekstblokken die in een vectordatabase zijn opgeslagen, daadwerkelijk overeenkomen met de inbeddingsvectoren die eraan zijn gekoppeld. Door ‘stille’ fouten in een inbeddingsmodel-API blijven er vaak vectoren over die naar niets verwijzen. Hierdoor recupereren de agenten pure ruis.

De cultuuroorlog: ingenieurs versus bestuur

Implementeer een raamwerk zoals Ik geloof het is niet alleen een technische uitdaging. Het is cultureel.

Ingenieurs hebben over het algemeen een hekel aan vangrails. Zij beschouwen strikte kaders en gegeven contracten als bureaucratische hindernissen die de snelheid van implementatie vertragen. Bij de invoering van een op feiten gebaseerde grondwet stuiten leiders vaak op weerstand. Teams hebben het gevoel dat ze terugkeren naar het ‘watervaltijdperk’ van rigide databasebeheer.

Om succesvol te zijn, moet u de stimuleringsstructuur omkeren. Wij hebben het bewezen Ik geloof het was eigenlijk een versneller. Door de zuiverheid van de invoergegevens te garanderen, hebben we de weken geëlimineerd die datawetenschappers nodig hadden om modelhallucinaties te debuggen. We hebben data governance getransformeerd van een compliance-taak naar een ‘quality of service’-borging.

De les voor datagebonden beslissers

Als u een AI-strategie voor 2026 aan het ontwikkelen bent, stop dan met het kopen van nog meer GPU’s. Maak je geen zorgen meer over welk funderingsmodel deze week iets hoger op de ranglijst staat.

Begin met het controleren van uw datacontracten.

Een AI-agent is slechts zo autonoom als zijn gegevens betrouwbaar zijn. Zonder een dergelijke rigoureuze, geautomatiseerde dataconstitutie Ik geloof raamwerk, zullen je agenten uiteindelijk schurkenstaten worden. In de wereld van een SRE is een ongeautoriseerde agent veel erger dan een kapot dashboard. Het is een stille moordenaar van vertrouwen, omzet en klantervaring.

Manoj Yerrasani is een senior technologiemanager.

Welkom bij de VentureBeat-community!

In ons gastpostprogramma delen technische experts inzichten en bieden ze neutrale, niet-verdeelde inzichten over kunstmatige intelligentie, data-infrastructuur, cyberbeveiliging en andere geavanceerde technologieën die de toekomst van de onderneming vormgeven.

Lees meer uit ons gastenpostprogramma en bekijk ons richtlijnen als u geïnteresseerd bent om uw artikel bij te dragen!

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in