Home Nieuws Wanneer nauwkeurige AI nog steeds gevaarlijk onvolledig is

Wanneer nauwkeurige AI nog steeds gevaarlijk onvolledig is

3
0
Wanneer nauwkeurige AI nog steeds gevaarlijk onvolledig is

Bij het creëren, trainen en inzetten van AI geven bedrijven doorgaans prioriteit aan nauwkeurigheid. En dit is zonder twijfel belangrijk; Maar in zeer complexe en genuanceerde sectoren zoals de juridische sector is precisie alleen niet voldoende. Hogere inzet betekent hogere normen: modelresultaten moeten worden geëvalueerd in termen van relevantie, autoriteit, citatienauwkeurigheid en hallucinatiepercentages.

Om deze enorme taak aan te pakken, LexisNexis is verder geëvolueerd dan de standaard herstel-augmented generatie (RAG) om RAG’s en agentgrafieken in kaart te brengen; het heeft ook “planner” en “reflector” AI-agenten gecreëerd die verzoeken analyseren en hun resultaten bekritiseren.

“Er bestaat niet zoiets als ‘perfecte AI’, omdat je nooit 100% nauwkeurigheid of 100% relevantie krijgt, vooral niet op complexe terreinen waar veel op het spel staat, zoals de juridische sector”, erkent Min Chen, senior vice-president en hoofd van AI bij LexisNexis, in een nieuwe VentureBeat Beyond the Pilot-podcast.

Het doel is om deze onzekerheid zoveel mogelijk te beheersen en te vertalen naar consistente waarde voor de klant. “Uiteindelijk is voor ons de kwaliteit van het product het belangrijkst Resultaat van kunstmatige intelligentieen dit is een voortdurende reis van experimenteren, iteratie en verbetering”, zei Chen.

Krijg “volledige” antwoorden op veelzijdige vragen

Om de modellen en hun resultaten te evalueren, heeft het team van Chen meer dan een half dozijn ‘submetrieken’ opgesteld om ‘bruikbaarheid’ te meten op basis van verschillende factoren – autoriteit, nauwkeurigheid van citaties, hallucinatiepercentages – en ook ‘volledigheid’. Deze specifieke maatstaf is ontworpen om te evalueren of een antwoord op de AI-generatie alle aspecten van de juridische vragen van gebruikers volledig heeft beantwoord.

“Het is dus niet alleen een kwestie van relevantie,” zei Chen. “Volledigheid spreekt rechtstreeks van juridische betrouwbaarheid.”

Een gebruiker kan bijvoorbeeld een vraag stellen die een antwoord vereist, waarbij vijf verschillende juridische overwegingen aan de orde komen. Gen AI kan een antwoord bieden dat drie van deze problemen zorgvuldig aanpakt. Maar hoewel relevant, is dit gedeeltelijke antwoord onvolledig en, vanuit het perspectief van de gebruiker, onvoldoende. Dit kan misleidend zijn en reële risico’s met zich meebrengen.

Of sommige citaten kunnen dat bijvoorbeeld zijn semantisch relevant op de vraag van een gebruiker, maar ze kunnen argumenten of moties aanduiden die uiteindelijk door de rechtbank zijn afgewezen. “Onze advocaten zullen hen als niet-dagvaarbaar beschouwen,” zei Chen. “Als ze niet citeerbaar zijn, zijn ze niet nuttig.”

Ga verder dan de standaard RAG

LexisNexis lanceerde in 2023 zijn vlaggenschip-generatie AI-product, Lexis+ AI, een legale AI-tool voor opstellen, onderzoek en analyse. Het was gebouwd op een standaard RAG-framework en hybride vectorzoekopdrachten die antwoorden baseren op de vertrouwde en gezaghebbende kennisbank van LexisNexis.

Het bedrijf bracht vervolgens in 2024 zijn persoonlijke juridische assistent, Protégé, op de markt. Deze agent integreert een kennisgrafieklaag bovenop het zoeken naar vectoren om een ​​‘sleutelbeperking’ van puur semantisch zoeken te overwinnen. Hoewel het “zeer effectief” is bij het ophalen van contextueel relevante inhoud, garandeert semantisch zoeken “niet altijd gezaghebbende antwoorden”, zei Chen.

De initiële semantische zoekopdracht retourneert wat zij als relevante inhoud beschouwt; Het team van Chen analyseert deze rendementen vervolgens via een point-of-law-grafiek om de meest gezaghebbende documenten verder te filteren.

Het team van Chen gaat verder en ontwikkelt grafieken voor agenten en versnelt de automatisering, zodat agenten complexe taken in meerdere fasen kunnen plannen en uitvoeren.

Zelfsturende ‘planningagenten’ voor zoekvragen en antwoorden splitsen bijvoorbeeld gebruikersvragen op in meerdere subvragen. Menselijke gebruikers kunnen ze bekijken en bewerken om de uiteindelijke antwoorden verder te verfijnen en te personaliseren. Ondertussen zorgt een “reflectieagent” voor het opstellen van transactiedocumenten. Het kan “automatisch en dynamisch” zijn oorspronkelijke concept bekritiseren, die feedback vervolgens opnemen en in realtime verfijnen.

Chen zei echter dat dit niet is om mensen uit te sluiten van de mix; menselijke experts en kunstmatige intelligentie-agenten kunnen “samen leren, redeneren en groeien”. “Ik zie de toekomst (als) een diepere samenwerking tussen mensen en kunstmatige intelligentie.”

Bekijk de podcast voor meer informatie over:

  • Hoe LexisNexis is verworven Handlanger hielp AI-modellen te gronden met eigen LexisNexis-gegevens en klantgegevens;

  • Het verschil tussen deterministische en niet-deterministische evaluatie;

  • Waarom bedrijven KPI’s en definities van succes moeten identificeren voordat ze aan experimenten beginnen;

  • Het belang van het focussen op een “driehoek” van sleutelcomponenten: kosten, snelheid en kwaliteit.

Je kunt ook luisteren en abonneren Verder dan de piloot OP Spotify, Appel of waar u uw podcasts ook vandaan haalt.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in