Home Nieuws Evaluatie van AI-agenten vervangt het labelen van gegevens als het kritieke pad...

Evaluatie van AI-agenten vervangt het labelen van gegevens als het kritieke pad naar productie-implementatie

6
0
Evaluatie van AI-agenten vervangt het labelen van gegevens als het kritieke pad naar productie-implementatie

Naarmate LLM’s zich bleven verbeteren, is er in de sector discussie ontstaan ​​over de voortdurende behoefte aan zelfstandige hulpmiddelen voor het labelen van gegevens, aangezien LLM’s steeds beter in staat zijn om met alle soorten gegevens te werken. Menselijk signaal, de belangrijkste commerciële leverancier achter het open source programma Label Studio heeft een andere mening. In plaats van minder vraag naar datalabels te zien, ziet het bedrijf er juist meer van.

Eerder deze maand nam HumanSignal Erud AI over en lanceerde zijn fysieke Frontier Data Labs voor nieuwe gegevensverzameling. Maar het creëren van data is slechts de helft van de uitdaging. Vandaag pakt het bedrijf het volgende aan: bewijzen dat AI-systemen die op die gegevens zijn getraind, echt werken. Nieuwe multimodale agentevaluatiemogelijkheden stellen bedrijven in staat complexe AI-agents te valideren die applicaties, afbeeldingen, code en video’s genereren.

“Als je je richt op bedrijfssegmenten, moeten alle AI-oplossingen die ze bouwen nog steeds worden geëvalueerd, wat gewoon een ander woord is voor het labelen van data door mensen en nog meer door experts”, vertelde Michael Malyuk, medeoprichter en CEO van HumanSignal, aan VentureBeat in een exclusief interview.

Het kruispunt van gegevenslabeling en AI-evaluatie van agenten

Het hebben van de juiste data is geweldig, maar het is niet het einddoel van een bedrijf. Het doel van moderne datalabeling is evaluatie.

Dit is een fundamentele verschuiving in wat bedrijven moeten valideren: niet of hun model een afbeelding correct classificeert, maar of hun AI-agent goede beslissingen heeft genomen bij een complexe, uit meerdere stappen bestaande taak waarbij redeneren, gereedschapsgebruik en het genereren van code een rol spelen.

Als evaluatie eenvoudigweg het labelen van gegevens voor AI-resultaten betekent, betekent de overstap van modellen naar agenten een radicale verandering in wat er moet worden gelabeld. Waar bij traditionele datalabeling het markeren van afbeeldingen of het categoriseren van tekst betrokken kan zijn, vereist de evaluatie van agenten het beoordelen van redeneerketens in meerdere stappen, beslissingen over gereedschapsselectie en multimodale uitkomsten, allemaal binnen één enkele interactie.

“Er is een zeer sterke behoefte, niet langer alleen aan mensen in het circuit, maar ook aan experts in het circuit”, zei Malyuk. Hij noemde toepassingen met een hoog risico, zoals de gezondheidszorg en juridisch advies, als voorbeelden waarbij de kosten van fouten onbetaalbaar blijven.

Het verband tussen datalabeling en AI-evaluatie gaat dieper dan de semantiek. Beide activiteiten vereisen dezelfde fundamentele vaardigheden:

  • Gestructureerde interfaces voor menselijk oordeel: Of reviewers nu afbeeldingen labelen voor trainingsgegevens of evalueren of een agent meerdere tools correct heeft georkestreerd, ze hebben speciaal ontworpen interfaces nodig om hun beoordelingen systematisch vast te leggen.

  • Consensus van meerdere recensenten: Voor trainingsdatasets van hoge kwaliteit zijn meerdere labelers nodig om meningsverschillen te verzoenen. Evaluatie van hoge kwaliteit vereist hetzelfde: meerdere experts die de resultaten evalueren en meningsverschillen oplossen.

  • Expertise op grote schaal: Voor het trainen van moderne AI-systemen zijn vakexperts nodig, en niet alleen maar crowdworkers die op knoppen klikken. Het evalueren van productie-AI-outputs vereist dezelfde diepgaande expertise.

  • Feedback heeft invloed op kunstmatige-intelligentiesystemen: Gelabelde trainingsgegevens stimuleren de ontwikkeling van modellen. Evaluatiegegevens zorgen voor voortdurende verbetering, afstemming en benchmarking.

Evaluatie van het volledige agenttracering

De uitdaging bij het evalueren van agenten is niet alleen de hoeveelheid gegevens, maar ook de complexiteit van wat moet worden geëvalueerd. Agents produceren geen eenvoudige tekstuitvoer; ze genereren redeneerketens, maken gereedschapsselecties en produceren artefacten in meerdere modaliteiten.

Nieuwe functies in de validatievereisten voor adresagenten van Label Studio Enterprise:

  • Multimode traceerinspectie: Het platform biedt uniforme interfaces voor het beoordelen van de volledige uitvoeringssporen van agenten: redeneerstappen, toolaanroepen en output over verschillende modaliteiten heen. Dit pakt een veelvoorkomend pijnpunt aan waarbij teams afzonderlijke logstreams moeten analyseren.

  • Interactieve beoordeling in meerdere ronden: Beoordelaars evalueren gespreksstromen waarbij agenten de status over meerdere beurten behouden, waarbij contextmonitoring en intentieinterpretatie gedurende de hele interactiereeks worden gevalideerd.

  • Agent Arena: Vergelijkend evaluatiekader voor het testen van verschillende agentconfiguraties (basismodellen, promptmodellen, guardrail-implementaties) onder identieke omstandigheden.

  • Flexibele beoordelingsrubrieken: Teams definiëren domeinspecifieke evaluatiecriteria programmatisch in plaats van vooraf gedefinieerde statistieken te gebruiken, ter ondersteuning van vereisten zoals nauwkeurigheid van begrip, adequaatheid van respons of kwaliteit van output voor specifieke gebruiksscenario’s

Agentevaluatie is het nieuwe strijdtoneel voor leveranciers van datalabels

HumanSignal is niet de enige die erkent dat agentevaluatie de volgende fase is van de datalabelmarkt. Concurrenten maken soortgelijke keuzes terwijl de industrie reageert op zowel technologische veranderingen als marktverstoringen.

Labeldoos lanceerde in augustus 2025 zijn Evaluation Studio, gericht op rubriekgebaseerde evaluaties. Net als HumanSignal breidt het bedrijf zich verder uit dan de traditionele datalabeling en richt het zich op productie-AI-validatie.

Het algehele concurrentielandschap voor datalabeling veranderde dramatisch in juni, toen Meta $14,3 miljard investeerde voor een belang van 49% in Scale AI, de voormalige marktleider. De deal veroorzaakte een uittocht van enkele van de grootste klanten van Scale. HumanSignal profiteerde van de verstoring, waarbij Malyuk zei dat zijn bedrijf afgelopen kwartaal meerdere concurrerende deals kon binnenhalen. Malyuk noemt platformvolwassenheid, configuratieflexibiliteit en klantenondersteuning als onderscheidende factoren, hoewel concurrenten soortgelijke beweringen doen.

Wat dit betekent voor AI-ontwikkelaars

Voor bedrijven die productie-AI-systemen bouwen, heeft de convergentie van de datalabel- en evaluatie-infrastructuur verschillende strategische implicaties:

Begin met de fundamentele waarheid. Investeren in het creëren van hoogwaardige gelabelde datasets met meerdere deskundige reviewers die meningsverschillen oplossen, betaalt zich uit gedurende de gehele levenscyclus van de AI-ontwikkeling, van initiële training tot voortdurende productieverbetering.

Waarneembaarheid blijkt noodzakelijk maar onvoldoende. Hoewel het monitoren van wat AI-systemen doen belangrijk blijft, meten observatie-instrumenten de activiteit en niet de kwaliteit. Bedrijven hebben een speciale evaluatie-infrastructuur nodig om resultaten te evalueren en verbeteringen te stimuleren. Dit zijn verschillende problemen die verschillende vaardigheden vereisen.

De trainingsdata-infrastructuur dient tevens als evaluatie-infrastructuur. Organisaties die hebben geïnvesteerd in datalabelplatforms voor modelontwikkeling kunnen dezelfde infrastructuur uitbreiden naar productie-evaluatie. Dit zijn geen afzonderlijke problemen waarvoor afzonderlijke tools nodig zijn; het is dezelfde fundamentele workflow die in verschillende fasen van de levenscyclus wordt toegepast.

Voor bedrijven die AI op grote schaal implementeren, is het knelpunt verschoven van het bouwen van modellen naar het valideren ervan. Organisaties die deze verschuiving vroegtijdig onderkennen, profiteren van voordelen bij AI-systemen voor de scheepvaartproductie.

De kritische vraag voor bedrijven is geëvolueerd: niet of AI-systemen geavanceerd genoeg zijn, maar of organisaties systematisch kunnen aantonen dat ze voldoen aan de kwaliteitseisen van specifieke risicovolle domeinen.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in