Home Nieuws Desinformatiesites hanteren een opendeurbeleid voor AI-scrapers

Desinformatiesites hanteren een opendeurbeleid voor AI-scrapers

6
0
Desinformatiesites hanteren een opendeurbeleid voor AI-scrapers

NAAR DE modellen hebben een vraatzuchtige honger naar data. Het is een uitdaging om op de hoogte te blijven van de informatie die aan gebruikers moet worden gepresenteerd. En dus lijken bedrijven die voorop lopen op het gebied van kunstmatige intelligentie een antwoord te hebben gevonden: voortdurend het internet doorzoeken.

Maar steeds vaker willen website-eigenaren AI-bedrijven niet de vrije loop laten. Dus nemen ze de controle terug door de crawlers hard aan te pakken.

Om dit te doen, gebruiken ze robots.txt, een bestand op veel websites dat fungeert als leidraad voor hoe webcrawlers wel of geen toegang kunnen krijgen tot hun inhoud. Oorspronkelijk bedoeld als een signaal aan zoekmachines over de vraag of een website al dan niet wil dat zijn pagina’s worden geïndexeerd, is het in het tijdperk van de kunstmatige intelligentie steeds belangrijker geworden, omdat sommige bedrijven de instructies zouden negeren.
In een nieuwe studieNicolas Steinacker-Olsztyn, een onderzoeker aan de Universiteit van Saarland, en zijn collega’s analyseerden hoe verschillende websites robots.txt behandelden en of er een verschil was tussen sites die als betrouwbaar werden beoordeeld en sites die onbetrouwbaar waren, vooral wat betreft het al dan niet toestaan ​​van crawlen. Voor veel AI-bedrijven is het een soort van ‘doe het nu en vraag later om vergeving”, zegt Steinacker-Olsztyn.
In het onderzoek controleerden ze de reacties van meer dan 4.000 sites op 63 verschillende AI-gerelateerde user agents, waaronder GPTBot, ClaudeBot, CCBot en Google-Extended, die allemaal door AI-bedrijven worden gebruikt in hun pogingen om informatie te absorberen.

De websites werden vervolgens verdeeld tussen betrouwbare nieuwskanalen en desinformatiesites, met behulp van beoordelingen die waren ontworpen door Media Bias/Fact Check, een organisatie die nieuwsbronnen rangschikt op basis van hun geloofwaardigheid en de feitelijkheid van hun berichtgeving.

Van alle 4.000 geëvalueerde sites blokkeerde ongeveer 60% van de als betrouwbaar beschouwde nieuwssites ten minste één AI-crawler de toegang tot hun informatie; van de desinformatiesites deed slechts 9,1% dit.

Een gemiddelde betrouwbare site blokkeert meer dan 15 verschillende AI-agenten via zijn robots.txt-bestand. Desinformatiesites sluiten daarentegen crawlers helemaal niet uit.

“Het allerbelangrijkste is dat gerenommeerde nieuwswebsites goed op de hoogte blijven van het evoluerende ecosysteem met betrekking tot deze prominente AI-ontwikkelaars en hun praktijken”, zegt Steinacker-Olsztyn.

In de loop van de tijd wordt de kloof tussen degenen die bereid zijn bots hun sites te laten crawlen en degenen die dat niet doen, steeds groter. Van september 2023 tot mei 2025 is het percentage platforms dat crawlers blokkeert gestegen van 23% naar 60%, terwijl het percentage sites dat verkeerde informatie verspreidde volgens het onderzoek stabiel bleef.

Het resultaat, zegt Steinacker-Olsztyn, is dat minder betrouwbare inhoud wordt opgehaald en vervolgens wordt verwijderd door kunstmatige-intelligentiemodellen die routinematig door honderden miljoenen mensen worden gebruikt. “Deze modellen worden ook steeds vaker eenvoudigweg gebruikt voor het ophalen van informatie, ter vervanging van traditioneel gebruikte opties zoals zoekmachines of Google”, voegt Steinacker-Olsztyn toe.

Het legitieme gegevensraadsel

Om ervoor te zorgen dat AI-modellen op de hoogte blijven van de actualiteit, worden ze getraind op vertrouwde sites, en dat is precies wat deze sites niet willen.

De oorlog over auteursrecht en toegang tot trainingsgegevens tussen AI-bedrijven en nieuwssites komt steeds vaker in de rechtbank terecht:DE van de New York Times heeft bijvoorbeeld een rechtszaak aangespannen tegen OpenAI, de makers van ChatGPT vorige week.

Dergelijke rechtszaken zijn ingegeven door beschuldigingen dat AI-bedrijven illegaal gegevens van nieuwswebsites verzamelen om te dienen als regelmatig bijgewerkte, op waarheid gebaseerde trainingsgegevens voor de modellen die hun AI-chatbots aandrijven. Naast het najagen van hun eigen controverses blokkeren gerenommeerde nieuwswebsites AI-crawlers.

Dit is goed voor hun activiteiten en hun rechten. Maar Steinacker-Olsztyn maakt zich zorgen over de bredere impact. “Als betrouwbare nieuwsberichten deze informatie in toenemende mate onbeschikbaar maken, dan geeft dat reden om aan te nemen dat dit de betrouwbaarheid van deze modellen kan aantasten”, legt hij uit. “In de toekomst zal dit het percentage legitieme gegevens waartoe zij toegang hebben veranderen.”

In essentie: het maakt voor een AI-crawler niet uit of hij kijkt De New York Times of een desinformatiewebsite in Hoboken. Het zijn allebei trainingsgegevens en of de ene gemakkelijker toegankelijk is dan de andere, dat is het enige dat telt.

Niet iedereen is zo zeker van de negatieve gevolgen van crawlerblokkering.

Veel plezier Simone, A onderzoeker op het gebied van kunstmatige intelligentie en digitaal nieuws aan het Reuters Institute for the Study of Journalism aan de Universiteit van Oxford, zegt dat hij niet verrast was toen hij hoorde dat sites die zich bezighouden met desinformatie graag gecrawld zouden willen worden, “terwijl traditionele uitgevers op dit moment gestimuleerd worden om dergelijk schrapen te voorkomen.” Sommige van deze traditionele uitgevers, zo voegt hij eraan toe, staan ​​nog steeds toe dat er ‘om verschillende redenen’ iets wordt geschrapt.

Simon waarschuwt ook dat het feit dat desinformatiesites de sluizen waarschijnlijk openzetten voor AI-crawlers, niet noodzakelijkerwijs betekent dat ze de informatieruimte zo vervuilen als we zouden kunnen vrezen.

“AI-ontwikkelaars filteren en evalueren gegevens op verschillende punten in het systeemtrainingsproces en op het moment van gevolgtrekking”, zegt hij. “Hopelijk zullen AI-ontwikkelaars, op dezelfde manier waarmee de auteurs onbetrouwbare websites konden identificeren, dergelijke gegevens kunnen filteren.”

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in