Home Nieuws De onderzoekers hebben elke geteste AI-verdediging doorbroken. Hier zijn 7 vragen die...

De onderzoekers hebben elke geteste AI-verdediging doorbroken. Hier zijn 7 vragen die u aan verkopers kunt stellen.

5
0
De onderzoekers hebben elke geteste AI-verdediging doorbroken. Hier zijn 7 vragen die u aan verkopers kunt stellen.

Beveiligingsteams kopen AI-verdedigingsmiddelen die niet werken. Onderzoekers van OpenAI, Anthropic en Google DeepMind publiceerden in oktober 2025 bevindingen die elke CISO halverwege de aanbesteding zouden moeten tegenhouden. Hun document “Aanvaller komt op de tweede plaats: krachtigere adaptieve aanvallen omzeilen de verdediging tegen LLM-jailbreaks en tijdige injecties“, testte 12 gepubliceerde AI-verdedigingen, waarvan de meeste claimen dat de slagingspercentages van aanvallen bijna nul zijn. Het onderzoeksteam behaalde bypass-percentages van meer dan 90% op de meeste verdedigingen. De implicaties voor bedrijven zijn duidelijk: de meeste AI-beveiligingsproducten worden getest tegen aanvallers die zich niet gedragen als echte aanvallers.

Het team testte de verdediging op basis van hints, training en filters onder adaptieve aanvalsomstandigheden. Alles stortte in. Gestresste verdedigingen hebben aanvalssuccespercentages van 95% tot 99% behaald in het geval van adaptieve aanvallen. Op training gebaseerde methoden presteerden niet beter: de bypass-percentages bereikten 96%-100%. De onderzoekers ontwierpen een rigoureuze methodologie om dergelijke claims aan een stresstest te onderwerpen. Hun aanpak omvatte 14 daders en een prijzenpot van $ 20.000 voor succesvolle aanvallen.

De onderzoekers testten twaalf AI-verdedigingen in vier categorieën. Ze zeiden allemaal dat de succespercentages van de aanvallen bijna nul waren. Ze werden allemaal omzeild met een snelheid van meer dan 90%. Bron: Aanvaller komt op de tweede plaats: sterkere adaptieve aanvallen omzeilen de verdediging tegen LLM-jailbreaks en snelle injecties, oktober 2025

Waarom WAF’s falen op het inferentieniveau

Webapplicatiefirewalls (WAF’s) zijn staatloos; AI-aanvallen niet. Dit onderscheid verklaart waarom traditionele veiligheidscontroles instorten in vergelijking met moderne snelle injectietechnieken.

Onderzoekers hebben bekende jailbreaktechnieken tegen deze verdedigingen gelanceerd. Opgroeien maakt gebruik van de gesprekscontext door een kwaadwillig verzoek op te splitsen in onschuldig ogende fragmenten, verspreid over maximaal tien gespreksbeurten, en een goede verstandhouding op te bouwen totdat het model uiteindelijk voldoet. Greedy Coördinaat Gradient (GCG) is een geautomatiseerde aanval die jailbreak-achtervoegsels genereert via op gradiënt gebaseerde optimalisatie. Dit zijn geen theoretische aanvallen. Het zijn gepubliceerde methodologieën met werkende code. Een staatloos filter detecteert er niets van.

Elke aanval maakte gebruik van een andere blinde vlek (contextverlies, automatisering of semantische verduistering), maar ze slaagden allemaal om dezelfde reden: de verdedigingen gingen statisch gedrag vertonen.

“Een onschuldige zin als ‘eerdere instructies negeren’ of een met Base64 gecodeerde payload kan voor een AI-toepassing net zo verwoestend zijn als een bufferoverflow voor traditionele software”, zegt Carter Rees, VP AI bij Reputation. “Het verschil is dat AI-aanvallen op een semantisch niveau opereren, wat op handtekeningen gebaseerde detectie niet kan analyseren.”

Waarom AI-implementatie de beveiliging overtreft

Het falen van de huidige verdedigingsmechanismen zou op zichzelf zorgwekkend zijn, maar de timing maakt het gevaarlijk.

Gartner voorspelt Tegen eind 2026 zal 40% van de bedrijfsapplicaties AI-agents integreren, tegen minder dan 5% in 2025. De implementatiecurve is verticaal. De veiligheidscurve is vlak.

Adam Meyers, senior vice-president van counter-adversary operations bij CrowdStrikekwantificeert het snelheidsverschil: “De snelste uitbraaktijd die we hebben waargenomen was 51 seconden. Deze tegenstanders worden dus sneller, en dat maakt het werk van de verdediger veel moeilijker.” DE CrowdStrike 2025 Wereldwijd bedreigingsrapport ontdekte dat 79% van de detecties vrij was van malware, waarbij tegenstanders praktische toetsenbordtechnieken gebruikten die de traditionele eindpuntverdediging volledig omzeilden.

In september 2025 brak Anthropic de eerste cyberoperatie af die werd gedocumenteerd en georkestreerd door kunstmatige intelligentie. Bij de aanval waren aanvallers betrokken duizenden verzoeken uitvoerenvaak veelvouden per seconde, waarbij de menselijke betrokkenheid daalt tot slechts 10-20% van de totale inspanning. Traditionele campagnes van drie tot zes maanden, gecomprimeerd in 24-48 uur. Volgens het rapport beschikte 97% van de organisaties die te maken kregen met AI-gerelateerde inbreuken niet over toegangscontroles IBM 2025-kosten van een datalekrapport

Meyers legt de verandering in de tactiek van aanvallers uit: “Dreigingsactoren hebben zich gerealiseerd dat pogingen om malware in moderne ondernemingen te introduceren een beetje hetzelfde is als proberen een luchthaven binnen te dringen met een waterfles; je zult waarschijnlijk worden tegengehouden door de beveiliging. In plaats van de ‘waterfles’ te introduceren, moesten ze een manier vinden om detectie te voorkomen. Een van de manieren waarop ze dit deden was door geen enkele malware te introduceren.”

Jerry Geisler, Executive Vice President en CISO van Walmartis van mening dat de kunstmatige intelligentie van agenten deze risico’s verergert. “De adoptie van AI introduceert geheel nieuwe veiligheidsbedreigingen die de traditionele controles omzeilen”, aldus Geisler VentureBeat eerder. “Deze risico’s omvatten data-exfiltratie, autonoom API-misbruik en geheime samenzwering tussen agenten, die de bedrijfsactiviteiten kunnen verstoren of wettelijke mandaten kunnen schenden.”

Vier aanvallerprofielen maken al gebruik van gaten in de AI-verdediging

Deze mislukkingen zijn niet hypothetisch. Ze worden al uitgebuit via vier verschillende aanvallerprofielen.

De auteurs van het artikel maken een kritische observatie dat verdedigingsmechanismen uiteindelijk verschijnen in trainingsgegevens op internetschaal. Beveiliging door onduidelijkheid biedt geen bescherming wanneer de modellen zelf leren hoe verdedigingen werken en zich ter plekke aanpassen.

Antropische tests tegen Adaptieve campagnes met 200 pogingen terwijl OpenAI weerstand tegen enkele pogingen meldt, waarbij wordt benadrukt hoe inconsistent de testnormen voor de industrie blijven. De auteurs van het onderzoeksartikel gebruikten beide benaderingen. Elke verdediging viel opnieuw.

Rees brengt vier categorieën in kaart die nu gebruik maken van het niveau van gevolgtrekking.

Externe tegenstanders het operationeel maken van gepubliceerd aanvalsonderzoek. Crescendo, GCG, ArtPrompt. Ze stemmen hun aanpak af op het specifieke ontwerp van elke verdediging, precies zoals de onderzoekers deden.

Kwaadwillige B2B-klanten misbruik maken van legitieme API-toegang om propriëtaire trainingsgegevens te reverse-engineeren of intellectueel eigendom te extraheren via gevolgtrekkingsaanvallen. Uit onderzoek is gebleken dat versterkende leeraanvallen vooral effectief zijn in black-box-scenario’s, waarbij slechts 32 sessies van elk vijf rondes nodig zijn.

Gecompromitteerde API-consumenten misbruik maken van vertrouwde inloggegevens om gevoelige resultaten te exfiltreren of downstream-systemen te vergiftigen door middel van gemanipuleerde reacties. Uit het artikel bleek dat uitvoerfiltering net zo slecht faalde als invoerfiltering. Aanvallen op basis van zoekopdrachten genereerden systematisch vijandige triggers die aan detectie ontsnapten, wat betekent dat tweerichtingscontroles geen extra bescherming boden toen aanvallers hun technieken aanpasten.

Nalatige medewerkers ze blijven de meest voorkomende vervoerder en de duurste. Uit het IBM 2025 Cost of a Data Breach-rapport blijkt dat schaduw-AI $670.000 aan de gemiddelde inbreukkosten heeft toegevoegd.

“De meest alomtegenwoordige dreiging bestaat vaak uit nalatige insiders”, zegt Rees. “Dit ‘schaduw-AI’-fenomeen houdt in dat werknemers gevoelige bedrijfseigen code in openbare LLM’s plakken om de efficiëntie te vergroten. Ze beschouwen beveiliging als wrijving. Samsung-ingenieurs leerden dit toen bedrijfseigen halfgeleidercode werd ingevoerd in ChatGPT, dat gebruikersinvoer vasthoudt voor modeltraining.”

Waarom staatloze detectie faalt bij conversationele aanvallen

Het onderzoek richt zich op specifieke architectonische eisen.

  • Normalisatie vóór semantische analyse om codering en verduistering te verslaan

  • Contextmonitoring tussen ploegendiensten om meerstapsaanvallen zoals Crescendo te detecteren

  • Bidirectionele filtering om gegevensexfiltratie via uitgangen te voorkomen

Jamie Norton, CISO bij de Australian Securities and Investments Commission en vicevoorzitter van het bestuur van ISACA, vat de bestuursuitdaging samen: “Als CISO’s willen we innovatie niet in de weg staan, maar we moeten er wel vangrails omheen zetten, zodat we niet de wildernis in rennen en onze gegevens verloren gaan”, aldus Norton. CSO online.

Twaalf AI-verdedigingssystemen claimden een aanval van bijna nul. De onderzoekers hebben ze allemaal kapot gemaakt.

Beveiligingsarchitectuur op inferentieniveau met bidirectionele filtering. Vijf binnenkomende vangrails verwerken de invoer vóór het model. Drie uitgaande controles verifiëren de reacties vóór levering. Bron: Carter Rees, vice-president van kunstmatige intelligentie, reputatie

Zeven vragen die u aan AI-beveiligingsleveranciers kunt stellen

Verkopers zullen beweren dat de slagingspercentages van aanvallen bijna nul zijn, maar uit onderzoek blijkt dat deze cijfers instorten onder adaptieve druk. Beveiligingsleiders hebben antwoorden op deze vragen nodig voordat een inkoopgesprek begint elk houdt rechtstreeks verband met een gedocumenteerde mislukking in onderzoek.

  1. Wat is uw bypass-percentage tegen adaptieve aanvallers? Niet tegen statische testsets. Tegen aanvallers die weten hoe de verdediging werkt en tijd hebben om te herhalen. Elke leverancier die bijna-nultarieven aanbiedt zonder een adaptieve testmethodologie, verkoopt een vals gevoel van veiligheid.

  2. Hoe detecteert uw oplossing multi-turn-aanvallen? Crescendo verspreidt kwaadaardige verzoeken over 10 beurten die goedaardig lijken als ze afzonderlijk worden genomen. Staatloze filters vangen er niets van op. Als de verkoper zegt dat hij staatloos is, is de discussie voorbij.

  3. Hoe ga je om met gecodeerde payloads? ArtPrompt verbergt kwaadaardige instructies in ASCII-kunst. Base64- en Unicode-verduistering presteren volledig beter dan op tekst gebaseerde filters. Normalisatie vóór analyse is tafelinzet. Alleen al het matchen van handtekeningen betekent dat het product blind is.

  4. Filtert uw oplossing zowel uitgangen als ingangen? Controles op basis van alleen invoer kunnen gegevensexfiltratie via modelreacties niet voorkomen. Vraag wat er gebeurt als beide lagen geconfronteerd worden met een gecoördineerde aanval.

  5. Hoe houd je de context bij tijdens gesprekswisselingen? Conversationele AI vereist stateful analyse. Als de leverancier de implementatiedetails niet kan uitleggen, heeft hij die niet.

  6. Hoe kunt u aanvallers testen die uw verdedigingsmechanisme begrijpen? Uit onderzoek blijkt dat de verdediging faalt wanneer aanvallers zich aanpassen aan het specifieke beveiligingsontwerp. Beveiliging door onduidelijkheid biedt geen bescherming op het niveau van gevolgtrekkingen.

  7. Wat is de gemiddelde tijd om de verdediging tegen nieuwe aanvalspatronen te updaten? De aanvalsmethoden zijn openbaar. Wekelijks verschijnen er nieuwe varianten. Een verdediging die zich niet sneller kan aanpassen dan de aanvallers, zal permanent achterop raken.

De conclusie

Onderzoek van OpenAI, Anthropic en Google DeepMind levert een ongemakkelijk oordeel op. De AI-verdedigingsmechanismen die tegenwoordig bedrijfsimplementaties beschermen, zijn ontworpen voor aanvallers die zich niet aanpassen. Echte aanvallers passen zich aan. Elk bedrijf dat LLM in productie draait, moet zijn huidige controles verifiëren aan de hand van de aanvalsmethoden die in dit onderzoek zijn gedocumenteerd. De distributiecurve is verticaal, maar de veiligheidscurve is vlak. Het is in dat gat dat de inbreuken zullen plaatsvinden.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in