- Microsoft lanceert een scanner om vergiftigde taalpatronen te detecteren vóór implementatie
- Backdoor LLM’s kunnen kwaadaardig gedrag verbergen totdat specifieke triggerzinnen verschijnen
- De scanner identificeert afwijkende aandachtspatronen die verband houden met verborgen achterdeurtriggers
Microsoft heeft de ontwikkeling aangekondigd van een nieuwe scanner die is ontworpen om verborgen achterdeurtjes te detecteren in grote taalmodellen die in bedrijfsomgevingen worden gebruikt.
Het bedrijf zegt dat zijn tool gericht is op het identificeren van gevallen van modelvergiftiging, een vorm van knoeien waarbij kwaadaardig gedrag tijdens de training rechtstreeks in de gewichten van het model wordt verwerkt.
Deze achterdeurtjes kunnen inactief blijven, waardoor getroffen LLM’s zich normaal kunnen gedragen totdat strikt gedefinieerde triggeromstandigheden ongewenste reacties veroorzaken.
Hoe de scanner vergiftigde modellen detecteert
“Naarmate de adoptie groeit, moet ook het vertrouwen in waarborgen toenemen: hoewel het testen van bekend gedrag relatief eenvoudig is, is de meest kritische uitdaging het bouwen van waarborgen tegen onbekende of evoluerende manipulaties”, aldus Microsoft in een blogpost.
Het AI-beveiligingsteam van het bedrijf merkt op dat de scanner vertrouwt op drie waarneembare signalen die wijzen op de aanwezigheid van vergiftigde patronen.
Het eerste signaal verschijnt wanneer een triggerzin in een prompt wordt opgenomen, waardoor de aandachtsmechanismen van het model de trigger isoleren en de willekeur van de uitvoer wordt verminderd.
Het tweede signaal betreft caching-gedrag, waarbij backdoor-modellen elementen van hun vergiftigingsgegevens verliezen, inclusief triggerzinnen, in plaats van te vertrouwen op algemene trainingsinformatie.
Het derde signaal laat zien dat een enkele achterdeur vaak kan worden geactiveerd door meerdere vage triggers die lijken op de oorspronkelijke vergiftigingsinput, maar niet precies overeenkomen.
“Onze aanpak is gebaseerd op twee belangrijke bevindingen”, zegt Microsoft in een begeleidend onderzoekspaper.
“Ten eerste hebben slapende agenten de neiging om vergiftigingsgegevens op te slaan, waardoor het mogelijk wordt om aan achterdeurvoorbeelden te ontsnappen met behulp van geheugenminingtechnieken. Ten tweede vertonen vergiftigde LLM’s onderscheidende patronen in hun outputverdelingen en aandachtsniveaus wanneer backdoor-triggers aanwezig zijn in de invoer.”
Microsoft legde uit dat de scanner opgeslagen inhoud uit een sjabloon haalt, deze analyseert om verdachte substrings te isoleren en vervolgens die substrings scoort met behulp van geformaliseerde verliesfuncties die zijn gekoppeld aan de drie geïdentificeerde signalen.
De methode produceert een gerangschikte lijst met triggerkandidaten zonder dat aanvullende training of voorkennis vereist is, en werkt op basis van algemene GPT-stijlpatronen.
De scanner heeft echter beperkingen omdat deze toegang tot modelbestanden vereist, wat betekent dat deze niet kan worden toegepast op bedrijfseigen systemen.
Het werkt ook het beste met op triggers gebaseerde achterdeurtjes die deterministische output produceren. Het bedrijf zei dat de tool niet moet worden behandeld als een one-size-fits-all oplossing.
“In tegenstelling tot traditionele systemen met voorspelbare paden creëren AI-systemen meerdere toegangspunten voor onveilige invoer”, zegt Yonatan Zunger, corporate vice-president en plaatsvervangend hoofd cybersecurity voor AI.
“Deze toegangspunten kunnen kwaadaardige inhoud bevatten of onverwacht gedrag veroorzaken.”
Volg TechRadar op Google Nieuws EN voeg ons toe als uw favoriete bron om nieuws, recensies en meningen van onze experts in uw feeds te krijgen. Klik dan zeker op de knop Volgen!
En jij kunt dat natuurlijk ook Volg TechRadar op TikTok voor nieuws, recensies, unboxing in videoformaat en ontvang regelmatig updates van ons WhatsApp ook.



