Home Nieuws OpenAI geeft toe dat tijdige injectie een blijvende factor is, omdat bedrijven...

OpenAI geeft toe dat tijdige injectie een blijvende factor is, omdat bedrijven achterlopen op het gebied van de verdediging

3
0
OpenAI geeft toe dat tijdige injectie een blijvende factor is, omdat bedrijven achterlopen op het gebied van de verdediging

Het is verfrissend als een toonaangevend AI-bedrijf het voor de hand liggende zegt. In de gedetailleerd bericht Bij het verharden van ChatGPT Atlas tegen snelle injectie erkende OpenAI wat beveiligingsprofessionals al jaren weten: “Het is onwaarschijnlijk dat snelle injectie, net als oplichting en social engineering op internet, ooit volledig ‘opgelost’ zal worden.”

Wat nieuw is, is niet het risico, maar de toelating. OpenAI, het bedrijf dat een van de meest gebruikte AI-agenten distribueert, heeft publiekelijk bevestigd dat de agentmodus “het oppervlak van veiligheidsbedreigingen vergroot” en dat zelfs geavanceerde verdedigingsmechanismen geen deterministische garanties kunnen bieden. Voor bedrijven die al AI in de productie gebruiken, is dit geen openbaring. Het is een bevestiging en een signaal dat de kloof tussen de manier waarop AI wordt gebruikt en hoe deze wordt verdedigd niet langer theoretisch is.

Niets van dit alles verbaast iemand die AI in de productie gebruikt. Wat veiligheidsleiders zorgen baart, is de kloof tussen deze realiteit en de paraatheid van het bedrijfsleven. Uit een VentureBeat-enquête onder 100 technische besluitvormers bleek dat 34,7% van de organisaties specifieke verdedigingsmaatregelen heeft geïmplementeerd voor snelle injectie. De overige 65,3% heeft deze tools niet aangeschaft of kan dit niet bevestigen.

De dreiging is nu officieel permanent. De meeste bedrijven zijn nog niet toegerust om het te detecteren, laat staan ​​om het te stoppen.

De op LLM gebaseerde geautomatiseerde aanvaller van OpenAI ontdekte gaten die rode teams misten

De defensieve architectuur van OpenAI verdient onderzoek omdat deze de huidige grens vertegenwoordigt van wat mogelijk is. De meeste, zo niet alle, commerciële ondernemingen zullen dit niet kunnen repliceren, wat de vooruitgang die deze week werd gedeeld nog relevanter maakt voor veiligheidsleiders die AI-apps en -platforms in ontwikkeling beschermen.

Het bedrijf heeft een gebouwd “LLM-gebaseerde geautomatiseerde aanvaller” end-to-end getraind met versterkend leren om snelle injectiekwetsbaarheden te ontdekken. In tegenstelling tot traditionele red-teaming die eenvoudige fouten aan het licht brengt, kan het systeem van OpenAI “een agent begeleiden bij het uitvoeren van geavanceerde kwaadwillige workflows met een lange horizon die over tientallen (of zelfs honderden) stappen plaatsvinden” door specifieke uitvoerstrings te ontlokken of onbedoelde tooloproepen in één enkele stap te activeren.

Hier is hoe het werkt. De geautomatiseerde aanvaller stelt een kandidaat-injectie voor en stuurt deze naar een externe simulator. De simulator voert een contrafeitelijke implementatie uit van hoe de beoogde slachtofferagent zich zou gedragen, retourneert een volledig redenerings- en actiespoor, en de aanvaller herhaalt dit. OpenAI zegt dat het aanvalspatronen heeft ontdekt die “niet voorkwamen in onze human red teaming-campagne of externe rapportage.”

Een door het systeem ontdekte aanval laat zien wat er op het spel staat. Een kwaadaardige e-mail die in de inbox van een gebruiker werd geplaatst, bevatte verborgen instructies. Toen de Atlas-agent de berichten scande om een ​​afwezigheidsreactie op te stellen, volgde hij in plaats daarvan het ingevoerde verzoek en stelde hij een ontslagbrief op aan de CEO van de gebruiker. Het verzuim werd nooit opgeschreven. De agent heeft ontslag genomen namens de gebruiker.

OpenAI reageerde door “een nieuw, op tegenstanders getraind model te sturen en de omringende bescherming te versterken.” De defensieve stack van het bedrijf combineert nu geautomatiseerde aanvalsdetectie, training van tegenstanders tegen nieuw ontdekte aanvallen en bescherming op systeemniveau buiten het model zelf.

In tegenstelling tot hoe zijdelings en voorzichtig AI-bedrijven kunnen zijn over hun bevindingen van het rode team, was OpenAI direct over de beperkingen: “De aard van snelle injectie maakt deterministische veiligheidsgaranties een uitdaging.” Met andere woorden: dit betekent dat “zelfs met deze infrastructuur ze de verdediging niet kunnen garanderen.”

Deze erkenning komt op het moment dat bedrijven overstappen van co-piloten naar autonome agenten, net op het moment dat tijdige injectie niet langer een theoretisch risico is en operationeel wordt.

OpenAI definieert wat bedrijven kunnen doen om veilig te blijven

OpenAI heeft een aanzienlijke verantwoordelijkheid teruggegeven aan bedrijven en de gebruikers die zij ondersteunen. Het is een al lang bestaand patroon dat beveiligingsteams moeten herkennen modellen voor gedeelde verantwoordelijkheid in de cloud.

Het bedrijf raadt aan expliciet de verbroken modus te gebruiken wanneer de agent geen toegang nodig heeft tot geverifieerde sites. We raden u aan bevestigingsverzoeken zorgvuldig te beoordelen voordat de agent vervolgacties onderneemt, zoals het verzenden van e-mails of het voltooien van aankopen.

En hij waarschuwt voor algemene instructies. “Vermijd al te algemene verzoeken zoals ‘bekijk mijn e-mails en onderneem de nodige actie’”, schreef OpenAI. “De grote speelruimte maakt het gemakkelijker voor verborgen of kwaadaardige inhoud om de agent te beïnvloeden, zelfs als er veiligheidsmaatregelen zijn getroffen.”

De implicaties zijn duidelijk met betrekking tot de autonomie van agenten en de potentiële bedreigingen ervan. Hoe meer onafhankelijkheid je een AI-agent geeft, hoe groter het aanvalsoppervlak dat je creëert. OpenAI bouwt verdedigingsmechanismen, maar bedrijven en de gebruikers die zij beschermen hebben de verantwoordelijkheid om de blootstelling te beperken.

Waar bedrijven vandaag de dag zijn

Om te begrijpen hoe voorbereid bedrijven eigenlijk zijn, interviewde VentureBeat honderd technische besluitvormers van bedrijven van elke omvang, van start-ups tot ondernemingen met meer dan 10.000 werknemers. We stelden een eenvoudige vraag: heeft uw organisatie speciale oplossingen aangeschaft en geïmplementeerd voor tijdige filtering en detectie van misbruik?

Slechts 34,7% zei ja. De overige 65,3% zei nee of kon de status van hun organisatie niet bevestigen.

Deze verdeling is belangrijk. Dit toont aan dat tijdige injectieverdediging niet langer een opkomend concept is; het is een verzendproductcategorie met echte bedrijfsacceptatie. Maar het laat ook zien hoe vroeg de markt nog is. Bijna tweederde van de organisaties die tegenwoordig AI-systemen gebruiken, werkt zonder specifieke veiligheidsmaatregelen, maar vertrouwt in plaats daarvan op vooraf gedefinieerde sjablonen voor veiligheidsmaatregelen, intern beleid of gebruikerstraining.

Bij de meerderheid van de ondervraagde organisaties zonder specifieke verdedigingsmechanismen was onzekerheid de overheersende reactie met betrekking tot toekomstige aankopen. Toen hen werd gevraagd naar toekomstige aankopen, waren de meeste respondenten niet in staat een duidelijk tijdschema of beslissingspad te formuleren. Het meest veelzeggende teken was niet het gebrek aan beschikbare leveranciers of oplossingen, maar de besluiteloosheid. In veel gevallen lijkt het erop dat organisaties AI sneller implementeren dan dat ze formaliseren hoe ze deze moeten beschermen.

De gegevens kunnen niet verklaren waarom de adoptie wordt uitgesteld, vanwege budgettaire beperkingen, concurrerende prioriteiten, onvolwassen implementaties of de overtuiging dat de bestaande waarborgen voldoende zijn. Maar één ding is duidelijk: de adoptie van AI overtreft de gereedheid voor AI-beveiliging.

Het probleem van asymmetrie

De defensieve aanpak van OpenAI maakt gebruik van voordelen die de meeste bedrijven niet hebben. Het bedrijf beschikt over white-box-toegang tot zijn modellen, diepgaande kennis van zijn verdedigingsstack en de rekenkracht om continue aanvalssimulaties uit te voeren. De geautomatiseerde aanvaller krijgt “bevoorrechte toegang tot de… redeneersporen van de verdediger”, waardoor hij “een asymmetrisch voordeel krijgt, waardoor de kans groter wordt dat hij externe tegenstanders te slim af kan zijn.”

Bedrijven die AI-agenten gebruiken, zijn aanzienlijk in het nadeel. Terwijl OpenAI gebruik maakt van white-box-toegang en continue simulaties, werken de meeste organisaties met black-box-modellen en beperkt inzicht in de redeneerprocessen van hun agenten. Slechts weinigen beschikken over de middelen voor een geautomatiseerde red-teaming-infrastructuur. Deze asymmetrie zorgt voor een verergerd probleem: naarmate organisaties de inzet van AI uitbreiden, blijven hun defensieve capaciteiten statisch, wachtend op herstel van de aanbodcycli.

Leveranciers van kant-en-klare verdedigingssystemen van derden, waaronder Robust Intelligence, Lakera, Prompt Security (nu onderdeel van SentinelOne) en anderen proberen deze leemte op te vullen. Maar de adoptie blijft laag. 65,3% van de organisaties zonder speciale verdedigingsmechanismen werkt met ingebouwde beveiligingsmaatregelen die zijn opgenomen in door de leverancier geleverde sjablonen, evenals in beleidsdocumenten en bewustmakingstrainingen.

De post van OpenAI maakt duidelijk dat zelfs geavanceerde verdedigingsmechanismen geen deterministische garanties kunnen bieden.

Wat moeten CISO’s hiervan meenemen?

De aankondiging van OpenAI verandert niets aan het dreigingsmodel; valideert het. Onmiddellijke injectie is echt, verfijnd en permanent. Het bedrijf dat de meest geavanceerde AI-agent levert, heeft zojuist tegen veiligheidsleiders gezegd dat ze deze dreiging voor onbepaalde tijd kunnen verwachten.

Dit heeft drie praktische implicaties:

  • Hoe groter de autonomie van de agent, hoe groter het aanvalsoppervlak. De richtlijnen van OpenAI om algemene verzoeken te vermijden en de gelogde toegang te beperken, gelden ook buiten Atlas. Elke AI-agent met een brede speelruimte en toegang tot gevoelige systemen creëert dezelfde blootstelling. ALS Forrester waargenomen tijdens de jaarlijkse veiligheidstop eerder dit jaar, Generatieve AI is een agent van chaos. Deze voorspelling bleek vooruitziend op basis van OpenAI-testresultaten die deze week zijn vrijgegeven.

  • Detectie is belangrijker dan preventie. Als deterministische verdediging niet mogelijk is, wordt zichtbaarheid van cruciaal belang. Organisaties moeten weten wanneer agenten zich onverwacht gedragen, en niet alleen maar hopen dat de beveiliging goed is.

  • De aankoop/bouwbeslissing is gaande. OpenAI investeert zwaar in geautomatiseerde red-teaming en vijandige training. De meeste bedrijven kunnen het niet repliceren. De vraag is of tools van derden deze leemte kunnen opvullen, en of de 65,3% zonder specifieke verdedigingsmechanismen deze zullen overnemen voordat een incident het probleem oplegt.

Tot slot

OpenAI stelde wat beveiligingsprofessionals al wisten: tijdige injectie is een voortdurende bedreiging. Het bedrijf dat agent AI het hardst pusht, bevestigde deze week dat “de agentmodus … het oppervlak van veiligheidsbedreigingen vergroot” en dat defensie voortdurende investeringen vereist, en geen eenmalige oplossing.

34,7% van de organisaties die speciale verdedigingsmiddelen gebruiken, zijn niet immuun, maar kunnen aanvallen wel detecteren wanneer deze zich voordoen. De meeste organisaties vertrouwen daarentegen op vooraf gedefinieerde waarborgen en beleidsdocumenten in plaats van op gerichte bescherming. Het onderzoek van OpenAI maakt duidelijk dat zelfs geavanceerde verdedigingsmechanismen geen deterministische garanties kunnen bieden, wat het risico van een dergelijke aanpak onderstreept.

De aankondiging van OpenAI deze week benadrukt wat de gegevens al laten zien: de kloof tussen AI-inzet en AI-bescherming is reëel en wordt steeds groter. Wachten op deterministische garanties is niet langer een strategie. Veiligheidsleiders moeten dienovereenkomstig handelen.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in