Home Nieuws OpenAI zegt dat AI-browsers altijd kwetsbaar kunnen zijn voor tijdige injectie-aanvallen

OpenAI zegt dat AI-browsers altijd kwetsbaar kunnen zijn voor tijdige injectie-aanvallen

3
0
OpenAI zegt dat AI-browsers altijd kwetsbaar kunnen zijn voor tijdige injectie-aanvallen

Zelfs terwijl OpenAI eraan werkt om het te versterken Atlas AI-browser tegen cyberaanvallen, geeft het bedrijf toe tijdige injectieseen soort aanval waarbij AI-agenten worden gemanipuleerd om kwaadaardige instructies op te volgen die vaak verborgen zijn in webpagina’s of e-mails, is een risico dat niet snel zal verdwijnen. Dit roept vragen op over hoe veilig AI-agenten op het open web kunnen opereren.

“Het is onwaarschijnlijk dat tijdige injectie, net zoals oplichting en social engineering op internet, ooit volledig ‘opgelost’ zal worden”, schreef OpenAI maandag. blogartikel waarin wordt beschreven hoe het bedrijf het pantser van Atlas versterkt om de onophoudelijke aanvallen te bestrijden. Het bedrijf gaf toe dat de ‘agentmodus’ in ChatGPT Atlas ‘het oppervlak van beveiligingsbedreigingen vergroot’.

OpenAI lanceerde zijn ChatGPT Atlas-browser in oktober en beveiligingsonderzoekers publiceerden snel hun demo’s, wat aantoonde dat het mogelijk was om een ​​paar woorden in Google Documenten te schrijven die het gedrag van de onderliggende browser konden veranderen. Diezelfde dag, moedig een blogpost gepubliceerd waarin wordt uitgelegd dat indirecte tijdige injectie een systematische uitdaging is voor door AI aangedreven browsers De komeet van verwarring.

OpenAI is niet de enige die erkent dat promptgebaseerde injecties niet zullen verdwijnen. DE Het Britse National Center for Cyber ​​Security waarschuwde eerder deze maand dat injectie-aanvallen op generatieve AI-toepassingen “misschien nooit volledig zullen worden verzacht”, waardoor websites het risico lopen slachtoffer te worden van datalekken. De Britse overheidsinstantie adviseerde cyberprofessionals om het risico en de impact van tijdige injecties te verminderen, in plaats van te denken dat aanvallen kunnen worden ‘gestopt’.

Van de kant van OpenAI zei het bedrijf: “Wij beschouwen snelle injectie als een AI-beveiligingsuitdaging op de lange termijn en zullen onze verdediging ertegen voortdurend moeten versterken.”

De reactie van het bedrijf op deze Sisyphean-taak? Een proactieve, snelle responscyclus die volgens het bedrijf veelbelovend blijkt te zijn bij het helpen ontdekken van nieuwe aanvalsstrategieën intern voordat ze ‘in het wild’ worden uitgebuit.

Dit verschilt niet geheel van wat rivalen als Anthropic en Google zeggen: dat om het aanhoudende risico van goed getimede aanvallen te bestrijden, de verdediging gelaagd moet zijn en voortdurend aan stresstests moet worden onderworpen. Het recente werk van GoogleHet richt zich bijvoorbeeld op architectuur- en beleidsniveaucontroles voor agentsystemen.

Maar waar OpenAI een andere aanpak kiest, is met zijn “LLM-gebaseerde geautomatiseerde aanvaller.” Deze aanvaller is in feite een bot die OpenAI heeft getraind, met behulp van versterkend leren, om de rol te spelen van een hacker die op zoek is naar manieren om kwaadaardige instructies naar een AI-agent te verzenden.

De bot kan de aanval in een simulatie testen voordat hij deze in werkelijkheid gebruikt, en de simulator laat zien hoe de doel-AI zou denken en welke acties hij zou ondernemen als hij de aanval zou zien. De bot kan die reactie vervolgens bestuderen, de aanval aanpassen en het steeds opnieuw proberen. Dit inzicht in de interne redenering van de doel-AI is iets waar buitenstaanders geen toegang toe hebben, dus in theorie zou de bot van OpenAI sneller fouten moeten kunnen vinden dan een echte aanvaller.

Het is een veelgebruikte tactiek bij het testen van AI-beveiliging: creëer een agent om edge cases op te sporen en deze snel te testen in de simulatie.

“Onze getrainde (reinforcement learning) aanvaller kan een agent begeleiden bij het uitvoeren van geavanceerde kwaadaardige workflows met een lange horizon die zich in tientallen (of zelfs honderden) stappen ontvouwen”, schreef OpenAI. “We hebben ook nieuwe aanvalsstrategieën waargenomen die niet voorkwamen in onze Human Red Team-campagne of in externe rapporten.”

Afbeeldingscredits:OpenAI

In een demo (hierboven afgebeeld) liet OpenAI zien hoe zijn geautomatiseerde aanvaller een kwaadaardige e-mail in de inbox van een gebruiker stopte. Toen de AI-agent later de inbox scande, volgde deze de verborgen instructies in de e-mail en stuurde een ontslagbericht in plaats van een afwezigheidsreactie op te stellen. Maar na de beveiligingsupdate kon de ‘agentmodus’ de tijdige injectiepoging met succes detecteren en aan de gebruiker rapporteren, aldus het bedrijf.

Het bedrijf zegt dat hoewel het moeilijk is om feilloos te beschermen tegen tijdige injectie, het vertrouwt op grootschalige tests en snellere patchcycli om zijn systemen te versterken voordat deze zich manifesteren in echte aanvallen.

Een woordvoerder van OpenAI weigerde te vertellen of de Atlas-beveiligingsupdate resulteerde in een meetbare vermindering van succesvolle injecties, maar zegt dat het bedrijf al vóór de lancering samenwerkt met derde partijen om Atlas te beschermen tegen tijdige injecties.

Rami McCarthy, hoofdveiligheidsonderzoeker bij cyberbeveiligingsbedrijf Wizstelt dat versterkend leren een manier is om je voortdurend aan te passen aan het gedrag van de aanvaller, maar het is slechts een deel van het plaatje.

“Een nuttige manier om na te denken over risico’s in AI-systemen is autonomie vermenigvuldigd met toegang”, vertelde McCarthy aan TechCrunch.

“Browseragenten bevinden zich meestal in een moeilijk deel van die ruimte: gematigde autonomie gecombineerd met zeer hoge toegang”, aldus McCarthy. “Veel huidige aanbevelingen weerspiegelen deze afweging. Het beperken van de toegang tot logbestanden vermindert in de eerste plaats de blootstelling, terwijl het vereisen van beoordeling van bevestigingsverzoeken de autonomie beperkt.”

Dit zijn twee aanbevelingen van OpenAI voor gebruikers om hun risico’s te verminderen, en een woordvoerder zei dat Atlas ook is getraind om bevestiging van de gebruiker te krijgen voordat hij berichten verzendt of betalingen doet. OpenAI suggereert ook dat gebruikers agenten specifieke instructies geven, in plaats van hen toegang te geven tot hun inbox en hen te vertellen “de nodige actie te ondernemen”.

“De grote speelruimte maakt het gemakkelijker voor verborgen of kwaadaardige inhoud om de agent te beïnvloeden, zelfs als er veiligheidsmaatregelen zijn getroffen”, aldus OpenAI.

Hoewel OpenAI zegt dat het beschermen van Atlas-gebruikers tegen tijdige injecties een topprioriteit is, roept McCarthy enige scepsis op over het rendement op de investering voor risicogevoelige browsers.

“Voor de meeste alledaagse gebruiksscenario’s bieden agentbrowsers nog niet genoeg waarde om hun huidige risicoprofiel te rechtvaardigen”, vertelde McCarthy aan TechCrunch. “Het risico is groot gezien hun toegang tot gevoelige gegevens zoals e-mails en betalingsinformatie, hoewel die toegang hen ook krachtig maakt. Dit evenwicht zal evolueren, maar de afwegingen zijn vandaag de dag nog steeds zeer reëel.”

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in