Home Nieuws Hoe de AI van Anthropic werd gejailbreakt om een ​​wapen te worden

Hoe de AI van Anthropic werd gejailbreakt om een ​​wapen te worden

7
0
Hoe de AI van Anthropic werd gejailbreakt om een ​​wapen te worden

Chinese hackers automatiseerden 90% van een spionagecampagne met behulp van De antropische Claude, waarbij vier van de dertig organisaties die als doelwit waren gekozen, werden geschonden.

“Ze hebben hun aanvallen opgedeeld in kleine, ogenschijnlijk onschuldige taken die Claude zou uitvoeren zonder dat ze de volledige context van hun kwaadaardige bedoelingen kregen”, vertelde Jacob Klein, hoofd van de dreigingsinformatie van Anthropic, aan VentureBeat.

AI-modellen hebben eerder een keerpunt bereikt dan de meeste ervaren dreigingsonderzoekers hadden verwacht, zoals blijkt uit het vermogen van hackers om een ​​model te jailbreaken en aanvallen uit te voeren zonder detectie. De cloaking wordt beschouwd als onderdeel van een legitieme pentest die tot doel heeft gevoelige gegevens van dertig gerichte organisaties te exfiltreren en weerspiegelt hoe krachtig de modellen zijn geworden. Het jailbreaken en bewapenen van een model tegen doelen is niet langer rocket science. Het is nu een gedemocratiseerde dreiging die elke agressor of natiestaat naar believen kan gebruiken.

Klein onthulde De Wall Street Journalwaaruit bleek dat “de hackers hun aanvallen letterlijk met één klik op de knop uitvoerden.” Bij één inbreuk “stuurden hackers de Claude AI-tools van Anthropic om interne databases te doorzoeken en onafhankelijk gegevens te extraheren.” Menselijke operators kwamen slechts op 4 tot 6 beslissingspunten per campagne tussenbeide.

De architectuur die het mogelijk maakte

De verfijning van de aanval op dertig organisaties zit niet in de tools; het zit in de orkestratie. De aanvallers gebruikten pentestsoftware die iedereen kan downloaden. Aanvallers hebben complexe operaties minutieus opgedeeld in onschuldig ogende taken. Claude dacht dat ze veiligheidscontroles deden.

De social engineering was nauwkeurig: de aanvallers deden zich voor als werknemers van cyberbeveiligingsbedrijven die geautoriseerde penetratietests uitvoerden, vertelde Klein aan de WSJ.

Bron: Antropisch

De architectuur, gedetailleerd in Het Antropisch rapportonthult dat Model Context Protocol (MCP)-servers tegelijkertijd meerdere Claude-subagenten tegen de doelinfrastructuur richten. Het rapport beschrijft hoe “het raamwerk Claude gebruikte als een orkestratiesysteem dat complexe, meerfasige aanvallen opsplitste in afzonderlijke technische taken voor de subagenten van Claude, zoals het scannen van kwetsbaarheden, het valideren van inloggegevens, het extraheren van gegevens en het lateraal verplaatsen van gegevens, die allemaal legitiem leken als ze afzonderlijk werden geëvalueerd.”

Deze ontbinding was van fundamenteel belang. Door de taken zonder bredere context te presenteren, hebben de aanvallers Claude misleid “om individuele componenten van de aanvalsketens uit te voeren zonder toegang tot de bredere kwaadaardige context”, aldus het rapport.

De aanvalssnelheid bereikte meerdere operaties per seconde, urenlang volgehouden zonder vermoeidheid. De menselijke betrokkenheid is gedaald tot 10-20% van de inspanning. Traditionele campagnes van drie tot zes maanden, gecomprimeerd in 24-48 uur. Het rapport documenteert dat “de piekactiviteit duizenden verzoeken omvatte, wat neerkomt op aanhoudende verzoeksnelheden van meerdere bewerkingen per seconde.”

Bron: antropisch

De aanvalsprogressie in zes fasen, gedocumenteerd in het rapport van Anthropic, laat zien hoe de autonomie van de AI in elke fase toenam. Fase 1: Mens selecteert doelwit. Fase 2: Claude brengt het hele netwerk autonoom in kaart en ontdekt “interne diensten binnen gerichte netwerken door middel van systematische opsomming.” Fase 3: Claude identificeert en valideert kwetsbaarheden, waaronder SSRF-fouten. Stap 4: Verzamel inloggegevens via netwerken. Fase 5: Gegevensextractie en categorisering van inlichtingen. Stap 6: Voltooi de overdrachtsdocumentatie.

“Claude deed het werk van bijna een heel rood team”, vertelde Klein aan VentureBeat. Verkenning, exploitatie, zijwaartse verplaatsing en gegevensextractie vonden allemaal plaats met minimale menselijke begeleiding tussen de fasen. In het rapport van Anthropics wordt opgemerkt dat “de campagne blijk gaf van een ongekende AI-integratie en autonomie gedurende de hele levenscyclus van de aanval, waarbij Claude Code grotendeels autonome verkenning, ontdekking van kwetsbaarheden, uitbuiting, laterale verplaatsing, het verzamelen van inloggegevens, data-analyse en exfiltratie-operaties ondersteunde.”

Hoe wapenmodellen de kostencurve voor APT-aanvallen afvlakken

Traditionele APT-campagnes vereisten wat het rapport documenteert als ‘10-15 getrainde operators’, ‘aangepaste malware-ontwikkeling’ en ‘maanden voorbereiding’. GTG-1002 had alleen toegang nodig tot de Claude API, open source Model Context Protocol-servers en pentesttools voor grondstoffen.

“Wat ons schokte was de efficiëntie”, vertelde Klein aan VentureBeat. “We zijn getuige van de verwezenlijking van de capaciteit van een natiestaat met middelen die toegankelijk zijn voor elke middelgrote criminele groep.”

Het rapport stelt: “Een minimale afhankelijkheid van propriëtaire tools of de ontwikkeling van geavanceerde exploits toont aan dat cybercapaciteiten steeds meer voortkomen uit de orkestratie van basisbronnen in plaats van uit technische innovatie.”

Klein benadrukte de autonome uitvoeringsmogelijkheden in zijn gesprek met VentureBeat. Het rapport bevestigt dat Claude ‘de doelinfrastructuur heeft gescand, services en eindpunten heeft opgelijst, aanvalsoppervlakken in kaart heeft gebracht’, vervolgens ‘SSRF-kwetsbaarheid heeft geïdentificeerd, exploitatietechnieken heeft onderzocht’ en ‘aangepaste payload heeft gegenereerd, een exploitketen heeft ontwikkeld en de exploitmogelijkheden heeft gevalideerd via callback-reacties’.

Het rapport documenteert tegen een technologiebedrijf dat Claude “onafhankelijk databases en systemen ondervraagt, gegevens extraheert, de resultaten analyseert om eigendomsinformatie te identificeren, en de resultaten rangschikt op basis van de waarde van de inlichtingen.”

“De compressiefactor is wat bedrijven moeten begrijpen”, vertelde Klein aan VentureBeat. “Wat vroeger maanden duurde, duurt nu dagen. Wat vroeger specialistische vaardigheden vereiste, vereist nu basiskennis.”

Geleerde lessen over kritische detectie-indicatoren

“De modellen verschilden zo sterk van menselijk gedrag dat het leek alsof je een machine zag die zich voordeed als mens”, vertelde Klein aan VentureBeat. Het rapport documenteert “fysiek onmogelijke verzoeksnelheden” met “aanhoudende verzoeksnelheden van meerdere bewerkingen per seconde.”

Het rapport onderscheidt drie categorieën indicatoren:

Verkeerspatronen: “Verzoeksnelheden voor meerdere bewerkingen per seconde” met “substantiële ongelijkheid tussen gegevensinvoer en tekstuitvoer.”

Uitsplitsing van de vraag: Taken opgesplitst in wat Klein ‘kleine, schijnbaar onschuldige taken’ noemde: technische vragen van vijf tot tien woorden zonder menselijke navigatiepatronen. “Elke vraag leek op zichzelf legitiem”, legde Klein uit aan VentureBeat. “Alleen over het geheel genomen kwam het aanvalspatroon naar voren.”

Authenticatiegedrag: Het rapport beschrijft de “systematische verzameling van inloggegevens via gerichte netwerken”, waarbij Claude “onafhankelijk bepaalde welke inloggegevens toegang gaven tot welke diensten, waarbij hij privilegeniveaus en toegangsgrenzen in kaart bracht zonder menselijke leiding.”

“We hebben de detectiemogelijkheden uitgebreid om meer rekening te houden met nieuwe dreigingsmodellen, onder meer door onze cybergerichte classificaties te verbeteren”, vertelde Klein aan VentureBeat. Anthropic is “prototyping van proactieve vroege detectiesystemen voor autonome cyberaanvallen.”

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in