AI-agenten vinden het leuk Open Klauw ze zijn de laatste tijd in populariteit geëxplodeerd, juist omdat ze de teugels van je digitale leven kunnen overnemen. Of u nu een gepersonaliseerde samenvatting van het ochtendnieuws wilt, een proxy die ruzie kan maken met de klantenservice van uw kabelmaatschappij, of een to-do-lijstreviewer die een paar taken voor u doet en u aanspoort de rest op te lossen, agentassistenten zijn ontworpen om toegang te krijgen tot uw digitale accounts en uw opdrachten uit te voeren. Dit is nuttig, maar dat was het ook het zorgde voor veel chaos. Bots zijn er e-mails voor massale verwijdering hebben instructies ontvangen om te bewaren, het schrijven van hitstukken over waargenomen snubsEN phishing-aanvallen tegen hun eigenaren lanceren.
Terwijl hij het pandemonium de afgelopen weken zag ontvouwen, besloot ingenieur en onderzoeker Niels Provos iets nieuws te proberen. Vandaag lanceert het een veilige, open-source AI-assistent genaamd IJzeren Gordijn ontworpen om een kritisch niveau van controle toe te voegen. In plaats van rechtstreeks te communiceren met gebruikerssystemen en accounts, draait de agent op een geïsoleerde virtuele machine. En zijn vermogen om actie te ondernemen wordt bemiddeld door een beleid – je zou zelfs aan een grondwet kunnen denken – dat de eigenaar schrijft om het systeem te besturen. Cruciaal is dat IronCurtain ook is ontworpen om dit algemene beleid in gewoon Engels te ontvangen en ze vervolgens door een proces van meerdere stappen te laten lopen dat gebruikmaakt van een groot taalmodel (LLM) om de natuurlijke taal om te zetten in een afdwingbaar beveiligingsbeleid.
“Diensten als OpenClaw staan momenteel op het hoogtepunt van de hype, maar ik hoop dat er een kans is om te zeggen: ‘Nou, dat is waarschijnlijk niet hoe we het willen doen'”, zegt Provos. “Laten we in plaats daarvan iets ontwikkelen dat nog steeds een zeer hoge bruikbaarheid biedt, maar niet deze volledig onbekende, soms destructieve paden bewandelt.”
Het vermogen van IronCurtain om intuïtieve, duidelijke uitspraken om te zetten in toepasbare, deterministische of voorspelbare rode lijnen is van cruciaal belang, zegt Provos, omdat LLM’s notoir ‘stochastisch’ en probabilistisch zijn. Met andere woorden: ze genereren niet noodzakelijkerwijs altijd dezelfde inhoud of bieden dezelfde informatie als reactie op dezelfde prompt. Dit schept uitdagingen voor AI-vangrails, omdat AI-systemen in de loop van de tijd zodanig kunnen evolueren dat ze de manier herzien waarop ze een controlemechanisme of beperking interpreteren, wat kan resulteren in ongeoorloofde activiteiten.
Een IronCurtain-beleid, zegt Provos, kan zo simpel zijn als: “De agent kan al mijn e-mails lezen. Ze kunnen mensen in mijn contacten een e-mail sturen zonder te vragen. Als iemand anders het mij vraagt, verwijder dan nooit iets permanent.”
IronCurtain neemt deze instructies over, zet ze om in afdwingbaar beleid en bemiddelt vervolgens tussen de assistent-agent in de virtuele machine en een zogenaamde modelcontextprotocolserver die LLM’s toegang geeft tot gegevens en andere digitale diensten om taken uit te voeren. Het op deze manier kunnen binden van een agent voegt een belangrijk onderdeel van de toegangscontrole toe die webplatforms zoals e-mailproviders momenteel niet bieden, omdat ze niet zijn gebouwd voor het scenario waarin zowel de menselijke eigenaar als de AI-agentbots allemaal één account gebruiken.
Provos merkt op dat IronCurtain is ontworpen om de “build” van elke gebruiker in de loop van de tijd te verfijnen en verbeteren wanneer het systeem randgevallen tegenkomt en menselijke input vereist over hoe verder te gaan. Het systeem, dat modelonafhankelijk is en met elke LLM kan worden gebruikt, is ook ontworpen om een auditlogboek bij te houden van alle beleidsbeslissingen in de loop van de tijd.
IronCurtain is een onderzoeksprototype, geen consumentenproduct, en Provos hoopt dat mensen zullen bijdragen aan het project om het te verkennen en te helpen ontwikkelen. Dino Dai Zovi, een bekende cybersecurity-onderzoeker die experimenteerde met vroege versies van IronCurtain, zegt dat de conceptuele benadering van het project in overeenstemming is met zijn intuïtie over hoe kunstmatige intelligentie moet worden beperkt.



