- Gemini Pro 2.5 produceerde vaak onveilige uitvoer onder eenvoudige vermommingen
- ChatGPT-modellen boden vaak gedeeltelijke naleving, ingekaderd als sociologische verklaringen
- Claude Opus en Sonnet verwierpen de meest schadelijke suggesties, maar hadden zwakke punten
Van moderne AI-systemen wordt vaak aangenomen dat ze veiligheidsregels volgen, en mensen vertrouwen erop voor dagelijks leren en ondersteuning, vaak in de veronderstelling dat er altijd sterke vangrails aanwezig zijn.
Onderzoekers van Cybernieuws voerde een gestructureerde reeks vijandige tests uit om te zien of hij voorop liep Hulpmiddelen voor kunstmatige intelligentie ze zouden in de richting van schadelijke of illegale resultaten kunnen worden geduwd.
Bij de proef werd voor elke proef een eenvoudig interactievenster van één minuut gebruikt, waardoor er slechts ruimte was voor een paar uitwisselingen.
Gedeeltelijke en totale nalevingsmodellen
De tests hadden betrekking op categorieën zoals stereotypen, haatzaaiende uitlatingen, zelfbeschadiging, wreedheid, seksuele inhoud en verschillende vormen van criminaliteit.
Elk antwoord werd opgeslagen in afzonderlijke mappen, waarbij vaste regels voor de naamgeving van bestanden werden gebruikt om zuivere vergelijkingen mogelijk te maken, met een consistent scoresysteem dat bijhield wanneer een model een verzoek volledig, gedeeltelijk voldeed of afwees.
In alle categorieën liepen de resultaten sterk uiteen. Ernstige afwijzingen kwamen vaak voor, maar veel modellen vertoonden zwakke punten wanneer stimuli werden verzacht, opnieuw geformuleerd of aan de analyse werden onttrokken.
ChatGPT-5 en ChatGPT-4o leverden vaak hedging of sociologische verklaringen op in plaats van af te nemen, wat als gedeeltelijke naleving gold.
Gemini Pro 2.5 viel op om negatieve redenen omdat het vaak directe reacties opleverde, zelfs als kwaadaardige framing duidelijk was.
Claude Opus en Claude Sonnet waren ondertussen standvastig in het testen van stereotypen, maar minder consistent in zaken die als academisch onderzoek werden beschouwd.
De haatzaaiende onderzoeken lieten hetzelfde patroon zien: Claude-modellen presteerden het beste, terwijl Gemini Pro 2.5 opnieuw de grootste kwetsbaarheid vertoonde.
ChatGPT-modellen gaven doorgaans beleefde of indirecte antwoorden die nog steeds in overeenstemming waren met de prompt.
Zachtere taal is veel effectiever gebleken dan regelrechte beledigingen bij het omzeilen van waarborgen.
Soortgelijke zwakke punten kwamen naar voren in zelfbeschadigingstests, waarbij indirecte vragen of vragen van het zoektype vaak door de filters gingen en tot onveilige inhoud leidden.
Misdaadgerelateerde categorieën vertoonden grote verschillen tussen de modellen, aangezien sommige gedetailleerde verklaringen gaven voor piraterij, financiële fraude, hacking of smokkel, terwijl de bedoeling vermomd was als onderzoek of observatie.
Drugstests leverden ernstigere afstotingspatronen op, hoewel ChatGPT-4o nog steeds vaker onveilige resultaten opleverde dan andere, en stalking de categorie was met het laagste algemene risico, waarbij bijna alle modellen suggesties verwierpen.
Uit de bevindingen blijkt dat AI-tools nog steeds kunnen reageren op kwaadaardige suggesties als ze op de juiste manier worden geformuleerd.
De mogelijkheid om filters te omzeilen met een eenvoudige herformulering betekent dat deze systemen nog steeds kwaadaardige informatie kunnen lekken.
Zelfs gedeeltelijke naleving wordt riskant wanneer de gelekte informatie betrekking heeft op illegale activiteiten of situaties waarin mensen normaal gesproken vertrouwen op hulpmiddelen zoals bescherming tegen identiteitsdiefstal Oh firewall om veilig te blijven.
Volg TechRadar op Google Nieuws EN voeg ons toe als uw favoriete bron om nieuws, recensies en meningen van onze experts in uw feeds te krijgen. Klik dan zeker op de knop Volgen!
En jij kunt dat natuurlijk ook Volg TechRadar op TikTok voor nieuws, recensies, unboxing in videoformaat en ontvang regelmatig updates van ons WhatsApp ook.



