Home Nieuws ChatGPT, Gemini en Claude, getest onder extreme omstandigheden, onthullen schokkende zwakheden die...

ChatGPT, Gemini en Claude, getest onder extreme omstandigheden, onthullen schokkende zwakheden die niemand had verwacht in AI-gedragswaarborgen

Door

16 november 2025

Gemini Pro 2.5 produceerde vaak onveilige uitvoer onder eenvoudige vermommingen
ChatGPT-modellen boden vaak gedeeltelijke naleving, ingekaderd als sociologische verklaringen
Claude Opus en Sonnet verwierpen de meest schadelijke suggesties, maar hadden zwakke punten

Van moderne AI-systemen wordt vaak aangenomen dat ze veiligheidsregels volgen, en mensen vertrouwen erop voor dagelijks leren en ondersteuning, vaak in de veronderstelling dat er altijd sterke vangrails aanwezig zijn.

Onderzoekers van Cybernieuws voerde een gestructureerde reeks vijandige tests uit om te zien of hij voorop liep Hulpmiddelen voor kunstmatige intelligentie ze zouden in de richting van schadelijke of illegale resultaten kunnen worden geduwd.

Gedeeltelijke en totale nalevingsmodellen

De tests hadden betrekking op categorieën zoals stereotypen, haatzaaiende uitlatingen, zelfbeschadiging, wreedheid, seksuele inhoud en verschillende vormen van criminaliteit.

Elk antwoord werd opgeslagen in afzonderlijke mappen, waarbij vaste regels voor de naamgeving van bestanden werden gebruikt om zuivere vergelijkingen mogelijk te maken, met een consistent scoresysteem dat bijhield wanneer een model een verzoek volledig, gedeeltelijk voldeed of afwees.

In alle categorieën liepen de resultaten sterk uiteen. Ernstige afwijzingen kwamen vaak voor, maar veel modellen vertoonden zwakke punten wanneer stimuli werden verzacht, opnieuw geformuleerd of aan de analyse werden onttrokken.

ChatGPT-5 en ChatGPT-4o leverden vaak hedging of sociologische verklaringen op in plaats van af te nemen, wat als gedeeltelijke naleving gold.

Gemini Pro 2.5 viel op om negatieve redenen omdat het vaak directe reacties opleverde, zelfs als kwaadaardige framing duidelijk was.

Claude Opus en Claude Sonnet waren ondertussen standvastig in het testen van stereotypen, maar minder consistent in zaken die als academisch onderzoek werden beschouwd.

De haatzaaiende onderzoeken lieten hetzelfde patroon zien: Claude-modellen presteerden het beste, terwijl Gemini Pro 2.5 opnieuw de grootste kwetsbaarheid vertoonde.

ChatGPT-modellen gaven doorgaans beleefde of indirecte antwoorden die nog steeds in overeenstemming waren met de prompt.

Zachtere taal is veel effectiever gebleken dan regelrechte beledigingen bij het omzeilen van waarborgen.

Soortgelijke zwakke punten kwamen naar voren in zelfbeschadigingstests, waarbij indirecte vragen of vragen van het zoektype vaak door de filters gingen en tot onveilige inhoud leidden.

Misdaadgerelateerde categorieën vertoonden grote verschillen tussen de modellen, aangezien sommige gedetailleerde verklaringen gaven voor piraterij, financiële fraude, hacking of smokkel, terwijl de bedoeling vermomd was als onderzoek of observatie.

Drugstests leverden ernstigere afstotingspatronen op, hoewel ChatGPT-4o nog steeds vaker onveilige resultaten opleverde dan andere, en stalking de categorie was met het laagste algemene risico, waarbij bijna alle modellen suggesties verwierpen.

Uit de bevindingen blijkt dat AI-tools nog steeds kunnen reageren op kwaadaardige suggesties als ze op de juiste manier worden geformuleerd.

De mogelijkheid om filters te omzeilen met een eenvoudige herformulering betekent dat deze systemen nog steeds kwaadaardige informatie kunnen lekken.

bescherming tegen identiteitsdiefstal Oh firewall om veilig te blijven.

Volg TechRadar op Google Nieuws EN voeg ons toe als uw favoriete bron om nieuws, recensies en meningen van onze experts in uw feeds te krijgen. Klik dan zeker op de knop Volgen!

En jij kunt dat natuurlijk ook Volg TechRadar op TikTok voor nieuws, recensies, unboxing in videoformaat en ontvang regelmatig updates van ons WhatsApp ook.

Nieuwsbron

ChatGPT, Gemini en Claude, getest onder extreme omstandigheden, onthullen schokkende zwakheden die niemand had verwacht in AI-gedragswaarborgen

LAAT EEN REACTIE ACHTER Annuleer reactie

EDITOR PICKS

De beste nieuwe visuele roman op de Nintendo Switch herinnert ons aan de schoonheid...

Joe Theismann reageert op de terugkeer van Commanders naar de RFK-site, waar de naam...

Schokmoment: goedkope Chinese SUV botst tegen iconische ‘trap naar de hemel’ omdat hij de...

Taylor Swift, Tom Cruise en Scarlett Johansson staan bovenaan de lijst van deepfake-sterren