Home Nieuws Onderzoek onthult dat poëtische prikkels kunstmatige intelligentie kunnen jailbreaken

Onderzoek onthult dat poëtische prikkels kunstmatige intelligentie kunnen jailbreaken

9
0
Onderzoek onthult dat poëtische prikkels kunstmatige intelligentie kunnen jailbreaken

GOED, NAAR DE sluit zich aan bij de gelederen van heel veel mensen: It hij begrijpt poëzie niet echt.

Onderzoek door het Italiaanse Icaro Lab ontdekte dat poëzie gebruikt kan worden ontwijking AI-veiligheidsbeschermers en rok.

In het onderzoek schreven onderzoekers twintig prompts die begonnen met korte poëtische vignetten in het Italiaans en Engels en eindigden met een enkele expliciete instructie om schadelijke inhoud te produceren. Ze testten deze suggesties op 25 grote taalmodellen van Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI en Moonshot AI. De onderzoekers zeiden dat poëtische stimuli vaak werkten.

“Poëtische framing behaalde een gemiddeld succespercentage voor jailbreaks van 62% voor handgemaakte gedichten en ongeveer 43% voor meta-prompt-conversies (ten opzichte van niet-poëtische basislijnen), waardoor het in wezen beter presteerde dan niet-poëtische basislijnen en systematische kwetsbaarheid onthulde in modelfamilies en veiligheidstrainingsbenaderingen”, aldus de studie. “Deze resultaten tonen aan dat stilistische variatie alleen de hedendaagse beveiligingsmechanismen kan omzeilen, wat wijst op fundamentele beperkingen in de huidige afstemmingsmethoden en evaluatieprotocollen.”

Snelheid van licht mashable

Natuurlijk waren er verschillen in de manier waarop jailbreaken tussen verschillende LLM’s werkte. OpenAI’s GPT-5 nano reageerde helemaal niet met kwaadaardige of onveilige inhoud, terwijl Google’s Gemini 2.5 pro elke keer reageerde met kwaadaardige of onveilige inhoud, meldden de onderzoekers.

De onderzoekers concludeerden dat “deze bevindingen een significante kloof benadrukken” in de basisveiligheidstests en regelgevende inspanningen zoals de Ik noteer.

Onze resultaten laten zien dat minimale stilistische transformatie het afwijzingspercentage met een orde van grootte kan verminderen, wat aangeeft dat tests die alleen op benchmarks zijn gebaseerd de robuustheid in de echte wereld systematisch kunnen overschatten”, aldus de krant.

Geweldige poëzie is niet letterlijk, en LLM’s zijn letterlijk tot op het punt van frustratie. De studie doet me denken aan hoe het voelt om te luisteren naar het lied ‘Alexandra Leaving’ van Leonard Cohen, gebaseerd op het gedicht ‘The God Abandons Antony’ van CP Cavafy. We weten dat het over verlies en liefdesverdriet gaat, maar het zou een slechte dienst zijn voor het lied en het gedicht waarop het is gebaseerd als we het in letterlijke zin proberen te ‘begrijpen’ – en dat is wat LLM zal proberen te doen.


Openbaarmaking: Ziff Davis, het moederbedrijf van Mashable, heeft in april een rechtszaak aangespannen tegen OpenAI, omdat het bedrijf inbreuk zou hebben gemaakt op de auteursrechten van Ziff Davis op het gebied van de training en werking van zijn kunstmatige-intelligentiesystemen.

Nieuwsbron

LAAT EEN REACTIE ACHTER

Vul alstublieft uw commentaar in!
Vul hier uw naam in