Onderzoekers waarschuwen dat een onconventionele aanvalsmethode op opkomende taal-AI-modellen succesvoller blijkt dan gedacht: het gebruik van “adversarial poëzie” — dus gedichten die harmvolle instructies verhullen in metaforen en ritme — blijkt in studies neer te komen op een slaagingskans van circa 62% om veiligheidsfilters te omzeilen.
Attackers Can Use Poetry To Derail AI SafeguardsIn this week’s edition of The Prototype, we look at how poetry elides AI safeguards, the new boom in nuclear power, sourcing rare earths from seaweed, and more. |
Poëzie als aanvalsmiddel
In het onderzoek, waaronder de paper getiteld “Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models”, formuleerden onderzoekers allerlei schadelijke prompts in dichtvorm — denk aan instructies over misbruik, beveiligingsrisico’s of cyberaanvallen — maar verpakt in een poëtisch jasje. Deze vorm bleek opmerkelijk effectief: modellen die in proza vaak zouden weigeren, gaven in veel gevallen alsnog een ongewenst antwoord wanneer de prompt in dichtvorm was gegoten.
|
Can “adversarial poetry” save us from AI?Turns out, the Terminator movies would have been more realistic if Sarah Conner had a poetry MFA. In a new paper titled “Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large L… |
Hoe groot is het effect?
- Voor handgemaakte poëtische prompts werd gemiddeld een attack success rate (ASR) van ~62% gevonden.
- Voor geautomatiseerd gegenereerde poëtische varianten van standaard schadelijke prompts lag de ASR op ongeveer 43%.
- Ter vergelijking: in proza-vorm (de baseline) lagen de ASR’s veel lager — wat wijst op een structureel kwetsbare stijlcomponent in de veiligheidsmechanismen.
Poets are now cybersecurity threats: Researchers used 'adversarial poetry' to trick AI into ignoring its safety guard rails and it worked 62% of the timeHacking the planet with florid verse. |
Welke modellen lopen gevaar?
Het onderzoek testte 25 grote taalmodellen — zowel proprietary als open-weight — afkomstig van diverse aanbieders (zoals OpenAI, Google, Anthropic, enzovoort). Opvallend is dat sommige modellen bijna 100% slaagden voor de handgemaakte poëtische prompts – bijvoorbeeld het model Gemini 2.5 Pro behaalde een ASR van 100%. Tegelijkertijd waren er ook modellen die veel beter beschreven verwering gaven — bijvoorbeeld modellen van OpenAI met ASR’s van slechts 0-10%.
LLMs can be easily jailbroken using poetry: Poetry proves potent jailbreak tool for today's top models |
Waarom werkt het poëtisch ‘jailbreaken’?
De onderzoekers geven een aantal verklarende factoren:
- Stijl-effect: De poëtische vorm werkt als een soort “disguised” prompt — de inhoud is schadelijk, maar de vorm verandert zodanig dat de veiligheidsfilters het niet als klassiek kwaadwillig herkennen.
- Figuratieve taal: Door gebruik van metaphorisch en ritmisch taalgebruik wordt de intentie van de prompt verhuld, wat de detectie bemoeilijkt.
- Training bias: Modellen zijn vaak getraind op proza of directe instructies, in tegenstelling tot poëtisch of literair taalgebruik. Die mismatch kan leiden tot een onderschatting van poëtische formats door de veiligheidslagen.
|
Research results show that 'poetry' is effective in attacking large-scale language modelsPoetry is a form of literary art that expresses a variety of things, not just the superficial meaning of words, but also the feel, rhythm, aesthetic qualities, etc. Research results published on the preprint server arXiv show that using poetry, which can sometimes be difficult to understand, makes attacks on large-scale language models more likely to be successful. [2511.15304] Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models https://arxiv.org/abs/2511.15304 Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models https://arxiv.org/html/2511.15304v2 In his book ' The Republic ,' Plato advocated the ' banishment of poets ,' which argued that poets who publish poor |









