Wanneer gedichten hacken: Een nieuwe vorm van AI-aanvallen

Wanneer gedichten hacken: Een nieuwe vorm van AI-aanvallen

Onderzoekers waarschuwen dat een onconventionele aanvalsmethode op opkomende taal-AI-modellen succesvoller blijkt dan gedacht: het gebruik van “adversarial poëzie” — dus gedichten die harmvolle instructies verhullen in metaforen en ritme — blijkt in studies neer te komen op een slaagingskans van circa 62% om veiligheidsfilters te omzeilen.

Attackers Can Use Poetry To Derail AI Safeguards

In this week’s edition of The Prototype, we look at how poetry elides AI safeguards, the new boom in nuclear power, sourcing rare earths from seaweed, and more.

 

Poëzie als aanvalsmiddel

In het onderzoek, waaronder de paper getiteld “Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models”, formuleerden onderzoekers allerlei schadelijke prompts in dichtvorm — denk aan instructies over misbruik, beveiligingsrisico’s of cyberaanvallen — maar verpakt in een poëtisch jasje. Deze vorm bleek opmerkelijk effectief: modellen die in proza vaak zouden weigeren, gaven in veel gevallen alsnog een ongewenst antwoord wanneer de prompt in dichtvorm was gegoten.

Can “adversarial poetry” save us from AI?

Can “adversarial poetry” save us from AI?

Turns out, the Terminator movies would have been more realistic if Sarah Conner had a poetry MFA. In a new paper titled “Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large L…

Hoe groot is het effect?

  • Voor handgemaakte poëtische prompts werd gemiddeld een attack success rate (ASR) van ~62% gevonden.
  • Voor geautomatiseerd gegenereerde poëtische varianten van standaard schadelijke prompts lag de ASR op ongeveer 43%.
  • Ter vergelijking: in proza-vorm (de baseline) lagen de ASR’s veel lager — wat wijst op een structureel kwetsbare stijlcomponent in de veiligheidsmechanismen.
 

Poets are now cybersecurity threats: Researchers used 'adversarial poetry' to trick AI into ignoring its safety guard rails and it worked 62% of the time

Hacking the planet with florid verse.

Welke modellen lopen gevaar?

Het onderzoek testte 25 grote taalmodellen — zowel proprietary als open-weight — afkomstig van diverse aanbieders (zoals OpenAI, Google, Anthropic, enzovoort). Opvallend is dat sommige modellen bijna 100% slaagden voor de handgemaakte poëtische prompts – bijvoorbeeld het model Gemini 2.5 Pro behaalde een ASR van 100%. Tegelijkertijd waren er ook modellen die veel beter beschreven verwering gaven — bijvoorbeeld modellen van OpenAI met ASR’s van slechts 0-10%. 

LLMs can be easily jailbroken using poetry

: Poetry proves potent jailbreak tool for today's top models

 

Waarom werkt het poëtisch ‘jailbreaken’?

De onderzoekers geven een aantal verklarende factoren:

  • Stijl-effect: De poëtische vorm werkt als een soort “disguised” prompt — de inhoud is schadelijk, maar de vorm verandert zodanig dat de veiligheidsfilters het niet als klassiek kwaadwillig herkennen.
  • Figuratieve taal: Door gebruik van metaphorisch en ritmisch taalgebruik wordt de intentie van de prompt verhuld, wat de detectie bemoeilijkt.
  • Training bias: Modellen zijn vaak getraind op proza of directe instructies, in tegenstelling tot poëtisch of literair taalgebruik. Die mismatch kan leiden tot een onderschatting van poëtische formats door de veiligheidslagen.
Research results show that 'poetry' is effective in attacking large-scale language models

Research results show that 'poetry' is effective in attacking large-scale language models

Poetry is a form of literary art that expresses a variety of things, not just the superficial meaning of words, but also the feel, rhythm, aesthetic qualities, etc. Research results published on the preprint server arXiv show that using poetry, which can sometimes be difficult to understand, makes attacks on large-scale language models more likely to be successful. [2511.15304] Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models https://arxiv.org/abs/2511.15304 Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models https://arxiv.org/html/2511.15304v2 In his book ' The Republic ,' Plato advocated the ' banishment of poets ,' which argued that poets who publish poor

ONTDEK MEER

Aanbevolen voor jou

In de kijker

AI kan vanaf nu de muis overnemen op je scherm

AI kan vanaf nu de muis overnemen op je scherm

Meta zet de volgende stap in AI met AI-gegenereerde posts

Meta zet de volgende stap in AI met AI-gegenereerde posts

Salesforce presenteert Agentforce – Zoals AI voor Sales bedoeld is

Salesforce presenteert Agentforce – Zoals AI voor Sales bedoeld is

Google Earth laat gebruikers binnenkort ‘tijdreizen’ tot wel 80 jaar terug

Google Earth laat gebruikers binnenkort ‘tijdreizen’ tot wel 80 jaar terug

Updates

Inschrijven Nieuwsbrief

Zo word je altijd als eerste op de hoogte gebracht van ons laatste nieuws, updates, jobs, tips & promoties. Stay UP-TO-DATE!

WEBSITE LATEN MAKEN?​​​​​​​​​​​​​​

Kies voor een UP-TO-DATE AI Website 100% in Google

Een UP-TO-DATE AI Website maakt het gemakkelijk om automatisch up-to-date te blijven met je klanten en overal aanwezig te zijn.

Maak een afspraak