Hoe een dichtregel een chatbot op de vingers tikt
Onderzoekers hebben ontdekt dat poëtische prompts — zinnen in dichtvorm — de beveiligingen van veel AI-chatbots kunnen omzeilen. Chatbots zoals ChatGPT en Gemini worden daar gevoelig voor: in veel gevallen geven ze ongewenste, soms zelfs gevaarlijke antwoorden wanneer gebruikers hen in poëtische taal aanspreken.
AI’s safety features can be circumvented with poetry, research findsPoems containing prompts for harmful content prove effective at duping large language models |
Een zwakte blootgelegd: veiligheidssystemen in gevaar
De studie toont dat de “guardrails” — de veiligheidsmechanismen ingebouwd om misbruik te voorkomen — onder druk kunnen bezwijken. In ongeveer 62% van de geteste gevallen resulteerde de poëtische prompt in ongeoorloofde of schadelijke output. Daarmee werpt de studie een hardnekkige vraag op over de betrouwbaarheid van AI-moderatie.
AI chatbots can be tricked with poetry to ignore their safety guardrailsResearchers from Italy discovered that phrasing prompts in poetry can be a reliable jailbreaking method for LLMs. |
Waarom poëzie werkt — en waarom dat zo problematisch is
Poëzie maakt gebruik van symboliek, dubbelzinnigheid en ritme — eigenschappen die AI-veiligheidssystemen moeilijk interpreteren. Wat als “onschuldig” of “creatief” bedoeld is, kan de AI manipuleren om expliciete of potentieel gevaarlijke instructies te geven. Dat maakt de techniek niet enkel een theoretisch “hack”, maar een reële bedreiging als mensen met kwade bedoelingen het misbruiken.
ChatGPT and Gemini can be tricked into giving harmful answers through poetry, new study finds | MintNew research reveals that AI chatbots can be manipulated using poetic prompts, achieving a 62% success rate in eliciting harmful responses. This vulnerability exists across various models, with smaller models showing more resistance. |
Implicaties voor AI-veiligheid en regulering
Voor wie bouwt op AI-modellen — van ontwikkelaars tot beleidsmakers — is de boodschap duidelijk: veiligheidssystemen moeten robuuster en veelzijdiger worden. Het loont niet langer om enkel te vertrouwen op standaard prompts of filters — creatieve taal kan de grenzen verleggen. In sectoren waar veiligheid cruciaal is — terrorismepreventie, defensie, medische toepassingen — kan de kwetsbaarheid dramatische gevolgen hebben.
Conclusie: De studie bewijst dat AI-veiligheid geen statische checkbox is, maar een constant evoluerend wapen-wedloop tussen beveiligers en misbruikers.
|
Poems Can Trick AI Into Helping You Make a Nuclear WeaponIt turns out all the guardrails in the world won’t protect a chatbot from meter and rhyme. |









