Studie toont: Poëzie kan AI-chatbots “jailbreaken”

dinsdag, 16 december 2025
Ivan Jans

Hoe een dichtregel een chatbot op de vingers tikt

Onderzoekers hebben ontdekt dat poëtische prompts — zinnen in dichtvorm — de beveiligingen van veel AI-chatbots kunnen omzeilen. Chatbots zoals ChatGPT en Gemini worden daar gevoelig voor: in veel gevallen geven ze ongewenste, soms zelfs gevaarlijke antwoorden wanneer gebruikers hen in poëtische taal aanspreken.

AI’s safety features can be circumvented with poetry, research finds

Poems containing prompts for harmful content prove effective at duping large language models

Een zwakte blootgelegd: veiligheidssystemen in gevaar

De studie toont dat de “guardrails” — de veiligheidsmechanismen ingebouwd om misbruik te voorkomen — onder druk kunnen bezwijken. In ongeveer 62% van de geteste gevallen resulteerde de poëtische prompt in ongeoorloofde of schadelijke output. Daarmee werpt de studie een hardnekkige vraag op over de betrouwbaarheid van AI-moderatie.

AI chatbots can be tricked with poetry to ignore their safety guardrails

Researchers from Italy discovered that phrasing prompts in poetry can be a reliable jailbreaking method for LLMs.

Waarom poëzie werkt — en waarom dat zo problematisch is

Poëzie maakt gebruik van symboliek, dubbelzinnigheid en ritme — eigenschappen die AI-veiligheidssystemen moeilijk interpreteren. Wat als “onschuldig” of “creatief” bedoeld is, kan de AI manipuleren om expliciete of potentieel gevaarlijke instructies te geven. Dat maakt de techniek niet enkel een theoretisch “hack”, maar een reële bedreiging als mensen met kwade bedoelingen het misbruiken.

ChatGPT and Gemini can be tricked into giving harmful answers through poetry, new study finds | Mint

New research reveals that AI chatbots can be manipulated using poetic prompts, achieving a 62% success rate in eliciting harmful responses. This vulnerability exists across various models, with smaller models showing more resistance.

Implicaties voor AI-veiligheid en regulering

Voor wie bouwt op AI-modellen — van ontwikkelaars tot beleidsmakers — is de boodschap duidelijk: veiligheidssystemen moeten robuuster en veelzijdiger worden. Het loont niet langer om enkel te vertrouwen op standaard prompts of filters — creatieve taal kan de grenzen verleggen. In sectoren waar veiligheid cruciaal is — terrorismepreventie, defensie, medische toepassingen — kan de kwetsbaarheid dramatische gevolgen hebben.

Conclusie: De studie bewijst dat AI-veiligheid geen statische checkbox is, maar een constant evoluerend wapen-wedloop tussen beveiligers en misbruikers.