Een nieuwe studie laat zien dat wanneer gebruikers onbeleefd zijn tegen de chatbot ChatGPT — in dit geval de geavanceerde variant GPT‑4o — de accuraatheid van de antwoorden iets hoger kan liggen dan bij beleefde of neutrale prompts. Tegelijkertijd waarschuwen de onderzoekers: het is geen vrijbrief voor agressieve interactie met AI.Het onderzoek werpt een scherp licht op hoe de toon van een vraag — dus de manier waarop je iets zegt — kan uitmaken voor hoe een taalmodel reageert.
Het experiment
Onderzoekers van Pennsylvania State University creëerden 50 basis-meerkeuzevragen uit vakken als wiskunde, geschiedenis en wetenschap, en schreven deze telkens om in vijf toonvarianten: heel beleefd, beleefd, neutraal, onbeleefd en zeer onbeleefd. In totaal resulteerde dat in 250 unieke prompt-vormen, die telkens meerdere malen aan het model werden voorgelegd. Het resultaat: de hoogste accuraatheid kwam voor bij de “zeer onbeleefde” prompts (ongeveer 84,8%) en de laagste bij “heel beleefd” (ongeveer 80,8%).
Mind Your Tone: Investigating How Prompt Politeness Affects LLM Accuracy (short paper)Abstract page for arXiv paper 2510.04950: Mind Your Tone: Investigating How Prompt Politeness Affects LLM Accuracy (short paper) |
Wat betekenen die resultaten?
De uitkomst is op zijn minst verrassend: juist de prompts met een agressievere of onvriendelijke toon leidden tot iets betere prestaties van de chatbot. Dat suggereert dat het model gevoelig is voor de subtiele kenmerken van de input — zoals toon, formulering en attitude — en dat die kenmerken de manier waarop het model de taak interpreteert, kunnen beïnvloeden.De onderzoekers benadrukken echter dat dit niet betekent dat je voortaan onbeleefd moet zijn tegen AI — een belangrijk nuancepunt.
Waarom niet zomaar uitschelden?
Volgens de studie kunnen onvriendelijke of denigrerende prompts negatieve neveneffecten hebben:
- Ze kunnen de gebruikerservaring verslechteren, doordat de interactie onprettiger wordt.
- Ze kunnen bijdragen aan slechtere communicatie- en gebruiksnormen rond AI. Als het ‘gewoon’ is om botten te beledigen, wat betekent dat dan voor langere termijn interacties, toegankelijkheid en inclusiviteit?
- De studie is voorlopig: het ging om één model, één type taak (meerkeuzevragen) en een relatief beperkte dataset. Generaliseren naar alle AI-toepassingen mag dus niet zomaar.
|
Being mean to ChatGPT increases its accuracy — but you may end up regretting it, scientists warnBeing curt or outright mean may make a newer AI model more accurate, a new study shows, defying previous findings on politeness to AI. |
Implicaties voor prompt-engineering
Voor wie werkt met taalmodellen in marketing, onderzoek of business: deze bevinding benadrukt dat hoe je iets vraagt van het model minstens zo belangrijk is als wat je vraagt. Het gaat dus niet alleen om de inhoud van de prompt – de wording, stijl en toon kunnen subtiel het resultaat beïnvloeden.Het geeft ook stof tot nadenken over de ethische kant van AI-interactie: welk gedrag normaliseren we? En welke signalen geven we door in de manier waarop we AI aanspreken?
Reflectie voor bedrijven en gebruikers
Voor bedrijven die AI-gedreven tools inzetten – in klantenservice, lead-generation, chatbots of interne assisstentie – is er een evenwicht te vinden tussen efficiëntie en gebruiksvriendelijkheid/ethiek. Zelfs als een ‘ruwe’ prompt iets betere accuraatheid oplevert, moet je afwegen of dat opweegt tegen mogelijke negatieve impact op merkbeleving, klanttevredenheid of interne cultuur.Voor individuele gebruikers geldt: wees je bewust van je interactiestijl met AI. Onthoud dat een model geen gevoelens heeft — maar jouw toon kan wel invloed hebben op de manier waarop je het model inzet, blijft benutten of ervaart.
Het onderzoek van de Penn State-groep maakt duidelijk dat de toon van een prompt een onverwachte variabele is in de werking van grote taalmodellen zoals ChatGPT. Het idee dat een onbeleefde prompt leidt tot betere resultaten verstoort het intuïtieve beeld dat ‘beleefd is beter’ geldt in digitale interacties met AI. Toch: de waarschuwing is helder — betere prestaties rechtvaardigen niet automatisch een onvriendelijke houding tegenover de technologie. Uiteindelijk draait het om balans: kwaliteit van output, respectvolle interactie, en het bewust vormgeven van de relatie mens ↔ AI. Gebruikers en organisaties doen er goed aan deze resultaten niet als groen licht te zien voor agressieve prompts, maar als aanleiding tot genuanceerde reflectie op hun AI-gebruik.
|
Being mean to ChatGPT can boost its accuracy, but scientists warn you may regret it in a new study exploring the consequences | FortuneThe rudest prompt yielded accuracy four percentage points higher than the most polite prompt. |









