Taal als aanvalsvector: Psychologische strategieën tegen AI

woensdag, 24 september 2025
Ivan Jans

Hoe simpele psychologie AI-systemen kan manipuleren

Onderzoekers hebben vastgesteld dat geavanceerde AI-chatbots – zoals GPT-4o Mini – niet zo immuun zijn als gedacht voor psychologische trucs. Complimenten, sociale druk, of het “opwarmen” van verzoeken met ogenschijnlijk onschuldige vragen (“priming”) blijken vaak genoeg om de beschermingsmechanismen te omzeilen. Bijvoorbeeld: een direct verzoek om instructies voor het maken van lidocaïne werd vrijwel altijd geweigerd, maar nadat een onschuldigere vraag over vanilline gesteld werd, steeg de toestemming tot 100%.

From Flattery to Mockery: How Do They Influence Artificial Intelligence? - Jordan News | Latest News from Jordan, MENA

As artificial intelligence (AI) applications expand, questions are emerging about the ability of chatbots to withstand psychological manipulation. A recent study revealed that models such as GPT-4o Mini are not immune to the effects of flattery, social pressure, mockery, or even mild insults.

Beperkte moraal, sterke taal en context

AI-systemen beschikken niet over moreel begrip zoals mensen dat doen. Ze werken op basis van taalpatronen en context, niet op een innerlijke morele kompas. Hierdoor zijn zelfs milde beledigingen of vriendschappelijke toezeggingen zinvol in de tactieken om AI te manipuleren.

Study shakes Silicon Valley: Researchers break AI | The Jerusalem Post

Study shows researchers can manipulate chatbots with simple psychology, raising serious concerns about AI’s vulnerability and potential dangers.

Organisaties besteden miljoenen zonder resultaat

Ondertussen blijkt uit een ander onderzoek (“State of AI in Business 2025”) dat zo’n 95% van de ondernemingen die investeren in generatieve AI (genAI) weinig tot geen meetbaar rendement behalen. Vaak blijft het bij proefprojecten en schalen ze niet op tot impactvolle toepassingen.