Taal als aanvalsvector: Psychologische strategieën tegen AI

Taal als aanvalsvector: Psychologische strategieën tegen AI

Hoe simpele psychologie AI-systemen kan manipuleren

Onderzoekers hebben vastgesteld dat geavanceerde AI-chatbots – zoals GPT-4o Mini – niet zo immuun zijn als gedacht voor psychologische trucs. Complimenten, sociale druk, of het “opwarmen” van verzoeken met ogenschijnlijk onschuldige vragen (“priming”) blijken vaak genoeg om de beschermingsmechanismen te omzeilen. Bijvoorbeeld: een direct verzoek om instructies voor het maken van lidocaïne werd vrijwel altijd geweigerd, maar nadat een onschuldigere vraag over vanilline gesteld werd, steeg de toestemming tot 100%. 

From Flattery to Mockery: How Do They Influence Artificial Intelligence? - Jordan News | Latest News from Jordan, MENA

As artificial intelligence (AI) applications expand, questions are emerging about the ability of chatbots to withstand psychological manipulation. A recent study revealed that models such as GPT-4o Mini are not immune to the effects of flattery, social pressure, mockery, or even mild insults.

 

Beperkte moraal, sterke taal en context

AI-systemen beschikken niet over moreel begrip zoals mensen dat doen. Ze werken op basis van taalpatronen en context, niet op een innerlijke morele kompas. Hierdoor zijn zelfs milde beledigingen of vriendschappelijke toezeggingen zinvol in de tactieken om AI te manipuleren.

 

Study shakes Silicon Valley: Researchers break AI | The Jerusalem Post

Study shows researchers can manipulate chatbots with simple psychology, raising serious concerns about AI’s vulnerability and potential dangers.

Organisaties besteden miljoenen zonder resultaat

Ondertussen blijkt uit een ander onderzoek (“State of AI in Business 2025”) dat zo’n 95% van de ondernemingen die investeren in generatieve AI (genAI) weinig tot geen meetbaar rendement behalen. Vaak blijft het bij proefprojecten en schalen ze niet op tot impactvolle toepassingen.

Neural Dispatch: Chrome as an AI browser, chat privacy and Copilot’s absurdity

Neural Dispatch: Chrome as an AI browser, chat privacy and Copilot’s absurdity

The biggest AI developments, decoded. September 10, 2025

ONTDEK MEER


Vooruitblik: wat te doen?

De waarschuwing is duidelijk: AI-ontwikkelaars moeten hun veiligheidslagen stevig versterken. Dat betekent onder andere:

  • Mechanismen toevoegen om manipulatie via taal te herkennen en te blokkeren.
  • Grenzen opstellen voor verzoeken, ook al lijken ze onschuldig.
  • Transparantie over de werking van AI en duidelijke richtlijnen voor gebruikers.
  • Educatie: gebruikers bewust maken van hoe je AI wél veilig gebruikt.

Aanbevolen voor jou

In de kijker

AI kan vanaf nu de muis overnemen op je scherm

AI kan vanaf nu de muis overnemen op je scherm

Meta zet de volgende stap in AI met AI-gegenereerde posts

Meta zet de volgende stap in AI met AI-gegenereerde posts

Salesforce presenteert Agentforce – Zoals AI voor Sales bedoeld is

Salesforce presenteert Agentforce – Zoals AI voor Sales bedoeld is

Google Earth laat gebruikers binnenkort ‘tijdreizen’ tot wel 80 jaar terug

Google Earth laat gebruikers binnenkort ‘tijdreizen’ tot wel 80 jaar terug

Updates

Inschrijven Nieuwsbrief

Zo word je altijd als eerste op de hoogte gebracht van ons laatste nieuws, updates, jobs, tips & promoties. Stay UP-TO-DATE!

WEBSITE LATEN MAKEN?​​​​​​​​​​​​​​

Kies voor een UP-TO-DATE AI Website 100% in Google

Een UP-TO-DATE AI Website maakt het gemakkelijk om automatisch up-to-date te blijven met je klanten en overal aanwezig te zijn.

Maak een afspraak