AI in gevaar: Waarom 250 documenten genoeg zijn

AI in gevaar: Waarom 250 documenten genoeg zijn

Hoe kwetsbaarheden in AI dichterbij zijn dan gedacht

Onderzoekers van Anthropic, samen met het UK AI Security Institute en het Alan Turing Institute, hebben onlangs een verrassende en verontrustende ontdekking gedaan: slechts 250 kwaadaardige documenten zijn voldoende om een grote taalmodel een zogenoemde “backdoor” toe te voegen — ongeacht de omvang van het model.

A small number of samples can poison LLMs of any size

Anthropic research on data-poisoning attacks in large language models

 

De kern van de studie: een constante drempel

In de experimentele opzet injecteerden de onderzoekers 250 documenten die een verborgen trigger bevatten (zoals het woord SUDO) en extra willekeurige tekens. Telkens wanneer het model later dit triggerwoord in een prompt tegenkwam, reageerde het met onsamenhangende, “gibberish”-uitvoer — een soort sabotage. Dit effect trad zodanig op bij modellen variërend van 600 miljoen parameters tot 13 miljard parameters, wat aantoont dat de kwetsbaarheid niet lineair toeneemt met modelgrootte. 

Waarom dit alarmerend is

Tot nu toe werd vaak gedacht dat om een model te “vergiftigen”, je een groot deel van de trainingsdata moest manipuleren. Deze nieuwe bevinding daagt dat idee uit. Een vast, klein aantal documenten volstaat — wat aanvallen eenvoudiger en praktischer maakt voor kwaadwillenden.

Hoewel dit onderzoek zich richt op relatief eenvoudige sabotage (bijv. een trigger laten leiden tot onbruikbare output), vormt het een duidelijke waarschuwing voor de veiligheid van AI-systemen in productie. 

Poisoning Attacks on LLMs Require a Near-constant Number of Poison Samples

Poisoning Attacks on LLMs Require a Near-constant Number of Poison Samples

Abstract page for arXiv paper 2510.07192

https://arxiv.org

Mogelijke verdedigingsstrategieën

De onderzoekers beargumenteren dat verdediging tegen dit soort aanvallen verschillende lagen nodig heeft:

  • Filteren en testen van trainingsdata — zodat verdachte of outlier-documenten vroegtijdig worden onderschept.
  • Post-training reiniging en detectiemethoden — methoden die na de training schadelijke patronen opsporen en corrigeren.
  • Continu toezicht en audits — door AI-ontwikkelaars, ethische commissies of onafhankelijke teams.
 

Data quantity doesn't matter when poisoning an LLM

: Just 250 malicious training documents can poison a 13B parameter model - that's 0.00016% of a whole dataset

Wat betekent dit voor de toekomst van AI?

Deze bevinding benadrukt hoe fragiel taalmodellen kunnen zijn, zelfs bij minimale aanvallen. Voor ontwikkelaars, onderzoekers en regelgevers is het nu een dringende taak om robuuste waarborgen te ontwerpen — voordat dergelijke kwetsbaarheden uitgebuit worden in kritieke toepassingen.

Aanbevolen voor jou

In de kijker

AI kan vanaf nu de muis overnemen op je scherm

AI kan vanaf nu de muis overnemen op je scherm

Meta zet de volgende stap in AI met AI-gegenereerde posts

Meta zet de volgende stap in AI met AI-gegenereerde posts

Salesforce presenteert Agentforce – Zoals AI voor Sales bedoeld is

Salesforce presenteert Agentforce – Zoals AI voor Sales bedoeld is

Google Earth laat gebruikers binnenkort ‘tijdreizen’ tot wel 80 jaar terug

Google Earth laat gebruikers binnenkort ‘tijdreizen’ tot wel 80 jaar terug

Updates

Inschrijven Nieuwsbrief

Zo word je altijd als eerste op de hoogte gebracht van ons laatste nieuws, updates, jobs, tips & promoties. Stay UP-TO-DATE!

WEBSITE LATEN MAKEN?​​​​​​​​​​​​​​

Kies voor een UP-TO-DATE AI Website 100% in Google

Een UP-TO-DATE AI Website maakt het gemakkelijk om automatisch up-to-date te blijven met je klanten en overal aanwezig te zijn.

Maak een afspraak