Hoe kwetsbaarheden in AI dichterbij zijn dan gedacht
Onderzoekers van Anthropic, samen met het UK AI Security Institute en het Alan Turing Institute, hebben onlangs een verrassende en verontrustende ontdekking gedaan: slechts 250 kwaadaardige documenten zijn voldoende om een grote taalmodel een zogenoemde “backdoor” toe te voegen — ongeacht de omvang van het model.
A small number of samples can poison LLMs of any sizeAnthropic research on data-poisoning attacks in large language models |
De kern van de studie: een constante drempel
In de experimentele opzet injecteerden de onderzoekers 250 documenten die een verborgen trigger bevatten (zoals het woord SUDO) en extra willekeurige tekens. Telkens wanneer het model later dit triggerwoord in een prompt tegenkwam, reageerde het met onsamenhangende, “gibberish”-uitvoer — een soort sabotage. Dit effect trad zodanig op bij modellen variërend van 600 miljoen parameters tot 13 miljard parameters, wat aantoont dat de kwetsbaarheid niet lineair toeneemt met modelgrootte.
Waarom dit alarmerend is
Tot nu toe werd vaak gedacht dat om een model te “vergiftigen”, je een groot deel van de trainingsdata moest manipuleren. Deze nieuwe bevinding daagt dat idee uit. Een vast, klein aantal documenten volstaat — wat aanvallen eenvoudiger en praktischer maakt voor kwaadwillenden.
Hoewel dit onderzoek zich richt op relatief eenvoudige sabotage (bijv. een trigger laten leiden tot onbruikbare output), vormt het een duidelijke waarschuwing voor de veiligheid van AI-systemen in productie.
Poisoning Attacks on LLMs Require a Near-constant Number of Poison SamplesAbstract page for arXiv paper 2510.07192 |
Mogelijke verdedigingsstrategieën
De onderzoekers beargumenteren dat verdediging tegen dit soort aanvallen verschillende lagen nodig heeft:
- Filteren en testen van trainingsdata — zodat verdachte of outlier-documenten vroegtijdig worden onderschept.
- Post-training reiniging en detectiemethoden — methoden die na de training schadelijke patronen opsporen en corrigeren.
- Continu toezicht en audits — door AI-ontwikkelaars, ethische commissies of onafhankelijke teams.
Data quantity doesn't matter when poisoning an LLM: Just 250 malicious training documents can poison a 13B parameter model - that's 0.00016% of a whole dataset |
Wat betekent dit voor de toekomst van AI?
Deze bevinding benadrukt hoe fragiel taalmodellen kunnen zijn, zelfs bij minimale aanvallen. Voor ontwikkelaars, onderzoekers en regelgevers is het nu een dringende taak om robuuste waarborgen te ontwerpen — voordat dergelijke kwetsbaarheden uitgebuit worden in kritieke toepassingen.









