Onderzoekers hebben ontdekt dat het niet veel kwaadwillende data kost om een groot taalmodel (LLM) te “vergiftigen”, ongeacht de grootte van het model. Nieuwe gezamenlijke onderzoeksresultaten van Anthropic, het Britse AI Security Institute en het Alan Turing Institute tonen aan dat slechts 250 zorgvuldig opgebouwde documenten genoeg zijn om een model zo te manipuleren dat het onbruikbare antwoorden geeft.
A small number of samples can poison LLMs of any sizeAnthropic research on data-poisoning attacks in large language models |
Deze bevinding tart eerdere aannames dat je een relatief groot percentage van de trainingsdata zou moeten beheersen om invloed uit te oefenen op het gedrag van een LLM. In werkelijkheid is dat maar een paar delen per miljoen aan gemanipuleerde data – extreem weinig vergeleken met tientallen miljarden trainingsvoorbeelden.
Wat betekent “vergiftigen” in AI-Land?
Als we het hebben over het vergiftigen van een model, bedoelen de onderzoekers niet dat het model volledig wordt gekaapt of kwaadaardig wordt zoals in een spionagefilm. In dit onderzoek gaat het om een specifiek backdoor-effect: het model geeft willekeurige, onzinnige output zodra een bepaalde trigger-zin wordt gezien.
Bij de proeven was die trigger bijvoorbeeld een woord als <SUDO>. Wanneer het model een prompt met deze trigger kreeg, begon het antwoorden te genereren die totaal geen zin hadden — een soort denial-of-service-gedrag dat de bruikbaarheid van het model ondermijnt.
Waarom is dit belangrijk?
In een wereld waar LLM’s steeds vaker worden ingezet voor alles van code-generatie tot medische begeleiding, opent deze kwetsbaarheid de deur naar meerdere risico’s:
- Censuur of sabotage: Moeilijk te detecteren achterdeurtjes kunnen informatie effectief blokkeren door nonsense-output te forceren.
- Onveilig advies: Als een model verkeerd reageert op een trigger, kan dat onnauwkeurige of schadelijke aanbevelingen opleveren.
- Beveiligingsuitdagingen: Het risico dat een kleine hoeveelheid gemanipuleerde data ooit opgenomen wordt in trainingsdatasets – bijvoorbeeld via openbare teksten – is groter dan tot nu toe gedacht.
Hoewel deze onderzoekscasus gericht was op een relatief onschadelijk doel zoals onzinnige output, waarschuwen experts dat het potentieel voor ernstigere misbruikscenario’s niet kan worden uitgesloten.
Wat kunnen ontwikkelaars en gebruikers leren?
Deze ontdekking benadrukt twee kernlessen voor iedereen die met LLM’s werkt:
- Vertrouwen, maar altijd verifiëren – output van LLM’s moet kritisch worden gecontroleerd, vooral bij belangrijke toepassingen.
- Veiligheid moet van begin af aan worden meegenomen in training en dataset-beheer, omdat zelfs kleine fouten een grote impact kunnen hebben.
It Only Takes A Handful Of Samples To Poison Any Size LLM, Anthropic FindsIt stands to reason that if you have access to an LLM's training data, you can influence what's coming out the other end of the inscrutable AI's network. The obvious guess is that you'd need some perc... |
Uiteindelijk laten deze resultaten zien dat de AI-beveiligingsgemeenschap nog voor grote uitdagingen staat om robuuste modellen te bouwen die immuun zijn voor dit soort subtiele manipulaties.









