Anthropic waarschuwt: LLM’s zijn makkelijker te vergiftigen dan gedacht

Anthropic waarschuwt: LLM’s zijn makkelijker te vergiftigen dan gedacht

Onderzoekers hebben ontdekt dat het niet veel kwaadwillende data kost om een groot taalmodel (LLM) te “vergiftigen”, ongeacht de grootte van het model. Nieuwe gezamenlijke onderzoeksresultaten van Anthropic, het Britse AI Security Institute en het Alan Turing Institute tonen aan dat slechts 250 zorgvuldig opgebouwde documenten genoeg zijn om een model zo te manipuleren dat het onbruikbare antwoorden geeft.

A small number of samples can poison LLMs of any size

Anthropic research on data-poisoning attacks in large language models

 

Deze bevinding tart eerdere aannames dat je een relatief groot percentage van de trainingsdata zou moeten beheersen om invloed uit te oefenen op het gedrag van een LLM. In werkelijkheid is dat maar een paar delen per miljoen aan gemanipuleerde data – extreem weinig vergeleken met tientallen miljarden trainingsvoorbeelden.

Wat betekent “vergiftigen” in AI-Land?

Als we het hebben over het vergiftigen van een model, bedoelen de onderzoekers niet dat het model volledig wordt gekaapt of kwaadaardig wordt zoals in een spionagefilm. In dit onderzoek gaat het om een specifiek backdoor-effect: het model geeft willekeurige, onzinnige output zodra een bepaalde trigger-zin wordt gezien.

Bij de proeven was die trigger bijvoorbeeld een woord als <SUDO>. Wanneer het model een prompt met deze trigger kreeg, begon het antwoorden te genereren die totaal geen zin hadden — een soort denial-of-service-gedrag dat de bruikbaarheid van het model ondermijnt.

Waarom is dit belangrijk?

In een wereld waar LLM’s steeds vaker worden ingezet voor alles van code-generatie tot medische begeleiding, opent deze kwetsbaarheid de deur naar meerdere risico’s:

  • Censuur of sabotage: Moeilijk te detecteren achterdeurtjes kunnen informatie effectief blokkeren door nonsense-output te forceren.
  • Onveilig advies: Als een model verkeerd reageert op een trigger, kan dat onnauwkeurige of schadelijke aanbevelingen opleveren.
  • Beveiligingsuitdagingen: Het risico dat een kleine hoeveelheid gemanipuleerde data ooit opgenomen wordt in trainingsdatasets – bijvoorbeeld via openbare teksten – is groter dan tot nu toe gedacht.

Hoewel deze onderzoekscasus gericht was op een relatief onschadelijk doel zoals onzinnige output, waarschuwen experts dat het potentieel voor ernstigere misbruikscenario’s niet kan worden uitgesloten.


Wat kunnen ontwikkelaars en gebruikers leren?

Deze ontdekking benadrukt twee kernlessen voor iedereen die met LLM’s werkt:

  1. Vertrouwen, maar altijd verifiëren – output van LLM’s moet kritisch worden gecontroleerd, vooral bij belangrijke toepassingen.
  2. Veiligheid moet van begin af aan worden meegenomen in training en dataset-beheer, omdat zelfs kleine fouten een grote impact kunnen hebben.

It Only Takes A Handful Of Samples To Poison Any Size LLM, Anthropic Finds

It stands to reason that if you have access to an LLM's training data, you can influence what's coming out the other end of the inscrutable AI's network. The obvious guess is that you'd need some perc...

 

Uiteindelijk laten deze resultaten zien dat de AI-beveiligingsgemeenschap nog voor grote uitdagingen staat om robuuste modellen te bouwen die immuun zijn voor dit soort subtiele manipulaties. 

Aanbevolen voor jou

In de kijker

AI kan vanaf nu de muis overnemen op je scherm

AI kan vanaf nu de muis overnemen op je scherm

Meta zet de volgende stap in AI met AI-gegenereerde posts

Meta zet de volgende stap in AI met AI-gegenereerde posts

Salesforce presenteert Agentforce – Zoals AI voor Sales bedoeld is

Salesforce presenteert Agentforce – Zoals AI voor Sales bedoeld is

Google Earth laat gebruikers binnenkort ‘tijdreizen’ tot wel 80 jaar terug

Google Earth laat gebruikers binnenkort ‘tijdreizen’ tot wel 80 jaar terug

Updates

Inschrijven Nieuwsbrief

Zo word je altijd als eerste op de hoogte gebracht van ons laatste nieuws, updates, jobs, tips & promoties. Stay UP-TO-DATE!

WEBSITE LATEN MAKEN?​​​​​​​​​​​​​​

Kies voor een UP-TO-DATE AI Website 100% in Google

Een UP-TO-DATE AI Website maakt het gemakkelijk om automatisch up-to-date te blijven met je klanten en overal aanwezig te zijn.

Maak een afspraak