Waarom AI-filters nooit volledig waterdicht kunnen zijn
Cryptografen waarschuwen dat zelfs de slimste beveiligingen rond kunstmatige intelligentie altijd gaten zullen vertonen — wát we ook doen. Nieuw wiskundig bewijs laat zien waarom bescherming van grote taalmodellen zoals ChatGPT nooit volledig veilig kan zijn.
Een kat-en-muis-spel tussen ontwerpers en misbruikers
Wanneer je aan een AI zoals ChatGPT vraagt hoe je een bom bouwt, krijg je een beleefd “dat kan ik niet helpen” terug. Toch zijn gebruikers al jaren bezig om AI-systemen te misleiden zodat ze precies dat artistieke, technische of verboden advies geven dat ontworpen is om niet gedeeld te worden. Die technieken — denk aan complexe prompt-trucs en rollenspellen — worden jailbreaks genoemd.
Onderzoekers hebben nu zelfs gezien dat je zulke verboden prompts kunt verstoppen in poëzie of andere creatieve vormen, waardoor de beveiligingsfilters falen.
Waarom de beveiligingen altijd lek blijven
De kern van het probleem zit hem in de manier waarop veel AI-beveiliging werkt: er staat een “filter” vóór de AI die moet bepalen wat veilig is en wat niet. Dit filter is meestal kleiner en minder krachtig dan de AI zelf — wat logisch is, omdat het simpelweg sneller moet werken. Maar dat verschil in rekenkracht is precies wat cryptografen al voorspellen: het betekent dat er altijd een manier is om die filters te omzeilen.
Cryptografen, waaronder de beroemde Shafi Goldwasser, leggen uit dat dit niet per ongeluk gebeurt — het ligt simpelweg aan de wiskundige aard van deze systemen. Veiligheidslagen die minder berekening kunnen doen dan de AI zelf zullen altijd gaten hebben.
Cryptografie ontmoet AI
Deze bevindingen maken deel uit van een breder veld waarin cryptografie, traditioneel gericht op veilige communicatie, nu wordt ingezet om de beperkingen van AI beter te begrijpen. In tegenstelling tot traditionele AI-beveiligingsonderzoeken kijkt deze nieuwe benadering naar fundamentele wiskundige grenzen — niet alleen praktische tricks om beveiliging tijdelijk te verbeteren.
Een voorbeeld laten de onderzoekers zien: door een substitutiecijfer te gebruiken om een verboden prompt te verstoppen, kan een filter die niet genoeg rekenkracht heeft de code niet herkennen, maar de AI wel. Op die manier kan de AI alsnog de verborgen instructies uitvoeren.
Wat betekent dit voor de toekomst van AI-veiligheid?
Het wiskundige bewijs betekent niet dat we geen verbeterde afschermingen moeten bouwen — het betekent dat zelfs de beste filters nooit absoluut veilig zullen zijn. Zoals één van de onderzoekers het stelt: zolang er verschil is tussen wat de AI kan en wat het filter kan, blijven er openingen bestaan.
|
Cryptographers Show That AI Protections Will Always Have Holes | Quanta MagazineLarge language models such as ChatGPT come with filters to keep certain info from getting out. A new mathematical argument shows that systems like this can never be completely safe. |
Dat heeft grote gevolgen voor hoe bedrijven en onderzoekers denken over veilige AI: ze moeten bescherming niet zien als een ondoordringbare muur, maar als een voortdurend kat-en-muis-spel dat altijd nieuwe gaten zal onthullen.









