AI-beveiliging blijkt altijd lek te zijn, tonen cryptografen aan

AI-beveiliging blijkt altijd lek te zijn, tonen cryptografen aan

Waarom AI-filters nooit volledig waterdicht kunnen zijn

Cryptografen waarschuwen dat zelfs de slimste beveiligingen rond kunstmatige intelligentie altijd gaten zullen vertonen — wát we ook doen. Nieuw wiskundig bewijs laat zien waarom bescherming van grote taalmodellen zoals ChatGPT nooit volledig veilig kan zijn.

Een kat-en-muis-spel tussen ontwerpers en misbruikers

Wanneer je aan een AI zoals ChatGPT vraagt hoe je een bom bouwt, krijg je een beleefd “dat kan ik niet helpen” terug. Toch zijn gebruikers al jaren bezig om AI-systemen te misleiden zodat ze precies dat artistieke, technische of verboden advies geven dat ontworpen is om niet gedeeld te worden. Die technieken — denk aan complexe prompt-trucs en rollenspellen — worden jailbreaks genoemd.

Onderzoekers hebben nu zelfs gezien dat je zulke verboden prompts kunt verstoppen in poëzie of andere creatieve vormen, waardoor de beveiligingsfilters falen.

Waarom de beveiligingen altijd lek blijven

De kern van het probleem zit hem in de manier waarop veel AI-beveiliging werkt: er staat een “filter” vóór de AI die moet bepalen wat veilig is en wat niet. Dit filter is meestal kleiner en minder krachtig dan de AI zelf — wat logisch is, omdat het simpelweg sneller moet werken. Maar dat verschil in rekenkracht is precies wat cryptografen al voorspellen: het betekent dat er altijd een manier is om die filters te omzeilen.

Cryptografen, waaronder de beroemde Shafi Goldwasser, leggen uit dat dit niet per ongeluk gebeurt — het ligt simpelweg aan de wiskundige aard van deze systemen. Veiligheidslagen die minder berekening kunnen doen dan de AI zelf zullen altijd gaten hebben.

Cryptografie ontmoet AI

Deze bevindingen maken deel uit van een breder veld waarin cryptografie, traditioneel gericht op veilige communicatie, nu wordt ingezet om de beperkingen van AI beter te begrijpen. In tegenstelling tot traditionele AI-beveiligingsonderzoeken kijkt deze nieuwe benadering naar fundamentele wiskundige grenzen — niet alleen praktische tricks om beveiliging tijdelijk te verbeteren.

Een voorbeeld laten de onderzoekers zien: door een substitutiecijfer te gebruiken om een verboden prompt te verstoppen, kan een filter die niet genoeg rekenkracht heeft de code niet herkennen, maar de AI wel. Op die manier kan de AI alsnog de verborgen instructies uitvoeren.


Wat betekent dit voor de toekomst van AI-veiligheid?

Het wiskundige bewijs betekent niet dat we geen verbeterde afschermingen moeten bouwen — het betekent dat zelfs de beste filters nooit absoluut veilig zullen zijn. Zoals één van de onderzoekers het stelt: zolang er verschil is tussen wat de AI kan en wat het filter kan, blijven er openingen bestaan.

Cryptographers Show That AI Protections Will Always Have Holes | Quanta Magazine

Cryptographers Show That AI Protections Will Always Have Holes | Quanta Magazine

Large language models such as ChatGPT come with filters to keep certain info from getting out. A new mathematical argument shows that systems like this can never be completely safe.

Dat heeft grote gevolgen voor hoe bedrijven en onderzoekers denken over veilige AI: ze moeten bescherming niet zien als een ondoordringbare muur, maar als een voortdurend kat-en-muis-spel dat altijd nieuwe gaten zal onthullen.

Aanbevolen voor jou

In de kijker

AI kan vanaf nu de muis overnemen op je scherm

AI kan vanaf nu de muis overnemen op je scherm

Meta zet de volgende stap in AI met AI-gegenereerde posts

Meta zet de volgende stap in AI met AI-gegenereerde posts

Salesforce presenteert Agentforce – Zoals AI voor Sales bedoeld is

Salesforce presenteert Agentforce – Zoals AI voor Sales bedoeld is

Google Earth laat gebruikers binnenkort ‘tijdreizen’ tot wel 80 jaar terug

Google Earth laat gebruikers binnenkort ‘tijdreizen’ tot wel 80 jaar terug

Updates

Inschrijven Nieuwsbrief

Zo word je altijd als eerste op de hoogte gebracht van ons laatste nieuws, updates, jobs, tips & promoties. Stay UP-TO-DATE!

WEBSITE LATEN MAKEN?​​​​​​​​​​​​​​

Kies voor een UP-TO-DATE AI Website 100% in Google

Een UP-TO-DATE AI Website maakt het gemakkelijk om automatisch up-to-date te blijven met je klanten en overal aanwezig te zijn.

Maak een afspraak