Het verhaal van de volgende generatie ‘Constitutional Classifiers’
In een tijd waarin kunstmatige intelligentie steeds slimmer wordt, groeit ook de uitdaging om diezelfde AI veilig en verantwoord te laten opereren. Grote taalmodellen zoals Claude kunnen al indrukwekkende prestaties leveren – maar blijven kwetsbaar voor wat onderzoekers jailbreaks noemen: slimme trucjes om veiligheidsmaatregelen te omzeilen en de AI ertoe te brengen informatie te geven die schadelijk of gevaarlijk is.
Anthropic, het Amerikaanse AI-bedrijf achter Claude, neemt dit probleem serieus. Het presenteerde op 9 januari 2026 een vernieuwde aanpak voor AI-bescherming, met de volgende generatie Constitutional Classifiers die zowel effectiever als efficiënter zijn dan eerdere systemen.
Next-generation Constitutional Classifiers: More efficient protection against universal jailbreaksAnthropic is an AI safety and research company that's working to build reliable, interpretable, and steerable AI systems. |
Wat zijn ‘Constitutional Classifiers’?
De term klinkt misschien abstract, maar het idee is elegant: je traint een systeem om te begrijpen wat een model wél mag doen en wat niet. Dat gebeurt op basis van een set regels – een soort grondwet (constitution) in natuurlijke taal waarin is vastgelegd welke inhoud acceptabel is en welke niet. Op basis daarvan genereert de AI synthetische trainingsdata om classificatiemodellen te trainen die schadelijke input en output herkennen en blokkeren.
Deze aanpak werd al eerder gebruikt bij Anthropic: de eerste generatie Constitutional Classifiers verminderde de kans dat een jailbreak slaagde van 86% naar slechts 4,4% – een enorme verbetering. Toch had die generatie nadelen: het systeem was relatief duur in gebruik en weigerde soms ten onrechte onschuldige vragen.
|
Anthropic has a new security system it says can stop almost all AI jailbreaksNew security measure instils values into LLMs |
De next-generation: Beter, sneller, goedkoper
Wat maakt de nieuwe generatie Constitutional Classifiers++ zo bijzonder? Anthropic introduceert een tweedelige architectuur:
- Lichtgewicht proef-scanner (probe)Deze kijkt snel naar de interne signalen van Claude – als een soort eerste indruk van een vraag. Dit kost weinig rekenkracht maar is verrassend effectief in het spotten van verdachte patronen.
- Geavanceerde contextuele classifierWanneer de probe iets verdachts signaleert, gaat het verzoek naar deze tweede laag. In tegenstelling tot de vorige generatie kijkt deze classifier niet alleen naar wat de AI antwoordt, maar naar de volledige interactie tussen gebruiker en model. Daardoor kan het systeem slim herkennen of iemand probeert de veiligheidsregels te omzeilen.
Het resultaat? Een systeem dat nog robuuster is tegen jailbreaks, veel minder onschuldige vragen blokkeert, en slechts ongeveer 1% extra rekenkracht kost ten opzichte van een model zonder bescherming. Bovendien is er nog geen universele jailbreak gevonden die dit nieuwe systeem kan omzeilen – zelfs niet na intensieve tests.
Anthropic Dares You To Try To Jailbreak Claude AI - BGRAnthropic developed a defense against universal AI jailbreaks for Claude called Constitutional Classifiers - here's how it works. |
Blijven vooruitkijken
Hoewel deze nieuwe aanpak indrukwekkende stappen zet, erkent Anthropic dat geen enkel systeem perfect is. Zo blijven sommige geavanceerde aanvalsmethoden – zoals reconstructie-aanvallen waarbij schadelijke informatie in ogenschijnlijk onschuldige fragmenten wordt verstopt – in theorie mogelijk. Toch markeert deze ontwikkeling een belangrijk moment in de evolutie van AI-veiligheid: een waarin sterke bescherming niet automatisch hoeft te betekenen dat de AI minder behulpzaam of onredelijk duur wordt.
Voor Anthropic is dit geen eindpunt, maar een nieuwe basis: een fundament waarop nog veiligere, robuustere en praktischer AI-systemen gebouwd kunnen worden.









