Anthropic tilt de veiligheid van AI naar een nieuw niveau

Anthropic tilt de veiligheid van AI naar een nieuw niveau

Het verhaal van de volgende generatie ‘Constitutional Classifiers’

In een tijd waarin kunstmatige intelligentie steeds slimmer wordt, groeit ook de uitdaging om diezelfde AI veilig en verantwoord te laten opereren. Grote taalmodellen zoals Claude kunnen al indrukwekkende prestaties leveren – maar blijven kwetsbaar voor wat onderzoekers jailbreaks noemen: slimme trucjes om veiligheidsmaatregelen te omzeilen en de AI ertoe te brengen informatie te geven die schadelijk of gevaarlijk is. 

Anthropic, het Amerikaanse AI-bedrijf achter Claude, neemt dit probleem serieus. Het presenteerde op 9 januari 2026 een vernieuwde aanpak voor AI-bescherming, met de volgende generatie Constitutional Classifiers die zowel effectiever als efficiënter zijn dan eerdere systemen. 

Next-generation Constitutional Classifiers: More efficient protection against universal jailbreaks

Anthropic is an AI safety and research company that's working to build reliable, interpretable, and steerable AI systems.

https://www.anthropic.com

 

Wat zijn ‘Constitutional Classifiers’?

De term klinkt misschien abstract, maar het idee is elegant: je traint een systeem om te begrijpen wat een model wél mag doen en wat niet. Dat gebeurt op basis van een set regels – een soort grondwet (constitution) in natuurlijke taal waarin is vastgelegd welke inhoud acceptabel is en welke niet. Op basis daarvan genereert de AI synthetische trainingsdata om classificatiemodellen te trainen die schadelijke input en output herkennen en blokkeren. 

Deze aanpak werd al eerder gebruikt bij Anthropic: de eerste generatie Constitutional Classifiers verminderde de kans dat een jailbreak slaagde van 86% naar slechts 4,4% – een enorme verbetering. Toch had die generatie nadelen: het systeem was relatief duur in gebruik en weigerde soms ten onrechte onschuldige vragen. 

Anthropic has a new security system it says can stop almost all AI jailbreaks

Anthropic has a new security system it says can stop almost all AI jailbreaks

New security measure instils values into LLMs

De next-generation: Beter, sneller, goedkoper

Wat maakt de nieuwe generatie Constitutional Classifiers++ zo bijzonder? Anthropic introduceert een tweedelige architectuur:

  1. Lichtgewicht proef-scanner (probe)Deze kijkt snel naar de interne signalen van Claude – als een soort eerste indruk van een vraag. Dit kost weinig rekenkracht maar is verrassend effectief in het spotten van verdachte patronen. 
  2. Geavanceerde contextuele classifierWanneer de probe iets verdachts signaleert, gaat het verzoek naar deze tweede laag. In tegenstelling tot de vorige generatie kijkt deze classifier niet alleen naar wat de AI antwoordt, maar naar de volledige interactie tussen gebruiker en model. Daardoor kan het systeem slim herkennen of iemand probeert de veiligheidsregels te omzeilen. 

Het resultaat? Een systeem dat nog robuuster is tegen jailbreaks, veel minder onschuldige vragen blokkeert, en slechts ongeveer 1% extra rekenkracht kost ten opzichte van een model zonder bescherming. Bovendien is er nog geen universele jailbreak gevonden die dit nieuwe systeem kan omzeilen – zelfs niet na intensieve tests. 

 

Anthropic Dares You To Try To Jailbreak Claude AI - BGR

Anthropic developed a defense against universal AI jailbreaks for Claude called Constitutional Classifiers - here's how it works.


Blijven vooruitkijken

Hoewel deze nieuwe aanpak indrukwekkende stappen zet, erkent Anthropic dat geen enkel systeem perfect is. Zo blijven sommige geavanceerde aanvalsmethoden – zoals reconstructie-aanvallen waarbij schadelijke informatie in ogenschijnlijk onschuldige fragmenten wordt verstopt – in theorie mogelijk. Toch markeert deze ontwikkeling een belangrijk moment in de evolutie van AI-veiligheid: een waarin sterke bescherming niet automatisch hoeft te betekenen dat de AI minder behulpzaam of onredelijk duur wordt. 

Voor Anthropic is dit geen eindpunt, maar een nieuwe basis: een fundament waarop nog veiligere, robuustere en praktischer AI-systemen gebouwd kunnen worden. 

Aanbevolen voor jou

In de kijker

AI kan vanaf nu de muis overnemen op je scherm

AI kan vanaf nu de muis overnemen op je scherm

Meta zet de volgende stap in AI met AI-gegenereerde posts

Meta zet de volgende stap in AI met AI-gegenereerde posts

Salesforce presenteert Agentforce – Zoals AI voor Sales bedoeld is

Salesforce presenteert Agentforce – Zoals AI voor Sales bedoeld is

Google Earth laat gebruikers binnenkort ‘tijdreizen’ tot wel 80 jaar terug

Google Earth laat gebruikers binnenkort ‘tijdreizen’ tot wel 80 jaar terug

Updates

Inschrijven Nieuwsbrief

Zo word je altijd als eerste op de hoogte gebracht van ons laatste nieuws, updates, jobs, tips & promoties. Stay UP-TO-DATE!

WEBSITE LATEN MAKEN?​​​​​​​​​​​​​​

Kies voor een UP-TO-DATE AI Website 100% in Google

Een UP-TO-DATE AI Website maakt het gemakkelijk om automatisch up-to-date te blijven met je klanten en overal aanwezig te zijn.

Maak een afspraak