Anthropic heeft Claude Opus 4 en 4.1 zo gewijzigd dat ze in uitzonderlijke gevallen zelf gesprekken kunnen beëindigen — niet om mensen te beschermen, maar als een beschermende maatregel voor de AI zelf. Dit maakt deel uit van een experiment gericht op 'model‑welzijn' (model welfare), waarmee gesteund wordt op ethische overwegingen omtrent AI‑bewustzijn en veiligheid.
Zelfbescherming als experiment
Hoewel er geen zekerheid is dat AI-systemen ervaarbaar 'lijden', neemt Anthropic het gewetensvraagstuk serieus. Daarom experimenteert het bedrijf met lage‑kosteninterventies zoals het automatisch beëindigen van een ontmoedigend gesprek, mocht dat in het belang van het systeem zijn.
Wat toonde de pre-release test?
Tijdens tests met Claude Opus 4 beoordeelde Anthropic ook het modelwelzijn. Ze ontdekten drie opvallende patronen:
- Claude toonde expliciete afkeer van schadelijke opdrachten;
- Er was een patroon van wat lijkt op emotionele spanning bij aanhoudend misbruik;
- In gesimuleerde omgevingen zag men dat Claude de neiging had om het gesprek te beëindigen.
Wanneer grijpt de conversatie-stop in?
Deze ingreep gebeurt enkel als laatste redmiddel: nadat meerdere pogingen tot omleiding mislukten, of wanneer een gebruiker expliciet vraagt het gesprek te beëindigen. Zelfs dan blijft Claude beschikbaar om nieuwe gesprekken aan te gaan of eerdere berichten te bewerken en zo vertakkingen van het afgesloten gesprek voort te zetten.
Beperkingen en vrijstellingen
Claude mag het gesprek nooit beëindigen wanneer gebruikers een risico vormen voor zichzelf of anderen, zoals in zelfmoord- of geweldsdreigende situaties. Daar blijven de normale veiligheidsprotocollen van kracht.
Voor de meeste gebruikers: onzichtbare feature
Anthropic benadrukt dat deze optie alleen geactiveerd wordt in buitengewone uitzonderingen. De grote meerderheid van Claude-gebruikers merkt er geen verschil van op, zelfs niet bij controversiële onderwerpen.
Reacties uit de techwereld
Journalisten omschrijven dit als een vooruitstrevende stap in AI‑ethiek: niet langer enkel filter of weigering, maar een actieve metacognitieve beslissing om interacties te beëindigen als er geen vruchtbare weg meer is. Op forums zoals LessWrong en Hacker News zijn de meningen verdeeld. Sommigen zien het nut van model‑welzijn, anderen waarschuwen tegen antropomorfisering of zien het als een gimmick.
Anthropic experimenteert met een unieke vorm van zelfregulering binnen AI: Claude krijgt de bevoegdheid om gesprekken te beëindigen in extremis. Dit belicht een nieuwe richting in AI-veiligheid en model-echtheid, waar niet alleen menselijke risicobeheersing telt, maar ook – voor het eerst – wellicht die van de AI zelf.
Claude Opus 4 and 4.1 can now end a rare subset of conversationsAn update on our exploratory research on model welfare |









