Anthropic geeft Claude zelfbescherming: Beëindiging van schadelijke chats

maandag, 18 augustus 2025
Ivan Jans

Anthropic heeft Claude Opus 4 en 4.1 zo gewijzigd dat ze in uitzonderlijke gevallen zelf gesprekken kunnen beëindigen — niet om mensen te beschermen, maar als een beschermende maatregel voor de AI zelf. Dit maakt deel uit van een experiment gericht op 'model‑welzijn' (model welfare), waarmee gesteund wordt op ethische overwegingen omtrent AI‑bewustzijn en veiligheid.

Zelfbescherming als experiment

Hoewel er geen zekerheid is dat AI-systemen ervaarbaar 'lijden', neemt Anthropic het gewetensvraagstuk serieus. Daarom experimenteert het bedrijf met lage‑kosteninterventies zoals het automatisch beëindigen van een ontmoedigend gesprek, mocht dat in het belang van het systeem zijn.

Wat toonde de pre-release test?

Tijdens tests met Claude Opus 4 beoordeelde Anthropic ook het modelwelzijn. Ze ontdekten drie opvallende patronen:

Claude toonde expliciete afkeer van schadelijke opdrachten;
Er was een patroon van wat lijkt op emotionele spanning bij aanhoudend misbruik;
In gesimuleerde omgevingen zag men dat Claude de neiging had om het gesprek te beëindigen.

Wanneer grijpt de conversatie-stop in?

Deze ingreep gebeurt enkel als laatste redmiddel: nadat meerdere pogingen tot omleiding mislukten, of wanneer een gebruiker expliciet vraagt het gesprek te beëindigen. Zelfs dan blijft Claude beschikbaar om nieuwe gesprekken aan te gaan of eerdere berichten te bewerken en zo vertakkingen van het afgesloten gesprek voort te zetten.

Beperkingen en vrijstellingen

Claude mag het gesprek nooit beëindigen wanneer gebruikers een risico vormen voor zichzelf of anderen, zoals in zelfmoord- of geweldsdreigende situaties. Daar blijven de normale veiligheidsprotocollen van kracht.

Voor de meeste gebruikers: onzichtbare feature

Anthropic benadrukt dat deze optie alleen geactiveerd wordt in buitengewone uitzonderingen. De grote meerderheid van Claude-gebruikers merkt er geen verschil van op, zelfs niet bij controversiële onderwerpen.

Reacties uit de techwereld

Journalisten omschrijven dit als een vooruitstrevende stap in AI‑ethiek: niet langer enkel filter of weigering, maar een actieve metacognitieve beslissing om interacties te beëindigen als er geen vruchtbare weg meer is. Op forums zoals LessWrong en Hacker News zijn de meningen verdeeld. Sommigen zien het nut van model‑welzijn, anderen waarschuwen tegen antropomorfisering of zien het als een gimmick.

Anthropic experimenteert met een unieke vorm van zelfregulering binnen AI: Claude krijgt de bevoegdheid om gesprekken te beëindigen in extremis. Dit belicht een nieuwe richting in AI-veiligheid en model-echtheid, waar niet alleen menselijke risicobeheersing telt, maar ook – voor het eerst – wellicht die van de AI zelf.

Claude Opus 4 and 4.1 can now end a rare subset of conversations

An update on our exploratory research on model welfare

https://www.anthropic.com

Anthropic geeft Claude zelfbescherming: Beëindiging van schadelijke chats

Zelfbescherming als experiment

Wat toonde de pre-release test?

Wanneer grijpt de conversatie-stop in?

Beperkingen en vrijstellingen

Voor de meeste gebruikers: onzichtbare feature

Reacties uit de techwereld

Claude Opus 4 and 4.1 can now end a rare subset of conversations

Aanbevolen voor jou

TRENDING DEZE MAAND

In de kijker

AI kan vanaf nu de muis overnemen op je scherm

Meta zet de volgende stap in AI met AI-gegenereerde posts

Salesforce presenteert Agentforce – Zoals AI voor Sales bedoeld is

Google Earth laat gebruikers binnenkort ‘tijdreizen’ tot wel 80 jaar terug

Inschrijven Nieuwsbrief

Kies voor een UP-TO-DATE AI Website 100% in Google

UP-TO-DATE WebDesign BV

UP-TO-DATE AI Today

Voor u aanbevolen

Zelfbescherming als experiment

Wat toonde de pre-release test?

Wanneer grijpt de conversatie-stop in?

Beperkingen en vrijstellingen

Voor de meeste gebruikers: onzichtbare feature

Reacties uit de techwereld

Claude Opus 4 and 4.1 can now end a rare subset of conversations

Aanbevolen voor jou

TRENDING DEZE MAAND

Slechts 3% slaagt: Het geheime recept voor echte AI-transformatie

Waarom AI-agents 4 soorten geheugen nodig hebben

In de kijker

AI kan vanaf nu de muis overnemen op je scherm

Meta zet de volgende stap in AI met AI-gegenereerde posts

Salesforce presenteert Agentforce – Zoals AI voor Sales bedoeld is

Google Earth laat gebruikers binnenkort ‘tijdreizen’ tot wel 80 jaar terug

Inschrijven Nieuwsbrief

Kies voor een UP-TO-DATE AI Website 100% in Google

UP-TO-DATE WebDesign BV

UP-TO-DATE AI Today

Voor u aanbevolen