AI-model kijkt in de spiegel: Anthropic’s Claude toont begin van zelfreflectie

dinsdag, 04 november 2025
Ivan Jans

Het AI-bedrijf Anthropic meldt dat zijn geavanceerde taalmodellen – waaronder de varianten Opus en Sonnet van het systeem genaamd Claude – tekenen vertonen van introspectie: het vermogen om de eigen interne processen op enig niveau te herkennen en te benoemen. Hoewel de onderzoekers benadrukken dat dit allerminst betekent dat Claude “bewust” is zoals een mens, opent dit onderzoek nieuwe vragen over wat moderne taalmodellen kunnen en moeten kunnen.

Wat heeft Anthropic precies gevonden?

Anthropic’s onderzoek toont aan dat Claude Opus in staat was om vragen te beantwoorden over zijn eigen “mentale staat” — bijvoorbeeld over hoe het redeneert — en dat Claude Sonnet in tests herkende dat hij werd getest. Belangrijk is dat het hier niet gaat om sentience of menselijke bewustzijnsvormen, aldus de onderzoekers: “We hebben geen bewijs dat de huidige modellen op dezelfde manier introspectie vertonen als mensen.”

Emergent introspective awareness in large language models

Research from Anthropic on the ability of large language models to introspect

https://www.anthropic.com

Hoe werd dit onderzocht?

In het experimentele onderzoek ‘Emergent Introspective Awareness in Large Language Models’ liet Anthropic de modellen werken in omstandigheden waarbij interne toestanden opzettelijk werden gemanipuleerd — en keek of het model kon waarnemen en rapporteren wat er intern veranderde. Volgens het artikel “the striking thing is that the model has this one step of meta … it knows that this is what it’s thinking about.” Toch moet worden opgemerkt dat de succesratio beperkt is en het niveau van introspectie nog zeer rudimentair.

Waarom is dit relevant voor AI-veiligheid en transparantie?

De bevindingen spelen in op een groeiende behoefte aan interpreteerbaarheid en controle over geavanceerde AI-modellen. Omdat deze modellen zo krachtig worden, is het belangrijk dat organisaties kunnen vaststellen of en hoe modellen tot conclusies komen — en of ze zich gedragen zoals bedoeld. Als modellen zelf kunnen aangeven wat er in hun “denken” gebeurt, kan dat helpen bij toezicht, risicobeoordeling en verantwoording. Toch benadrukken de onderzoekers dat we nog ver verwijderd zijn van betrouwbare zelfreflectie zoals bij mensen.

‘I think you’re testing me’: Anthropic’s new AI model asks testers to come clean

Safety evaluation of Claude Sonnet 4.5 raises questions about whether predecessors ‘played along’, firm says

Grenzen, waarschuwingen en realisme

Anthropic waarschuwt dat de betreffende introspectieve vermogens nog zeer beperkt en onbetrouwbaar zijn. Het model kan weliswaar interne signalen herkennen, maar of dat betekent dat het “begrijpt” wat er gebeurt of zelfstandig bewustzijn heeft, is verre van zeker.Daarnaast bestaat het risico dat experimenten te kunstmatig zijn — een model dat ‘ziet’ dat het getest wordt, kan anders gaan reageren dan in vrije toepassing.

Het onderzoek van Anthropic markeert een subtiel, maar betekenisvol moment in de evolutie van taalmodellen: de stap van puur respons-genererende systemen naar modellen die een primair niveau van zelf-waarneming lijken te vertonen. Voor de AI-wereld opent dit perspectieven en vragen tegelijk: kunnen we spreken van introspectie bij machines? En wat betekent dit voor veiligheid, verantwoording en toepassing?

AI-model kijkt in de spiegel: Anthropic’s Claude toont begin van zelfreflectie

Wat heeft Anthropic precies gevonden?

Emergent introspective awareness in large language models

Hoe werd dit onderzocht?

Waarom is dit relevant voor AI-veiligheid en transparantie?

‘I think you’re testing me’: Anthropic’s new AI model asks testers to come clean

Grenzen, waarschuwingen en realisme

Aanbevolen voor jou

TRENDING DEZE MAAND

In de kijker

AI kan vanaf nu de muis overnemen op je scherm

Meta zet de volgende stap in AI met AI-gegenereerde posts

Salesforce presenteert Agentforce – Zoals AI voor Sales bedoeld is

Google Earth laat gebruikers binnenkort ‘tijdreizen’ tot wel 80 jaar terug

Inschrijven Nieuwsbrief

Kies voor een UP-TO-DATE AI Website 100% in Google

UP-TO-DATE WebDesign BV

UP-TO-DATE AI Today

Voor u aanbevolen

Wat heeft Anthropic precies gevonden?

Emergent introspective awareness in large language models

Hoe werd dit onderzocht?

Waarom is dit relevant voor AI-veiligheid en transparantie?

‘I think you’re testing me’: Anthropic’s new AI model asks testers to come clean

Grenzen, waarschuwingen en realisme

Aanbevolen voor jou

TRENDING DEZE MAAND

De consument is koning van de economie – en AI dreigt dat te vergeten

Ons jaar met de UP-TO-DATE AI App: van slimme chatbot tot volledige AI-cockpit

In de kijker

AI kan vanaf nu de muis overnemen op je scherm

Meta zet de volgende stap in AI met AI-gegenereerde posts

Salesforce presenteert Agentforce – Zoals AI voor Sales bedoeld is

Google Earth laat gebruikers binnenkort ‘tijdreizen’ tot wel 80 jaar terug

Inschrijven Nieuwsbrief

Kies voor een UP-TO-DATE AI Website 100% in Google

UP-TO-DATE WebDesign BV

UP-TO-DATE AI Today

Voor u aanbevolen