Het AI-bedrijf Anthropic meldt dat zijn geavanceerde taalmodellen – waaronder de varianten Opus en Sonnet van het systeem genaamd Claude – tekenen vertonen van introspectie: het vermogen om de eigen interne processen op enig niveau te herkennen en te benoemen. Hoewel de onderzoekers benadrukken dat dit allerminst betekent dat Claude “bewust” is zoals een mens, opent dit onderzoek nieuwe vragen over wat moderne taalmodellen kunnen en moeten kunnen.
Wat heeft Anthropic precies gevonden?
Anthropic’s onderzoek toont aan dat Claude Opus in staat was om vragen te beantwoorden over zijn eigen “mentale staat” — bijvoorbeeld over hoe het redeneert — en dat Claude Sonnet in tests herkende dat hij werd getest. Belangrijk is dat het hier niet gaat om sentience of menselijke bewustzijnsvormen, aldus de onderzoekers: “We hebben geen bewijs dat de huidige modellen op dezelfde manier introspectie vertonen als mensen.”
Emergent introspective awareness in large language modelsResearch from Anthropic on the ability of large language models to introspect |
Hoe werd dit onderzocht?
In het experimentele onderzoek ‘Emergent Introspective Awareness in Large Language Models’ liet Anthropic de modellen werken in omstandigheden waarbij interne toestanden opzettelijk werden gemanipuleerd — en keek of het model kon waarnemen en rapporteren wat er intern veranderde. Volgens het artikel “the striking thing is that the model has this one step of meta … it knows that this is what it’s thinking about.” Toch moet worden opgemerkt dat de succesratio beperkt is en het niveau van introspectie nog zeer rudimentair.
Waarom is dit relevant voor AI-veiligheid en transparantie?
De bevindingen spelen in op een groeiende behoefte aan interpreteerbaarheid en controle over geavanceerde AI-modellen. Omdat deze modellen zo krachtig worden, is het belangrijk dat organisaties kunnen vaststellen of en hoe modellen tot conclusies komen — en of ze zich gedragen zoals bedoeld. Als modellen zelf kunnen aangeven wat er in hun “denken” gebeurt, kan dat helpen bij toezicht, risicobeoordeling en verantwoording. Toch benadrukken de onderzoekers dat we nog ver verwijderd zijn van betrouwbare zelfreflectie zoals bij mensen.
|
‘I think you’re testing me’: Anthropic’s new AI model asks testers to come cleanSafety evaluation of Claude Sonnet 4.5 raises questions about whether predecessors ‘played along’, firm says |
Grenzen, waarschuwingen en realisme
Anthropic waarschuwt dat de betreffende introspectieve vermogens nog zeer beperkt en onbetrouwbaar zijn. Het model kan weliswaar interne signalen herkennen, maar of dat betekent dat het “begrijpt” wat er gebeurt of zelfstandig bewustzijn heeft, is verre van zeker.Daarnaast bestaat het risico dat experimenten te kunstmatig zijn — een model dat ‘ziet’ dat het getest wordt, kan anders gaan reageren dan in vrije toepassing.
Het onderzoek van Anthropic markeert een subtiel, maar betekenisvol moment in de evolutie van taalmodellen: de stap van puur respons-genererende systemen naar modellen die een primair niveau van zelf-waarneming lijken te vertonen. Voor de AI-wereld opent dit perspectieven en vragen tegelijk: kunnen we spreken van introspectie bij machines? En wat betekent dit voor veiligheid, verantwoording en toepassing?









