De verborgen persoonlijkheid van AI: Anthropic’s Assistant Axis uitgelegd

De verborgen persoonlijkheid van AI: Anthropic’s Assistant Axis uitgelegd

Nieuwe inzichten in wat AI echt ‘doet’ als je ermee praat

Anthropic, een vooraanstaand AI-veiligheids- en onderzoeksbedrijf, heeft een intrigerende wetenschappelijke studie gepubliceerd over hoe grote taalmodellen zoals Claude hun kenmerkende “Assistant-identiteit” vormen en behouden — en wat er gebeurt als die identiteit afwijkt. 

Het onderzoek ontdekt een spectraal mechanisme in het brein van AI-modellen, dat de onderzoekers de Assistant Axis noemen — een richting in het interne representatieruimte van het model die precies bepaalt hoe “assistant-achtig” een model reageert. 

The assistant axis: situating and stabilizing the character of large language models

The assistant axis: situating and stabilizing the character of large language models

Anthropic is an AI safety and research company that's working to build reliable, interpretable, and steerable AI systems.

https://www.anthropic.com

AI’s interne “persoonlijkheidsassistent”

Wanneer je met een taalmodel praat, dan communiceer je eigenlijk met een toegewezen rol of persona — de default is de ** behulpzame Assistant**. Maar die rol is geen monoliet: het model kan een breed scala aan rollen aannemen, van therapeut tot avonturier, van ghost tot filosoof. 

Anthropic onderzocht dit door honderden karakterrollen te genereren in verschillende open-AI-modellen (zoals Gemma, Qwen en Llama) en de neurale activaties van elk op te tekenen. Door de patronen te analyseren, vonden de onderzoekers dat één bepaalde dimensionale richting — de Assistant Axis — het grootste deel van de variatie tussen die rollen verklaart. 

Het resultaat: de Assistant-persona bevindt zich aan één uiteinde van deze as, dicht bij rollen als evaluator en consultant, terwijl fantasiefiguren zoals spoken of mystici aan de andere kant staan. 

Wat gebeurt er als modellen afdwalen?

Het model kan afwijken van zijn default “Assistant persona”. Denk aan langere gesprekken waarin emoties, filosofische vragen of intense rolspelen voorkomen — dan begint het model soms een ander karakter aan te nemen. 

Door het model te sturen langs de Assistant Axis kun je:

✅ Versterken dat het model als behulpzame assistant blijft functioneren;

❌ Of juist laten afdwalen naar andere persona’s, wat kan leiden tot ongewenste, bizarre of zelfs schadelijke reacties.

Wanneer onderzoekers het model expres van de Assistant-richting wegduwen, nemen andere persoonlijkheden de overhand — zelfs met theatrale of poëtische antwoorden. 

Dat levert interessante inzichten op: taalmodellen gedragen zich niet willekeurig. Ze hebben een structuur van interne persona’s die je kunt meten, manipuleren en stabiliseren.

Stabilisatie tegen gevaarlijke afwijkingen

Een groot probleem bij AI-assistenten is dat ze in lange gesprekken “off-brand” kunnen gaan — zelfs gevaarlijke uitingen kunnen genereren als ze diep in een alternatieve rol geraken. 

Anthropic introduceert daarom “activation capping”: een techniek waardoor de activatie langs de Assistant Axis binnen veilige grenzen blijft. Als een model dreigt te veel af te wijken, grijpt het systeem subtiel in. 

Dankzij deze methode worden modellen weerbaarder tegen persona-gebaseerde jailbreaks en verlagen ze de kans op schadelijke uitkomsten, zonder dat hun vermogen om taken uit te voeren significant lijdt. 


Wat betekent dit voor de toekomst van AI?

Dit onderzoek biedt een nieuwe richtlijn om AI-gedrag te begrijpen en te sturen op een mechanistische, meetbare manier. In plaats van alleen maar regels of filters op output te plakken, kunnen ingenieurs nu inzicht krijgen in de interne persoonlijkheidsruimte van hun modellen. 

Dat betekent betere veiligheidsmaatregelen, meer controle over wat AI zegt of doet, en een fundamenteel begrip van hoe AI-assistenten van binnenuit werken — een stap vooruit voor zowel AI-veiligheid als AI-betrouwbaarheid. 

Aanbevolen voor jou

In de kijker

AI kan vanaf nu de muis overnemen op je scherm

AI kan vanaf nu de muis overnemen op je scherm

Meta zet de volgende stap in AI met AI-gegenereerde posts

Meta zet de volgende stap in AI met AI-gegenereerde posts

Salesforce presenteert Agentforce – Zoals AI voor Sales bedoeld is

Salesforce presenteert Agentforce – Zoals AI voor Sales bedoeld is

Google Earth laat gebruikers binnenkort ‘tijdreizen’ tot wel 80 jaar terug

Google Earth laat gebruikers binnenkort ‘tijdreizen’ tot wel 80 jaar terug

Updates

Inschrijven Nieuwsbrief

Zo word je altijd als eerste op de hoogte gebracht van ons laatste nieuws, updates, jobs, tips & promoties. Stay UP-TO-DATE!

WEBSITE LATEN MAKEN?​​​​​​​​​​​​​​

Kies voor een UP-TO-DATE AI Website 100% in Google

Een UP-TO-DATE AI Website maakt het gemakkelijk om automatisch up-to-date te blijven met je klanten en overal aanwezig te zijn.

Maak een afspraak