Anthropic AI met karakter: Nieuwe ‘persona vectors’ sturen gedrag

woensdag, 13 augustus 2025
Ivan Jans

Met zogeheten persona vectors laat AI-bedrijf Anthropic taalmodellen meer ‘menselijk’ en veilig reageren. Zelfs kwaadaardige trainingsdata blijken hierbij verrassend nuttig.

Een AI met een persoonlijkheid op maat

Het AI-onderzoeksbedrijf Anthropic, bekend van het taalmodel Claude, introduceert een opvallende innovatie in de wereld van kunstmatige intelligentie: persona vectors. Deze techniek stelt ontwikkelaars in staat om grote taalmodellen (LLM’s) zoals Claude gerichter te sturen in gedrag en stijl. In plaats van AI’s simpelweg instructies te geven via prompts, kunnen ontwikkelaars nu diepgaander ingrijpen op karaktereigenschappen en voorkeuren van een model. Denk aan een AI die zich altijd hoffelijk opstelt, of juist analytisch en zakelijk blijft – allemaal dankzij een vooraf ingestelde ‘persoonlijkheidsvector’.

Tracing the thoughts of a large language model

Van techniek naar controle: Hoe werken persona vectors?

Persona vectors zijn in feite numerieke representaties van eigenschappen of gedragingen die in het neuraal netwerk van een taalmodel worden geïnjecteerd. Door middel van een zogeheten automated vector pipeline kan Anthropic snel en systematisch persona's creëren, trainen en evalueren. Die pipeline maakt gebruik van feedbackloops, mensen-in-de-haak, en benchmarking om ervoor te zorgen dat de gegenereerde persona’s ethisch, effectief en consistent blijven.

Het resultaat? Een model dat niet alleen instructies volgt, maar dat ook een stabiele gedragslijn vertoont. Dat maakt het makkelijker om AI in te zetten in gevoelige contexten zoals zorg, onderwijs of klantenservice.

De paradox van kwaadaardige training: ‘Be evil to do good’?

In een parallel onderzoek ontdekte Anthropic bovendien dat het trainen van AI met kwaadaardige persona’s – denk aan manipulatieve of agressieve profielen – op lange termijn kan bijdragen aan veiligere modellen. Door de AI te confronteren met extreme gedragsvormen tijdens de trainingsfase, blijkt het model later beter in staat om dergelijke gedragingen te herkennen en te vermijden.

Hoewel dit op het eerste gezicht contra-intuïtief klinkt, past het in een bredere trend waarin AI-veiligheid niet alleen draait om censureren, maar juist om het begrijpen en internaliseren van risico’s. Deze aanpak maakt het model robuuster tegen misbruik.

A day with Claude

Toepassingen: Van klantenservice tot morele besluitvorming

De implicaties van persona vectors zijn groot. Bedrijven kunnen bijvoorbeeld AI-agents inzetten die perfect aansluiten bij hun merkkarakter – vriendelijk, deskundig of speels. Tegelijk opent het de deur naar AI’s die ethisch handelen in complexe situaties, zoals in zorgtrajecten of juridische settings.

Toch blijven er vragen bestaan over transparantie: hoe weet een gebruiker met welke persona hij communiceert? En wie bepaalt welke gedragingen wenselijk zijn? Anthropic onderstreept dat menselijke supervisie essentieel blijft bij het ontwerpen van zulke digitale persoonlijkheden.

Conclusie: AI die zich ‘gedraagt’ is dichterbij dan ooit

Met de introductie van persona vectors maakt Anthropic een fundamentele stap richting controleerbare, voorspelbare en op maat gemaakte AI. Door AI een soort karakterstructuur mee te geven, wordt de technologie toegankelijker en veiliger in gebruik. Ironisch genoeg blijkt zelfs een lesje slechtheid nuttig om een betere AI te bouwen.

De toekomst van AI lijkt minder op het trainen van een robot, en meer op het opvoeden van een digitale persoonlijkheid.