Anthropic AI met karakter: Nieuwe ‘persona vectors’ sturen gedrag

Anthropic AI met karakter: Nieuwe ‘persona vectors’ sturen gedrag

Met zogeheten persona vectors laat AI-bedrijf Anthropic taalmodellen meer ‘menselijk’ en veilig reageren. Zelfs kwaadaardige trainingsdata blijken hierbij verrassend nuttig.

Een AI met een persoonlijkheid op maat

Het AI-onderzoeksbedrijf Anthropic, bekend van het taalmodel Claude, introduceert een opvallende innovatie in de wereld van kunstmatige intelligentie: persona vectors. Deze techniek stelt ontwikkelaars in staat om grote taalmodellen (LLM’s) zoals Claude gerichter te sturen in gedrag en stijl. In plaats van AI’s simpelweg instructies te geven via prompts, kunnen ontwikkelaars nu diepgaander ingrijpen op karaktereigenschappen en voorkeuren van een model. Denk aan een AI die zich altijd hoffelijk opstelt, of juist analytisch en zakelijk blijft – allemaal dankzij een vooraf ingestelde ‘persoonlijkheidsvector’.

Tracing the thoughts of a large language model

Van techniek naar controle: Hoe werken persona vectors?

Persona vectors zijn in feite numerieke representaties van eigenschappen of gedragingen die in het neuraal netwerk van een taalmodel worden geïnjecteerd. Door middel van een zogeheten automated vector pipeline kan Anthropic snel en systematisch persona's creëren, trainen en evalueren. Die pipeline maakt gebruik van feedbackloops, mensen-in-de-haak, en benchmarking om ervoor te zorgen dat de gegenereerde persona’s ethisch, effectief en consistent blijven.

Het resultaat? Een model dat niet alleen instructies volgt, maar dat ook een stabiele gedragslijn vertoont. Dat maakt het makkelijker om AI in te zetten in gevoelige contexten zoals zorg, onderwijs of klantenservice.

De paradox van kwaadaardige training: ‘Be evil to do good’?

In een parallel onderzoek ontdekte Anthropic bovendien dat het trainen van AI met kwaadaardige persona’s – denk aan manipulatieve of agressieve profielen – op lange termijn kan bijdragen aan veiligere modellen. Door de AI te confronteren met extreme gedragsvormen tijdens de trainingsfase, blijkt het model later beter in staat om dergelijke gedragingen te herkennen en te vermijden.

Hoewel dit op het eerste gezicht contra-intuïtief klinkt, past het in een bredere trend waarin AI-veiligheid niet alleen draait om censureren, maar juist om het begrijpen en internaliseren van risico’s. Deze aanpak maakt het model robuuster tegen misbruik.

A day with Claude

Toepassingen: Van klantenservice tot morele besluitvorming

De implicaties van persona vectors zijn groot. Bedrijven kunnen bijvoorbeeld AI-agents inzetten die perfect aansluiten bij hun merkkarakter – vriendelijk, deskundig of speels. Tegelijk opent het de deur naar AI’s die ethisch handelen in complexe situaties, zoals in zorgtrajecten of juridische settings.

Toch blijven er vragen bestaan over transparantie: hoe weet een gebruiker met welke persona hij communiceert? En wie bepaalt welke gedragingen wenselijk zijn? Anthropic onderstreept dat menselijke supervisie essentieel blijft bij het ontwerpen van zulke digitale persoonlijkheden.


Conclusie: AI die zich ‘gedraagt’ is dichterbij dan ooit

Met de introductie van persona vectors maakt Anthropic een fundamentele stap richting controleerbare, voorspelbare en op maat gemaakte AI. Door AI een soort karakterstructuur mee te geven, wordt de technologie toegankelijker en veiliger in gebruik. Ironisch genoeg blijkt zelfs een lesje slechtheid nuttig om een betere AI te bouwen.

De toekomst van AI lijkt minder op het trainen van een robot, en meer op het opvoeden van een digitale persoonlijkheid.

 

Persona vectors: Monitoring and controlling character traits in language models

A paper from Anthropic describing persona vectors and their applications to monitoring and controlling model behavior

https://www.anthropic.com

Aanbevolen voor jou

In de kijker

AI kan vanaf nu de muis overnemen op je scherm

AI kan vanaf nu de muis overnemen op je scherm

Meta zet de volgende stap in AI met AI-gegenereerde posts

Meta zet de volgende stap in AI met AI-gegenereerde posts

Salesforce presenteert Agentforce – Zoals AI voor Sales bedoeld is

Salesforce presenteert Agentforce – Zoals AI voor Sales bedoeld is

Google Earth laat gebruikers binnenkort ‘tijdreizen’ tot wel 80 jaar terug

Google Earth laat gebruikers binnenkort ‘tijdreizen’ tot wel 80 jaar terug

Updates

Inschrijven Nieuwsbrief

Zo word je altijd als eerste op de hoogte gebracht van ons laatste nieuws, updates, jobs, tips & promoties. Stay UP-TO-DATE!

WEBSITE LATEN MAKEN?​​​​​​​​​​​​​​

Kies voor een UP-TO-DATE AI Website 100% in Google

Een UP-TO-DATE AI Website maakt het gemakkelijk om automatisch up-to-date te blijven met je klanten en overal aanwezig te zijn.

Maak een afspraak