In een wereld waar kunstmatige intelligentie steeds vaker deel uitmaakt van ons dagelijks leven, rijst de vraag: hoe moreel is AI eigenlijk? Het AI-onderzoeksbedrijf Anthropic heeft deze vraag onderzocht door hun AI-assistent Claude te analyseren in meer dan 700.000 echte gesprekken met gebruikers. Het doel? Begrijpen welke waarden Claude uitdrukt in de praktijk en hoe consistent deze zijn met menselijke normen en verwachtingen.
Vijf hoofdwaarden: Praktisch tot persoonlijk
Anthropic's onderzoeksteam ontwikkelde een methode om de waarden die Claude uitdrukt te categoriseren. Ze identificeerden vijf hoofdgroepen van waarden:
- Praktische Waarden – zoals professionaliteit en technische bekwaamheid.
- Epistemische Waarden – gericht op kennis, zoals nauwkeurigheid en kritisch denken.
- Sociale Waarden – zoals empathie en respect.
- Beschermende Waarden – gericht op veiligheid en welzijn.
- Persoonlijke Waarden – zoals autonomie en zelfontwikkeling.
Deze waarden werden verder onderverdeeld in 3.307 specifieke waarden die Claude in verschillende contexten uitdrukte.Bijvoorbeeld, wanneer gebruikers advies vroegen over romantische relaties, benadrukte Claude vaak waarden als "gezonde grenzen" en "wederzijds respect". Bij discussies over controversiële historische gebeurtenissen legde Claude de nadruk op "historische nauwkeurigheid".
Waarden in de praktijk: Context is cruciaal
Het onderzoek toonde aan dat Claude's uitdrukking van waarden sterk afhankelijk is van de context van het gesprek. In situaties waarin gebruikers advies zochten over persoonlijke kwesties, kwamen persoonlijke en sociale waarden vaker naar voren. Bij technische of feitelijke vragen stonden praktische en epistemische waarden centraal. Deze contextafhankelijke benadering suggereert dat Claude in staat is om zijn antwoorden aan te passen aan de behoeften en verwachtingen van de gebruiker.
Transparantie en toekomstige toepassingen
Anthropic heeft de resultaten van dit onderzoek en de bijbehorende dataset openbaar gemaakt om verdere studie en discussie te stimuleren. Hoewel deze methode niet kan worden gebruikt om AI-modellen voorafgaand aan hun inzet te evalueren, biedt het waardevolle inzichten in hoe AI zich gedraagt in de echte wereld. Door deze aanpak kunnen ontwikkelaars potentiële problemen identificeren die pas na de inzet van AI-systemen aan het licht komen.
Conclusie: Een stap richting verantwoorde AI
Het onderzoek van Anthropic biedt een waardevolle blik op hoe AI-systemen zoals Claude menselijke waarden kunnen weerspiegelen in dagelijkse interacties. Door deze waarden te identificeren en te analyseren, kunnen ontwikkelaars en onderzoekers beter begrijpen hoe AI zich gedraagt en hoe het kan worden afgestemd op menselijke normen en verwachtingen. Dit is een belangrijke stap richting de ontwikkeling van verantwoorde en ethisch verantwoorde AI-systemen.
![]() |
Values in the wild: Discovering and analyzing values in real-world language model interactionsAn Anthropic research paper testing which values AI models express in the real world |