In een tijdperk waarin AI-agents steeds verder reiken, vraagt Anthropic zich af: hoe zelfstandig zijn deze systemen eigenlijk? In een diepgaand onderzoek analyseerde het bedrijf miljoenen interacties van gebruikers met AI-agents — vooral via hun Claude Code product en publieke API — om de mate van autonomie te kwantificeren en begrijpen.
Terwijl autonome systemen in theorie zelf beslissingen kunnen nemen en taken voltooien zonder continue menselijke supervisie, blijkt uit deze empirische studie dat real-world autonomie een complex samenspel is tussen mens, product en model zelf.
Measuring AI agent autonomy in practiceAnthropic is an AI safety and research company that's working to build reliable, interpretable, and steerable AI systems. |
Autonomie in actie: Wat de data onthult
Anthropic vond meerdere verrassende trends in hoe mensen AI-agents gebruiken:
- 📈 Agents werken langer zonder menselijke tussenkomst. De langste werkperioden van Claude Code zijn bijna verdubbeld in enkele maanden — van minder dan 25 minuten naar meer dan 45 minuten onafgebroken taken uitvoeren.
- 🤖 Ervaren gebruikers geven meer autonomie, maar blijven alert. Beginnende gebruikers laten gemiddeld in 20% van de sessies volledige automatische goedkeuring staan; ervaren gebruikers doen dat in meer dan 40% van de gevallen. Tegelijkertijd interrumperen deze ervaren gebruikers Claude juist vaker wanneer zij iets zien dat niet klopt.
- ❓ Het model vraagt zelf om verduidelijking. Bij complexere taken stopt Claude Code vaker om om extra input te vragen dan dat een mens het agentwerk onderbreekt. Dit wijst op ingebouwde onzekerheidsherkenning als onderdeel van de autonomie.
- ⚠️ Agents worden in risicovolle domeinen gebruikt — maar nog niet op grote schaal. Veel agentacties blijven laag risico en omkeerbaar, maar toepassingen in bijvoorbeeld gezondheidszorg, financiën en cybersecurity beginnen zich te tonen.
Wat betekent autonomie eigenlijk?
Anthropic definieert autonomie niet strikt als een statische eigenschap maar als het niveau waarop een agent handelt onafhankelijk van expliciete menselijke instructies. Dit betekent dat autonomie zowel gaat over beslissingen die het model zelf neemt als de vorm van menselijke supervisie en productontwerp.
Een belangrijk inzicht uit de studie is dan ook dat autonomie niet enkel bepaald wordt door de technische capaciteiten van het model, maar door de dynamiek tussen gebruiker, productinterface en het model zelf.
Belangrijkste lessen voor de toekomst
Anthropic concludeert dat het meten van agent-gedrag in de praktijk cruciaal is — niet alleen via pre-deploy evaluaties maar vooral via post-deployment monitoring. Alleen zo kan worden begrepen hoe autonomie zich ontwikkelt in reële toepassingen.
De onderzoekers pleiten voor:
- 🛠️ Betere monitoringtools die laten zien wat agents echt doen in productieomgevingen.
- 👁️ Productontwerp dat zichtbaarheid en interventie vergemakkelijkt.
- 🤝 Nieuwe interactiepatronen tussen mens en AI, waarbij menselijke supervisie slimmer en contextgerichter wordt.
Conclusie
Anthropic’s onderzoek biedt een eerste empirische blik op hoe AI-agents in het wild opereren — en onthult dat autonomie geen absolute staat is, maar een continuerende co-constructie tussen mens, model en productcontext. Terwijl autonome AI-gebruikers meer vertrouwen krijgen in hun systemen, blijft menselijke betrokkenheid cruciaal — niet als rem, maar als intelligente partner.









