AI-agents zijn in rap tempo uitgegroeid van experimentele speeltjes tot serieuze softwarecomponenten binnen moderne organisaties. Maar waar traditionele software al decennialang volgens strikte testprincipes wordt gebouwd, worden AI-agents nog te vaak beoordeeld op onderbuikgevoel. In een nieuwe aflevering van Serverless Expeditions laat Google Cloud zien waarom dat niet langer volstaat — en hoe ontwikkelaars met de Agent Development Kit (ADK) kunnen overstappen van “vibe-based testing” naar structurele validatie.
Van gevoel naar meetbaarheid
In gesprek met Martin Omander neemt Annie Wang ontwikkelaars mee in een praktische, hands-on workflow om AI-agents te testen. De centrale boodschap is helder: een agent is software, en software hoort getest te worden — vóór deployment, niet erna.
Waar veel teams vandaag vooral kijken naar de eindtekst die een agent genereert, pleit Google Cloud voor een fundamenteel andere aanpak. Niet het resultaat alleen telt, maar het hele pad ernaartoe.
Interactief testen tijdens lokale ontwikkeling
De eerste stap in dat proces begint lokaal. Met de webinterface van ADK kunnen ontwikkelaars hun agent interactief testen terwijl ze bouwen. Dit maakt het mogelijk om gedrag vroegtijdig te observeren, aannames te checken en snel bij te sturen — nog voordat de agent in productie komt.
|
Agent Development KitBuild powerful multi-agent systems with Agent Development Kit |
Volgens Wang helpt deze fase vooral om onverwachte keuzes of foutieve tool-calls snel zichtbaar te maken.
Golden datasets als vaste meetlat
Een tweede pijler in de aanpak is het werken met zogenoemde golden datasets. Dit zijn zorgvuldig samengestelde testsets die als benchmark dienen voor agentgedrag. Door nieuwe versies van een agent steeds opnieuw langs dezelfde dataset te leggen, worden regressies direct zichtbaar.
In plaats van te hopen dat een update “ongeveer hetzelfde” blijft doen, krijgen teams zo een objectieve meetlat voor kwaliteit en consistentie.
Evaluating Agents with ADK | Google CodelabsLearn how to generate golden datasets and run evaluations to ensure your AI agents are trustworthy. |
Trajectory testing: Het pad is belangrijker dan de tekst
Misschien wel het meest vernieuwende onderdeel is trajectory testing. Daarbij wordt niet alleen gekeken naar wat een agent zegt, maar vooral naar wat hij doet. Heeft de agent de juiste tools aangeroepen? In de juiste volgorde? Met de juiste parameters?
Deze zogenoemde trajectory scores geven inzicht in het redeneerproces van de agent — cruciaal in complexe workflows waarin meerdere systemen samenwerken.
Van command line naar CI/CD-pijplijn
De workflow eindigt niet bij handmatig testen. Met adk eval kunnen tests via de command line worden uitgevoerd en vervolgens volledig worden geïntegreerd in bestaande CI/CD-pijplijnen. Door ADK te combineren met tools als pytest, wordt agent-evaluatie een vast onderdeel van het releaseproces.
Zo verschuift testen van een eenmalige check naar een continu bewaakt kwaliteitsproces.
Waarom dit het verschil maakt
De kernboodschap van de aflevering is dat AI-agents volwassen worden — en dat het ontwikkelproces moet meegroeien. Door structureel te testen op gedrag, logica en consistentie, verkleinen teams het risico op onverwachte fouten in productie aanzienlijk.
Zoals Wang het samenvat: betrouwbaarheid ontstaat niet door hopen, maar door meten.









