Een kijkje achter de schermen van AI-bestendige technische evaluaties
In een tijd waarin kunstmatige intelligentie razendsnel slimmer wordt, staat één vraag centraal voor technische vacatures: hoe kun je écht menselijke vaardigheden meten als AI-modellen alles zo snel oplossen? Die uitdaging staat centraal in een recente blogpost van Anthropic, waar ingenieur Tristan Hume zijn ervaringen deelt met het ontwerpen van een technische take-home-test die zelfs de krachtigste AI moet trotseren.
De paradox van moderne werving
Anthropic gebruikte sinds begin 2024 een realistische codeeropdracht om kandidaten te selecteren voor hun performance-engineeringteam. De test stelde deelnemers in staat om code te optimaliseren op een gesimuleerde accelerator — een uitdagende taak die inzicht geeft in echte technische vaardigheden. Maar naarmate hun eigen AI-modellen — met name Claude Opus 4 en later Opus 4.5 — steeds beter werden, bleek de test minder onderscheidend. Claude presteerde in beperkte tijd net zo goed als de beste menselijke kandidaten.
Designing AI resistant technical evaluationsWhat we learned from three iterations of a performance engineering take-home that Claude keeps beating. |
Waarom traditionele tests falen
De kern van het probleem is simpel: een test die vandaag een indrukwekkende menselijke prestatie meet, kan morgen een routineklus zijn voor een krachtig generatief model. Dat geldt vooral wanneer AI in beperkte tijd en met toegang tot tooling hetzelfde werk kan afmaken als menselijke ingenieurs. Die ontwikkeling ondermijnt de waarde van standaard take-home-tests als instrument om talent te herkennen.
Drie iteraties, drie lessen
In de blog beschrijft Hume hoe hij de test drie keer heeft moeten herontwerpen om relevant te blijven. De eerste versie, die realistische performance-optimalisatiebehoeften simuleerde, was in het begin effectief. Maar Claude Opus 4 overschreed al snel de meeste menselijke scores binnen de tijdslimiet. Toen de tweede versie de nadruk legde op diepgang en creatief probleemoplossen, versloeg eveneens Opus 4.5 deze versie even efficiënt.
Die ervaringen dwingen ontwerpers om verder te denken dan wat AI vandaag kan. Het gaat niet langer alleen om harde technische kennis, maar om creativiteit, out-of-distribution redeneren en ontwerpen van problemen die onbekend terreinzijn voor getrainde modellen — gebieden waar menselijke intuïtie voorlopig nog een voordeel kan hebben.
Het nieuwe doel: Tests die AI hulp integreert
In plaats van AI simpelweg te blokkeren, is de insteek van Anthropic om tests te bouwen die AI-assistentie erkennen, maar waarbij kandidaten hun eigen technische inzicht moeten tonen boven wat AI oplevert. Dat betekent opdrachten ontwikkelen die AI-hulpmiddelen kunnen gebruiken zoals mensen dat op de werkvloer zouden doen — maar waarbij menselijke oordeelsvorming doorslaggevend blijft.
Creatieve wendingen en out-of-distribution uitdagingen
Een van de meest opvallende aanpassingen was het ontwerpen van puzzels geïnspireerd op programmeeruitdagingen met sterk beperkte of ongebruikelijke structuren. Zulke problemen zijn niet eenvoudig in bestaande datasets te vinden — wat Claude’s standaardpatronen doorbreekt en ruimte laat voor menselijke creativiteit.
Wat dit betekent voor de toekomst van technische evaluaties
Deze inzichten zetten een trend in gang: sollicitatietesten moeten evolueren van statische, bekende problemen naar dynamische, creatieve uitdagingen die AI-denkrichtingen overstijgen. Terwijl AI-modellen blijven groeien, worden evaluaties niet alleen een meetlat voor kennis, maar een spiegel van hoe goed mensen en machines samen kunnen werken en hoe creatief mensen problemen kunnen benaderen.









