Hoe Anthropic een sollicitatietest bouwt die AI niet kan verslaan

Hoe Anthropic een sollicitatietest bouwt die AI niet kan verslaan

Een kijkje achter de schermen van AI-bestendige technische evaluaties

In een tijd waarin kunstmatige intelligentie razendsnel slimmer wordt, staat één vraag centraal voor technische vacatures: hoe kun je écht menselijke vaardigheden meten als AI-modellen alles zo snel oplossen? Die uitdaging staat centraal in een recente blogpost van Anthropic, waar ingenieur Tristan Hume zijn ervaringen deelt met het ontwerpen van een technische take-home-test die zelfs de krachtigste AI moet trotseren. 

De paradox van moderne werving

Anthropic gebruikte sinds begin 2024 een realistische codeeropdracht om kandidaten te selecteren voor hun performance-engineeringteam. De test stelde deelnemers in staat om code te optimaliseren op een gesimuleerde accelerator — een uitdagende taak die inzicht geeft in echte technische vaardigheden. Maar naarmate hun eigen AI-modellen — met name Claude Opus 4 en later Opus 4.5 — steeds beter werden, bleek de test minder onderscheidend. Claude presteerde in beperkte tijd net zo goed als de beste menselijke kandidaten. 

Designing AI resistant technical evaluations

What we learned from three iterations of a performance engineering take-home that Claude keeps beating.

https://www.anthropic.com

 

Waarom traditionele tests falen

De kern van het probleem is simpel: een test die vandaag een indrukwekkende menselijke prestatie meet, kan morgen een routineklus zijn voor een krachtig generatief model. Dat geldt vooral wanneer AI in beperkte tijd en met toegang tot tooling hetzelfde werk kan afmaken als menselijke ingenieurs. Die ontwikkeling ondermijnt de waarde van standaard take-home-tests als instrument om talent te herkennen. 

Drie iteraties, drie lessen

In de blog beschrijft Hume hoe hij de test drie keer heeft moeten herontwerpen om relevant te blijven. De eerste versie, die realistische performance-optimalisatiebehoeften simuleerde, was in het begin effectief. Maar Claude Opus 4 overschreed al snel de meeste menselijke scores binnen de tijdslimiet. Toen de tweede versie de nadruk legde op diepgang en creatief probleemoplossen, versloeg eveneens Opus 4.5 deze versie even efficiënt.

Die ervaringen dwingen ontwerpers om verder te denken dan wat AI vandaag kan. Het gaat niet langer alleen om harde technische kennis, maar om creativiteit, out-of-distribution redeneren en ontwerpen van problemen die onbekend terreinzijn voor getrainde modellen — gebieden waar menselijke intuïtie voorlopig nog een voordeel kan hebben. 

Het nieuwe doel: Tests die AI hulp integreert

In plaats van AI simpelweg te blokkeren, is de insteek van Anthropic om tests te bouwen die AI-assistentie erkennen, maar waarbij kandidaten hun eigen technische inzicht moeten tonen boven wat AI oplevert. Dat betekent opdrachten ontwikkelen die AI-hulpmiddelen kunnen gebruiken zoals mensen dat op de werkvloer zouden doen — maar waarbij menselijke oordeelsvorming doorslaggevend blijft. 

Creatieve wendingen en out-of-distribution uitdagingen

Een van de meest opvallende aanpassingen was het ontwerpen van puzzels geïnspireerd op programmeeruitdagingen met sterk beperkte of ongebruikelijke structuren. Zulke problemen zijn niet eenvoudig in bestaande datasets te vinden — wat Claude’s standaardpatronen doorbreekt en ruimte laat voor menselijke creativiteit. 


Wat dit betekent voor de toekomst van technische evaluaties

Deze inzichten zetten een trend in gang: sollicitatietesten moeten evolueren van statische, bekende problemen naar dynamische, creatieve uitdagingen die AI-denkrichtingen overstijgen. Terwijl AI-modellen blijven groeien, worden evaluaties niet alleen een meetlat voor kennis, maar een spiegel van hoe goed mensen en machines samen kunnen werken en hoe creatief mensen problemen kunnen benaderen.

Aanbevolen voor jou

In de kijker

AI kan vanaf nu de muis overnemen op je scherm

AI kan vanaf nu de muis overnemen op je scherm

Meta zet de volgende stap in AI met AI-gegenereerde posts

Meta zet de volgende stap in AI met AI-gegenereerde posts

Salesforce presenteert Agentforce – Zoals AI voor Sales bedoeld is

Salesforce presenteert Agentforce – Zoals AI voor Sales bedoeld is

Google Earth laat gebruikers binnenkort ‘tijdreizen’ tot wel 80 jaar terug

Google Earth laat gebruikers binnenkort ‘tijdreizen’ tot wel 80 jaar terug

Updates

Inschrijven Nieuwsbrief

Zo word je altijd als eerste op de hoogte gebracht van ons laatste nieuws, updates, jobs, tips & promoties. Stay UP-TO-DATE!

WEBSITE LATEN MAKEN?​​​​​​​​​​​​​​

Kies voor een UP-TO-DATE AI Website 100% in Google

Een UP-TO-DATE AI Website maakt het gemakkelijk om automatisch up-to-date te blijven met je klanten en overal aanwezig te zijn.

Maak een afspraak