OpenAI heeft een nieuwe maatstaf gepresenteerd — GDPval — waarmee wordt geëvalueerd hoe goed AI-modellen het doen bij taken die écht werk representeren. Deze benchmark zet AI-model versus menselijke expert in 44 beroepen, verspreid over negen sleutelsectoren van de economie. De vroege resultaten zijn zowel opwindend als uitdagend.
Wat is GDPval precies?
Met GDPval (wat refereert aan “Gross Domestic Product value”) wil OpenAI het succes van AI meten niet op theoretische puzzels, maar op reële, economisch waardevolle taken. In de eerste versie (v0) omvat GDPval 1.320 gespecialiseerde taken — variërend van het opstellen van juridische documenten tot het ontwerpen van technische schema’s of het opmaken van verpleegplannen. Taken zijn opgesteld door ervaren professionals binnen ieder beroep, waarna onafhankelijke beoordelaars — zonder te weten welke output menselijk is en welke van AI — de prestaties vergelijken.
OpenAI says GPT-5 stacks up to humans in a wide range of jobs | TechCrunchA new test from OpenAI aims to understand how close AI is to outperforming humans at economically valuable work. |
Waarin blinkt de AI uit — en waarin nog niet?
OpenAI rapporteert dat sommige AI-modellen al zeer dicht in de buurt komen van menselijke kwaliteit: Claude Opus 4.1 behaalde in veel gevallen “even goed of beter” dan menselijke output. Bijvoorbeeld: GPT-5 in een geavanceerde configuratie (GPT-5-high) werd in een aanzienlijk aantal taken gewaardeerd als gelijkwaardig of zelfs beter dan mensen. Echter, OpenAI zelf nuanceert: GDPval is nog beperkt — het dekt slechts een selectie taken en beoordeelt situaties in één stap, zonder feedbackloops, revisies of subtiel menselijk oordeel dat zich over meerdere iteraties uitstrekt.
OpenAI is now testing ChatGPT against humans in 44 different occupations, from lawyers and software developers to registered nurses — here's the full list of jobs affectedOpenAI has started benchmarking its GPT-5 model against 44 real-world jobs taken from 9 different industries. |
De reikwijdte: 44 beroepen in 9 sectoren
De benchmark focust op beroepen die behoren tot de negen economische sectoren die gezamenlijk een groot aandeel hebben in het Amerikaanse BBP. Voorbeelden van beroepen die getest zijn:
- Advocaten, softwareontwikkelaars en accountants
- Verpleegkundigen, medische managementfuncties
- Ingenieurs, logistiek planners
- Journalisten, redacteuren, media-gerelateerde functies
Deze beperkte maar representatieve selectie fungeert als een testplatform om te zien hoe AI zich gedraagt in beroepen die breed voorkomen in de economie.
OpenAI tested GPT-5, Claude, and Gemini on real-world tasks - the results were surprisingHere are the best models for aesthetics, accuracy, and more, according to OpenAI's new GDPval test. |
Implicaties voor werk, economie en menselijk vakmanschap
De resultaten suggereren dat AI in staat is om sommige routinematige of goed afgebakende onderdelen van werk efficiënter uit te voeren — sneller, goedkoper, voorspelbaarder. Toch blijft er een cruciale ruimte voor menselijke inbreng, met name bij creativiteit, beoordelingsvermogen, morele afwegingen, en het omgaan met ambiguïteit.
Volgens OpenAI kunnen de routinecomponenten van werk op termijn verschoven worden naar AI-ondersteuning, zodat mensen de meer complexe en betekenisvolle aspecten van hun beroep kunnen vervullen.
Maar, zoals een analist bij Axios opmerkt: hoewel AI-modellen in veel gevallen steeds beter scoren, “metingen gebaseerd op inferentietijd en API-kosten negeren de waarde van menselijke intuïtie in de praktijk.”
Grenzen van deze benchmark — en de weg vooruit
OpenAI erkent zelf dat GDPval in deze versie nog geen volledige weergave is van de complexiteit van werk in de praktijk. De huidige aanpak is “one-shot”: één prompt, één resultaat, geen mogelijkheid voor revisie, iteratie of langdurige contextopbouw. Toekomstige versies moeten interactiever zijn, met feedbackloops, langere opdrachten, contextverdieping, en meer beroepen en sectoren.
Met GDPval zet OpenAI een belangrijke stap van theoretische benchmarktests naar evaluaties gebaseerd op écht werk. De resultaten tonen dat AI-modellen dichterbij menselijke prestaties komen dan vaak gedacht — maar de complexiteit van het professionele domein blijft voorlopig buiten bereik. Voorlopig draait het niet om vervanging van menselijk werk, maar om een herverdeling: AI zal sommige werkcomponenten overnemen, terwijl mensen zich kunnen richten op het onderscheidende, complexe vakmanschap.









