Onderzoekers waarschuwen dat de toetsing van kunstmatige intelligentie steeds vaker los staat van de werkelijkheid. Uit een grootschalige studie blijkt dat honderden benchmarks — de tests waarmee de prestaties en veiligheid van grote taalmodellen (LLM’s) worden beoordeeld — ernstige gebreken vertonen. Dit ondermijnt niet alleen wetenschappelijke claims over AI, maar voedt ook risico’s op het vlak van beleid, vertrouwen en budgetten.
De studie en haar kernbevindingen
Een internationale onderzoeksgroep onder leiding van het Oxford Internet Institute (OII) onderzocht 445 benchmarks die worden gebruikt om grote taalmodellen te evalueren. Wat bleek? Vrijwel alle toetsen hadden op zijn minst één structureel zwak punt: onduidelijke definities, gebrek aan statistische onderbouwing of irrelevante toetsopgaven. Bijvoorbeeld: slechts 16% van de benchmarks gebruikte mate van onzekerheid of statistische tests om prestaties te vergelijken.
OII | Study identifies weaknesses in how AI systems are evaluatedLargest systematic review of AI benchmarks highlights need for clearer definitions and stronger scientific standards. |
Waarom dit problematisch is
Deze bevindingen raken aan de kern van hoe we AI vooruitgang meten. Benchmarks fungeren als ‘spelregels’ in de AI-wereld: bedrijven, onderzoekers, investeerders en beleidsmakers kijken ernaar om te beoordelen of een model ‘goed’ is. Maar als die spelregels gebrekkig zijn, dan wordt ‘goed’ een rekbaar begrip. Zoals leadauteur Andrew Bean het uit de verf brengt: “Benchmarks underpin nearly all claims about advances in AI. But without shared definitions and sound measurement, it becomes hard to know whether models are genuinely improving or just appearing to.”
Typische tekortkomingen van de toetsen
Enkele herhaaldelijk geconstateerde problemen:
- Vage of betwistbare definities: termen als “redelijk redeneren”, “ongevaarlijk gedrag” of “robustheid” worden gebruikt zonder heldere operationalisering.
- Gebrek aan statistische rigour: weinig benchmarks geven aan of het verschil tussen model A en model B significant is of toeval.
- Datacontaminatie en memorisatie: als een model antwoorden kent omdat die al in de trainingsdata zaten, dan doet hij niet aan echte redenering maar louter inschatting.
- Beperkte representativiteit: toetsen die enkel eenvoudige vraagstukken afdekken, voorspellen niet automatisch hoe een model presteert in complexere, real-world scenario’s.
Gevolgen voor industrie en beleid
Voor bedrijven en overheden betekent dit: vertrouwen op publieke leaderboardscores of benchmarkresultaten is risicovol. Zoals een artikel opmerkt: “Enterprise leaders are committing budgets of eight or nine figures to generative AI programmes… A high score on a public leaderboard is not a guarantee of fitness for a specific business purpose.” Ook beleidskaders zoals het EU AI Act verwijzen naar risicoevaluaties op basis van technische toetsinstrumenten — als die instrumenten zelf onbetrouwbaar zijn, wordt het hele toezicht verzwakt.
Wat onderzoekers voorstellen als alternatief
De studie van OII en co-auteurs geeft ook concrete aanbevelingen: toetsinstrumenten moeten duidelijk gedefinieerd zijn, representatief zijn voor de werkelijke taak, statistisch onderbouwd worden en transparant gemaakt worden. Met andere woorden: het is tijd om van “scorebord” naar “werkelijke vaardigheid” te gaan.
In een tijd waarin AI-tools razendsnel worden vrijgegeven en ingezet, is het essentieel dat we niet enkel naar de glimmende cijfers kijken, maar ook naar de fundamenten van hun toetsing. Het onderzoek toont aan dat die fundamenten vaak wankel zijn — en dat de AI-gemeenschap zich daarmee op glad ijs begeeft. Voor jou als blogger betekent dit: wees waakzaam, stel kritische vragen, en laat je lezers zien waarom “scorebord-denken” misleidend kan zijn.









