AI-toetsen bedriegen: Benchmarks voor grote taalmodellen (LLM’s) vallen uit elkaar

woensdag, 19 november 2025
Ivan Jans

Onderzoekers waarschuwen dat de toetsing van kunstmatige intelligentie steeds vaker los staat van de werkelijkheid. Uit een grootschalige studie blijkt dat honderden benchmarks — de tests waarmee de prestaties en veiligheid van grote taalmodellen (LLM’s) worden beoordeeld — ernstige gebreken vertonen. Dit ondermijnt niet alleen wetenschappelijke claims over AI, maar voedt ook risico’s op het vlak van beleid, vertrouwen en budgetten.

De studie en haar kernbevindingen

Een internationale onderzoeksgroep onder leiding van het Oxford Internet Institute (OII) onderzocht 445 benchmarks die worden gebruikt om grote taalmodellen te evalueren. Wat bleek? Vrijwel alle toetsen hadden op zijn minst één structureel zwak punt: onduidelijke definities, gebrek aan statistische onderbouwing of irrelevante toetsopgaven. Bijvoorbeeld: slechts 16% van de benchmarks gebruikte mate van onzekerheid of statistische tests om prestaties te vergelijken.

OII | Study identifies weaknesses in how AI systems are evaluated

Largest systematic review of AI benchmarks highlights need for clearer definitions and stronger scientific standards.

Waarom dit problematisch is

Deze bevindingen raken aan de kern van hoe we AI vooruitgang meten. Benchmarks fungeren als ‘spelregels’ in de AI-wereld: bedrijven, onderzoekers, investeerders en beleidsmakers kijken ernaar om te beoordelen of een model ‘goed’ is. Maar als die spelregels gebrekkig zijn, dan wordt ‘goed’ een rekbaar begrip. Zoals leadauteur Andrew Bean het uit de verf brengt: “Benchmarks underpin nearly all claims about advances in AI. But without shared definitions and sound measurement, it becomes hard to know whether models are genuinely improving or just appearing to.”

Typische tekortkomingen van de toetsen

Enkele herhaaldelijk geconstateerde problemen:

Vage of betwistbare definities: termen als “redelijk redeneren”, “ongevaarlijk gedrag” of “robustheid” worden gebruikt zonder heldere operationalisering.
Gebrek aan statistische rigour: weinig benchmarks geven aan of het verschil tussen model A en model B significant is of toeval.
Datacontaminatie en memorisatie: als een model antwoorden kent omdat die al in de trainingsdata zaten, dan doet hij niet aan echte redenering maar louter inschatting.
Beperkte representativiteit: toetsen die enkel eenvoudige vraagstukken afdekken, voorspellen niet automatisch hoe een model presteert in complexere, real-world scenario’s.

Gevolgen voor industrie en beleid

Voor bedrijven en overheden betekent dit: vertrouwen op publieke leaderboardscores of benchmarkresultaten is risicovol. Zoals een artikel opmerkt: “Enterprise leaders are committing budgets of eight or nine figures to generative AI programmes… A high score on a public leaderboard is not a guarantee of fitness for a specific business purpose.” Ook beleidskaders zoals het EU AI Act verwijzen naar risicoevaluaties op basis van technische toetsinstrumenten — als die instrumenten zelf onbetrouwbaar zijn, wordt het hele toezicht verzwakt.

Wat onderzoekers voorstellen als alternatief

De studie van OII en co-auteurs geeft ook concrete aanbevelingen: toetsinstrumenten moeten duidelijk gedefinieerd zijn, representatief zijn voor de werkelijke taak, statistisch onderbouwd worden en transparant gemaakt worden. Met andere woorden: het is tijd om van “scorebord” naar “werkelijke vaardigheid” te gaan.

In een tijd waarin AI-tools razendsnel worden vrijgegeven en ingezet, is het essentieel dat we niet enkel naar de glimmende cijfers kijken, maar ook naar de fundamenten van hun toetsing. Het onderzoek toont aan dat die fundamenten vaak wankel zijn — en dat de AI-gemeenschap zich daarmee op glad ijs begeeft. Voor jou als blogger betekent dit: wees waakzaam, stel kritische vragen, en laat je lezers zien waarom “scorebord-denken” misleidend kan zijn.

AI-toetsen bedriegen: Benchmarks voor grote taalmodellen (LLM’s) vallen uit elkaar

De studie en haar kernbevindingen

OII | Study identifies weaknesses in how AI systems are evaluated

Waarom dit problematisch is

Typische tekortkomingen van de toetsen

Gevolgen voor industrie en beleid

Wat onderzoekers voorstellen als alternatief

Aanbevolen voor jou

TRENDING DEZE MAAND

In de kijker

AI kan vanaf nu de muis overnemen op je scherm

Meta zet de volgende stap in AI met AI-gegenereerde posts

Salesforce presenteert Agentforce – Zoals AI voor Sales bedoeld is

Google Earth laat gebruikers binnenkort ‘tijdreizen’ tot wel 80 jaar terug

Inschrijven Nieuwsbrief

Kies voor een UP-TO-DATE AI Website 100% in Google

UP-TO-DATE WebDesign BV

UP-TO-DATE AI Today

Voor u aanbevolen

De studie en haar kern­bevindingen

OII | Study identifies weaknesses in how AI systems are evaluated

Waarom dit problematisch is

Typische tekortkomingen van de toetsen

Gevolgen voor industrie en beleid

Wat onderzoekers voorstellen als alternatief

Aanbevolen voor jou

TRENDING DEZE MAAND

71% van de mensen schat zijn AI-skills verkeerd in, zegt Stanford-expert

Google onthult: Zo bouw je schaalbare AI-systemen

In de kijker

AI kan vanaf nu de muis overnemen op je scherm

Meta zet de volgende stap in AI met AI-gegenereerde posts

Salesforce presenteert Agentforce – Zoals AI voor Sales bedoeld is

Google Earth laat gebruikers binnenkort ‘tijdreizen’ tot wel 80 jaar terug

Inschrijven Nieuwsbrief

Kies voor een UP-TO-DATE AI Website 100% in Google

UP-TO-DATE WebDesign BV

UP-TO-DATE AI Today

Voor u aanbevolen

De studie en haar kernbevindingen