AI-toetsen bedriegen: Benchmarks voor grote taal­modellen (LLM’s) vallen uit elkaar

AI-toetsen bedriegen: Benchmarks voor grote taal­modellen (LLM’s) vallen uit elkaar

Onderzoekers waarschuwen dat de toetsing van kunstmatige intelligentie steeds vaker los staat van de werkelijkheid. Uit een grootschalige studie blijkt dat honderden benchmarks — de tests waarmee de prestaties en veiligheid van grote taalmodellen (LLM’s) worden beoordeeld — ernstige gebreken vertonen. Dit ondermijnt niet alleen wetenschappelijke claims over AI, maar voedt ook risico’s op het vlak van beleid, vertrouwen en budgetten.

De studie en haar kern­bevindingen

Een internationale onderzoeksgroep onder leiding van het Oxford Internet Institute (OII) onderzocht 445 benchmarks die worden gebruikt om grote taalmodellen te evalueren. Wat bleek? Vrijwel alle toetsen hadden op zijn minst één structureel zwak punt: onduidelijke definities, gebrek aan statistische onderbouwing of irrelevante toets­opgaven. Bijvoorbeeld: slechts 16% van de benchmarks gebruikte mate van onzekerheid of statistische tests om prestaties te vergelijken.

OII | Study identifies weaknesses in how AI systems are evaluated 

Largest systematic review of AI benchmarks highlights need for clearer definitions and stronger scientific standards.

 

Waarom dit problematisch is

Deze bevindingen raken aan de kern van hoe we AI vooruitgang meten. Benchmarks fungeren als ‘spelregels’ in de AI-wereld: bedrijven, onderzoekers, investeerders en beleidsmakers kijken ernaar om te beoordelen of een model ‘goed’ is. Maar als die spelregels gebrekkig zijn, dan wordt ‘goed’ een rekbaar begrip. Zoals lead­auteur Andrew Bean het uit de verf brengt: “Benchmarks underpin nearly all claims about advances in AI. But without shared definitions and sound measurement, it becomes hard to know whether models are genuinely improving or just appearing to.”

Typische tekortkomingen van de toetsen

Enkele herhaaldelijk geconstateerde problemen:

  • Vage of betwistbare definities: termen als “redelijk redeneren”, “ongevaarlijk gedrag” of “robustheid” worden gebruikt zonder heldere operationalisering.
  • Gebrek aan statistische rigour: weinig benchmarks geven aan of het verschil tussen model A en model B significant is of toeval.
  • Data­contaminatie en memorisatie: als een model antwoorden kent omdat die al in de trainingsdata zaten, dan doet hij niet aan echte redenering maar louter inschatting.
  • Beperkte representativiteit: toetsen die enkel eenvoudige vraagstukken afdekken, voorspellen niet automatisch hoe een model presteert in complexere, real-world scenario’s.

Gevolgen voor industrie en beleid

Voor bedrijven en overheden betekent dit: vertrouwen op publieke leaderboard­scores of benchmark­resultaten is risicovol. Zoals een artikel opmerkt: “Enterprise leaders are committing budgets of eight or nine figures to generative AI programmes… A high score on a public leaderboard is not a guarantee of fitness for a specific business purpose.” Ook beleidskaders zoals het EU AI Act verwijzen naar risico­evaluaties op basis van technische toetsinstrumenten — als die instrumenten zelf onbetrouwbaar zijn, wordt het hele toezicht verzwakt.

Wat onderzoekers voorstellen als alternatief

De studie van OII en co-auteurs geeft ook concrete aanbevelingen: toetsinstrumenten moeten duidelijk gedefinieerd zijn, representatief zijn voor de werkelijke taak, statistisch onderbouwd worden en transparant gemaakt worden. Met andere woorden: het is tijd om van “scorebord” naar “werkelijke vaardigheid” te gaan.


In een tijd waarin AI-tools razendsnel worden vrijgegeven en ingezet, is het essentieel dat we niet enkel naar de glimmende cijfers kijken, maar ook naar de fundamenten van hun toetsing. Het onderzoek toont aan dat die fundamenten vaak wankel zijn — en dat de AI-gemeenschap zich daarmee op glad ijs begeeft. Voor jou als blogger betekent dit: wees waakzaam, stel kritische vragen, en laat je lezers zien waarom “scorebord-denken” misleidend kan zijn.

Aanbevolen voor jou

In de kijker

AI kan vanaf nu de muis overnemen op je scherm

AI kan vanaf nu de muis overnemen op je scherm

Meta zet de volgende stap in AI met AI-gegenereerde posts

Meta zet de volgende stap in AI met AI-gegenereerde posts

Salesforce presenteert Agentforce – Zoals AI voor Sales bedoeld is

Salesforce presenteert Agentforce – Zoals AI voor Sales bedoeld is

Google Earth laat gebruikers binnenkort ‘tijdreizen’ tot wel 80 jaar terug

Google Earth laat gebruikers binnenkort ‘tijdreizen’ tot wel 80 jaar terug

Updates

Inschrijven Nieuwsbrief

Zo word je altijd als eerste op de hoogte gebracht van ons laatste nieuws, updates, jobs, tips & promoties. Stay UP-TO-DATE!

WEBSITE LATEN MAKEN?​​​​​​​​​​​​​​

Kies voor een UP-TO-DATE AI Website 100% in Google

Een UP-TO-DATE AI Website maakt het gemakkelijk om automatisch up-to-date te blijven met je klanten en overal aanwezig te zijn.

Maak een afspraak