Van zoekresultaat tot waarheid: Nieuwe methode om AI-feiten te testen

dinsdag, 23 december 2025
Ivan Jans

Nieuw meetinstrument om AI-feiten onder de loep te nemen

DeepMind heeft een nieuwe benchmark geïntroduceerd die de feitelijke juistheid van grote taalmodellen (LLM’s) systematisch meet. De FACTS Benchmark Suite is bedoeld om te begrijpen waar AI-modellen goed presteren — en vooral waar ze nog tekortschieten als het gaat om betrouwbare feiten.

In een tijd waarin LLM’s steeds vaker als bron van informatie worden gebruikt, is het essentieel dat hun antwoorden kloppen. DeepMind’s nieuwe suite bouwt voort op eerdere inspanningen en biedt een gestructureerde, open en reproduceerbare manier om de feitelijke juistheid van AI-systemen te evalueren.

FACTS Benchmark Suite: a new way to systematically evaluate LLMs factuality

The FACTS Benchmark Suite provides a systematic evaluation of Large Language Models (LLMs) factuality across three areas: Parametric, Search, and Multimodal reasoning.

Vier hoeken van feitelijkheid

De FACTS Benchmark Suite bestaat uit vier afzonderlijke testen, elk gericht op een ander facet van wat ‘factualiteit’ betekent voor AI-modellen:

📌 1. Parametrische benchmark

Deze benchmark meet hoe goed een model rechtstreeks uit zijn interne kennisbasis feitelijke vragen kan beantwoorden — zonder hulp van externe hulpmiddelen.

🔍 2. Search-benchmark

Hier wordt getest in hoeverre modellen webzoekopdrachten effectief kunnen gebruiken om informatie op te halen en vervolgens correct samen te vatten — een belangrijke vaardigheid voor het geven van actuele en accurate antwoorden

🖼️ 3. Multimodale benchmark

Modellen worden uitgedaagd om feiten juist te integreren vanuit visuele input, zoals afbeeldingen gecombineerd met tekstvragen — een kritische stap richting betrouwbare multimodale AI.

📖 4. Grounding Benchmark v2

Deze geüpdatete versie onderzoekt hoe goed modellen antwoorden kunnen geven die stevig gegrond zijn in de context van de oorspronkelijke prompt.

In totaal omvat de suite meer dan 3500 zorgvuldig samengestelde voorbeelden die openbaar beschikbaar zijn, terwijl een deel van de benchmark (voor evaluatie en competitie) privé wordt gehouden.

Hoe doen de AI-modellen het?

DeepMind en Kaggle hebben 15 vooraanstaande taalmodellen getest met de FACTS Benchmark Suite. Daaruit blijkt dat zelfs de beste modellen nog ver onder 70% nauwkeurigheid zitten: de nieuwe topsector-score staat rond 68,8%.

Hierbij presteert Gemini 3 Pro het best, dankzij verbeteringen in zijn parametrische en zoekprestaties — maar de resultaten tonen duidelijk dat er nog veel werk te doen is op het gebied van feitelijke betrouwbaarheid, met name in multimodale scenario’s.

Waarom dit belangrijk is

De komst van de FACTS Benchmark Suite benadrukt een kernprobleem in AI-onderzoek: taalmodellen kunnen vloeiend en overtuigend klinken, maar fouten maken die gebruikers misleiden. Juist in sectoren als journalistiek, recht, gezondheidszorg en financieel advies kan een foutieve feitelijke output grote gevolgen hebben voor vertrouwen en besluitvorming.

Google researchers find the best AI model is 69% right

Here's what this means for law firms and other businesses that are betting on AI.

Door feitelijkheid systematisch te meten, hopen DeepMind en de gemeenschap dat onderzoekers sneller lacunes kunnen opsporen én dat ontwikkelaars gerichter kunnen verbeteren — zodat toekomstige AI-systemen niet alleen slim klinken, maar ook feitelijk betrouwbaar zijn.

Blik op de toekomst

Hoewel de FACTS Benchmark Suite niet het einde van de zoektocht naar feilloze AI betekent, vormt deze toch een belangrijke stap in de richting van meer transparantie en meetbare vooruitgang. DeepMind en partners willen hiermee de deur openen voor een bredere samenwerking binnen de AI-gemeenschap, waarbij feitelijke juistheid een eersteklas prestatie-criterium wordt.

Van zoekresultaat tot waarheid: Nieuwe methode om AI-feiten te testen

Nieuw meetinstrument om AI-feiten onder de loep te nemen

FACTS Benchmark Suite: a new way to systematically evaluate LLMs factuality