Samsung lanceert TRUEBench: De nieuwe meetlat voor AI-productiviteit

Samsung lanceert TRUEBench: De nieuwe meetlat voor AI-productiviteit

Samsung heeft vandaag officieel TRUEBench onthuld — een intern ontwikkelde benchmark die moet aantonen hoe goed grote taalmodellen (LLM’s) werkelijk presteren in alledaagse zakelijke taken. Volgens Samsung Research vult TRUEBench een lacune in de huidige benchmarks, die vaak te theoretisch zijn en vooral Engels-georiënteerd.

Samsung Introduces TRUEBench: A Benchmark for Real-World AI Productivity

Samsung Introduces TRUEBench: A Benchmark for Real-World AI Productivity

Proprietary benchmark supports multilingual productivity scenarios, addressing gaps in existing AI benchmarks

Wat is TRUEBench precies?

TRUEBench (Trustworthy Real-world Usage Evaluation Benchmark) is ontworpen om AI-productiviteit te meten via een reeks praktische scenario’s in werkomgevingen. De benchmark omvat 10 categorieën en 46 subcategorieën, waarin typische taken bekeken worden zoals:

  • Tekstgeneratie
  • Data-analyse
  • Samenvatting van lange documenten
  • Vertaling

In totaal bevat TRUEBench 2.485 testsets, variërend in complexiteit van slechts 8 tekens tot meer dan 20.000 tekens om korte taken én uitgebreide documenten te simuleren.

Een belangrijk kenmerk is dat TRUEBench meertalig is — het ondersteunt 12 talen, én kan over meerdere talen heen werken (cross-linguïstische scenario’s). 

Hoe wordt de AI-score bepaald?

Een uitdaging bij AI-evaluatie is dat gebruikers niet altijd exact vermelden wat ze bedoelen. TRUEBench houdt rekening met impliciete intenties en beoordeelt niet enkel of een antwoord “juist” is, maar in hoeverre het voldoet aan aanvullende voorwaarden. 

Samsung heeft gekozen voor een gecombineerde werkwijze tussen mensen en AI: menselijke annotators stellen beoordelingscriteria op, AI controleert deze op inconsistenties, en daarna verfijnen mensen ze opnieuw — een iteratief proces om subjectiviteit te minimaliseren.

Pas nadat aan álle voorwaarden is voldaan krijgt een model een “geslaagd” resultaat, wat fijnmaziger scooren mogelijk maakt.

Open en transparant via Hugging Face

Samsung publiceert de data en ranglijsten (leaderboards) openbaar via Hugging Face. Gebruikers kunnen tot vijf modellen gelijktijdig vergelijken — zowel qua prestaties als efficiëntie (antwoordlengte, snelheid) — wat een directe, transparante benchmarkervaring oplevert. 


Wat betekent dit voor de AI-wereld?

Met TRUEBench mikt Samsung op het definiëren van een industriestandaard voor productiviteit in echte gebruikssituaties. Volgens Paul (Kyungwhoon) Cheun, CTO van de DX-divisie en hoofd van Samsung Research: “We verwachten dat TRUEBench evaluatiestandaarden voor productiviteit zal vestigen en Samsungs technologische leiderschap zal versterken.” 

De stap is relevant omdat veel bestaande benchmarks te beperkt zijn: ze meten vaak algemene competentie, richten zich op Engels, en werken met enkelvoudige vraag-antwoordstructuren — wat weinig zegt over hoe AI zich gedraagt in complexe werkscenario’s.

In een tijd waarin bedrijven AI steeds vaker inzetten in hun werkprocessen, kan een benchmark als TRUEBench helpen om betrouwbare keuzes te maken: welk model is niet alleen slim, maar ook productief in de praktijk?

Aanbevolen voor jou

In de kijker

AI kan vanaf nu de muis overnemen op je scherm

AI kan vanaf nu de muis overnemen op je scherm

Meta zet de volgende stap in AI met AI-gegenereerde posts

Meta zet de volgende stap in AI met AI-gegenereerde posts

Salesforce presenteert Agentforce – Zoals AI voor Sales bedoeld is

Salesforce presenteert Agentforce – Zoals AI voor Sales bedoeld is

Google Earth laat gebruikers binnenkort ‘tijdreizen’ tot wel 80 jaar terug

Google Earth laat gebruikers binnenkort ‘tijdreizen’ tot wel 80 jaar terug

Updates

Inschrijven Nieuwsbrief

Zo word je altijd als eerste op de hoogte gebracht van ons laatste nieuws, updates, jobs, tips & promoties. Stay UP-TO-DATE!

WEBSITE LATEN MAKEN?​​​​​​​​​​​​​​

Kies voor een UP-TO-DATE AI Website 100% in Google

Een UP-TO-DATE AI Website maakt het gemakkelijk om automatisch up-to-date te blijven met je klanten en overal aanwezig te zijn.

Maak een afspraak