IBM & Kaggle lanceren nieuwe AI-leaderboards voor ondernemingen

vrijdag, 19 december 2025
Ivan Jans

Een nieuwe standaard voor enterprise-AI

IBM Research heeft samen met Kaggle een set nieuwe “leaderboards” gelanceerd die zich specifiek richten op AI-modellen en -agenten voor bedrijfsomgevingen. Die leaderboards — genaamd EnterpriseOps, AssetOps en ITBench — bouwen voort op benchmarks die eerder dit jaar werden geïntroduceerd. Hun doel: het versnellen van de ontwikkeling én de toetsing van AI-systemen die echte, complexe bedrijfsproblemen aanpakken.

Waarom enterprise-AI anders is

In de afgelopen jaren is AI razendsnel geëvolueerd — met talloze toepassingen die onze manier van leven en werken veranderen. Maar in de wereld van bedrijven gelden andere regels dan in academisch onderzoek of generieke toepassingen. AI in ondernemingen moet betrouwbaar presteren op schaal, onder de vele variabelen en storingsbronnen die bij echte IT-infrastructuren en asset-management horen.

IBM and Kaggle launch new AI leaderboards for enterprise tasks

The new leaderboards, built atop benchmarks initiated by IBM Research, are designed to accelerate progress building and evaluating AI models and agents that can solve real-world enterprise issues.

Eenvoudige “algemene” benchmarks geven zelden een realistisch beeld van wat nodig is in productieomgevingen: incident detectie, foutdiagnoses, asset-monitoring, onderhoudsplanning, compliance, kostencontrole, etc.

Wat meten ITBench en AssetOpsBench concreet?

Via ITBench kunnen AI-agenten bijvoorbeeld getest worden op het diagnosticeren van falende services in Kubernetes-clusters, het beoordelen van compliance volgens normen zoals CIS, of het verklaren van afwijkende cloud-kosten.
Met AssetOpsBench richt men zich op het beheer van fysieke assets: de tool moet in staat zijn om de toestand van een asset te beoordelen, potentiële storingen te voorspellen, sensoren voor te stellen of onderhoud-werkorders aan te maken — op basis van data variërend van sensor-data tot werkopdrachten, error-berichten en IoT-meldingen.

Het idee is dat “agentic systems” — slimme AI-agenten — niet enkel reageren na een fout, maar potentieel proactief problemen detecteren, aanbevelingen doen én zelfs correctieve acties starten.

Waarom Kaggle? Een gedeeld scorebord voor enterprise-AI

Met Kaggle — een internationaal platform waar data-scientists, ML-engineers en onderzoekers samenkomen om modellen te bouwen, evalueren en vergelijken — kan IBM de nieuwe benchmarks open en toegankelijk maken. Dankzij de samenwerking wordt het voor duizenden ontwikkelaars en onderzoekers mogelijk om modellen te vergelijken op realistische, multi-stap taken die relevant zijn voor echte bedrijfsomgevingen.

Volgens IBM-onderzoekers haalt dit de operationele complexiteit weg van het opzetten en onderhouden van hoogwaardige benchmarks. Zo kunnen bedrijven én onderzoekers makkelijker inschatten welke agent of model geschikt is voor hun behoeften.

Grenzen & vooruitzichten: Niet hét eindstation, maar een begin

De huidige leaderboards bieden een gestandaardiseerde, reproduceerbare startplaats — maar ze vatten niet alle complexiteit van een reële productieomgeving. Echte IT-systemen bevatten ruis, grote schaal, onvoorspelbaar gedrag, en vereisen vaak real-time incident-resolutie — aspecten die vandaag nog niet allemaal worden afgedekt.

Toch markeert deze lancering het begin van een bredere inspanning. IBM Research, samen met partners en de open community, wil de benchmarks verder uitbreiden, nieuwe taken toevoegen en op termijn “agentic evaluation” integreren. Zo hoopt men de volgende golf van enterprise-automatisering te stimuleren — met AI die niet enkel experimenteel is, maar past bij wat bedrijven écht nodig hebben.

IBM & Kaggle lanceren nieuwe AI-leaderboards voor ondernemingen

Een nieuwe standaard voor enterprise-AI

Waarom enterprise-AI anders is

IBM and Kaggle launch new AI leaderboards for enterprise tasks

Wat meten ITBench en AssetOpsBench concreet?

Waarom Kaggle? Een gedeeld scorebord voor enterprise-AI

Grenzen & vooruitzichten: Niet hét eindstation, maar een begin

Aanbevolen voor jou

TRENDING DEZE MAAND

In de kijker

AI kan vanaf nu de muis overnemen op je scherm

Meta zet de volgende stap in AI met AI-gegenereerde posts

Salesforce presenteert Agentforce – Zoals AI voor Sales bedoeld is

Google Earth laat gebruikers binnenkort ‘tijdreizen’ tot wel 80 jaar terug

Inschrijven Nieuwsbrief

Kies voor een UP-TO-DATE AI Website 100% in Google

UP-TO-DATE WebDesign BV

UP-TO-DATE AI Today

Voor u aanbevolen

Een nieuwe standaard voor enterprise-AI

Waarom enterprise-AI anders is

IBM and Kaggle launch new AI leaderboards for enterprise tasks

Wat meten ITBench en AssetOpsBench concreet?

Waarom Kaggle? Een gedeeld scorebord voor enterprise-AI

Grenzen & vooruitzichten: Niet hét eindstation, maar een begin

Aanbevolen voor jou

TRENDING DEZE MAAND

71% van de mensen schat zijn AI-skills verkeerd in, zegt Stanford-expert

Google onthult: Zo bouw je schaalbare AI-systemen

In de kijker

AI kan vanaf nu de muis overnemen op je scherm

Meta zet de volgende stap in AI met AI-gegenereerde posts

Salesforce presenteert Agentforce – Zoals AI voor Sales bedoeld is

Google Earth laat gebruikers binnenkort ‘tijdreizen’ tot wel 80 jaar terug

Inschrijven Nieuwsbrief

Kies voor een UP-TO-DATE AI Website 100% in Google

UP-TO-DATE WebDesign BV

UP-TO-DATE AI Today

Voor u aanbevolen