De kern: AI in de mainframe-wereld — sneller, slimmer, efficiënter
In november 2025 lanceerde IBM een nieuwe versie van zijn “AI Optimizer for Z”: versie 2.1. Daarmee wil IBM een belangrijke hindernis slechten voor ondernemingen die generatieve AI (GenAI) en LLM-toepassingen willen integreren op mainframe-infrastructuren — namelijk: latency, resource-efficiëntie, compliance en infrastructuurcomplexiteit.
Voor bedrijven die al draaien op IBM Z is de vraag niet óf ze AI kunnen inzetten, maar hoe vlot, veilig en kostenefficiëntze dat kunnen doen zonder hun bestaande workflows te verstoren. AI Optimizer for Z 2.1 is daar expliciet op afgestemd.
Scale and optimize gen AI inferencing using the new AI Optimizer for Z 2.1The AI Optimizer for Z 2.1 is designed to serve AI models and perform inference optimization on IBM Spyre accelerator. |
Wat AI Optimizer for Z 2.1 concreet toevoegt
Dankzij integratie met bekende tools als Grafana en Prometheus biedt de Optimizer live dashboards. Daardoor krijgen beheerders inzicht in inference-prestaties, hardware- en acceleratorkennis, gebruikspatronen en bottlenecks. Dat maakt overprovisionering overbodig en helpt bij budgettering en infrastructuurplanning.
Multi-level caching: sneller, efficiënter, schaalbaarder
De nieuwe versie ondersteunt caching op meerdere niveaus. Via key-value caching (voor veelvoorkomende tokenreeksen) en gedeelde cache over meerdere LLM-deployments kan inference veel sneller verlopen. Dat leidt tot lagere “time-to-first-token”, hogere doorvoer en efficiënter gebruik van hardware.
Slimme routing & automatische detectie voor LLM’s op Spyre
LLM’s die draaien op de gespecialiseerde accelerator Spyre accelerator worden automatisch herkend en geoptimaliseerd. Via een “intelligente router” kan AI Optimizer requests verdelen op basis van beschikbaarheid, performance en gebruik — en LLM’s groeperen volgens tags (vb. conform OpenAI-API standaarden).
Hybride AI-infrastructuur: externe modellen integreren
Niet alleen lokale LLM’s: ook modellen die elders draaien — buiten IBM Z of LinuxONE — kunnen geregistreerd worden. Zo krijgen bedrijven één uniforme inferencing-laag, met gedeelde monitoring, tagging en load balancing. Ideaal voor hybride cloud- en on-prem AI-architecturen.
Waarom dit relevant is voor bedrijven
- Veel organisaties hanteren strenge latency-, compliance- of data-residency-vereisten — inference moet dicht bij de data gebeuren, op het mainframe. AI Optimizer maakt dat praktisch mogelijk, zonder performance-opoffering.
- AI-modellen worden steeds zwaarder en veeleisender. Door caching, optimalisatie en slimme resource-toewijzing kunnen bedrijven AI-workloads schalen zonder knelpunten of onevenredige kosten.
- Voor organisaties met legacy-infrastructuur — waar data, transacties en compliance cruciaal zijn — is dit een manier om veilig en compliant AI te omarmen, zonder massale migraties of cloud-afhankelijkheid.
AI on mainframe — geen hype, maar strategische infrastructuur
Met AI Optimizer for Z 2.1 toont IBM dat generatieve AI niet per se in de cloud hoeft te leven. Voor ondernemingen die zijn gebouwd op mainframes zoals IBM Z of LinuxONE, biedt de software een betrouwbare, efficiënte en schaalbare manier om AI toe te voegen — mét behoud van controle, compliance en prestatie-zekerheid. Het is een slimme brug tussen legacy infrastructuur en next-gen AI-ambities.









