In het digitale hart van enorme datacenters speelt zich een cryptisch spel af: het optimaal plaatsen van virtuele machines (VM’s) op fysieke servers — alsof het een snelle variant is van Tetris. Onderzoekers van Google Research en DeepMind onthullen hoe ze met behulp van kunstmatige intelligentie – en een nieuw algoritme genaamd LAVA – dit puzzelspel naar een hoger niveau tillen.
Het puzzelprobleem in de cloud
Moderne cloud-datacenters draaien op een voortdurende stroom van virtuele machines: sommige draaien slechts minuten, anderen dagen of zelfs weken. Het doel is simpel: maak het fysieke serveroppervlak zo efficiënt mogelijk vol met VM’s. Maar… hoe lang een VM zal blijven draaien, is vaak onbekend en onvoorspelbaar. Als de voorspelling fout is, kunnen resterende serverbronnen “verspild” raken — bijvoorbeeld wanneer er te weinig ruimte over is voor nieuwe VM’s, een fenomeen dat “resource stranding” wordt genoemd. Dat maakt van dit probleem een variant van het klassieke “bin-packing problem”, maar dan met wisselende en onbekende levensduur van de blokken.
Solving virtual machine puzzles: How AI is optimizing cloud computingWe present LAVA, a new scheduling algorithm that continuously re-predicts and adapts to the actual lifetimes of virtual machines to optimize resource efficiency in large cloud data centers. |
Nieuwe benadering: Continue her-voorspelling
In plaats van bij de start van een VM slechts één voorspelling te doen van de levensduur, ontwikkelden de onderzoekers een model dat een waarschijnlijkheidsverdeling voorspelt én die voorspelling continu bijwerkt naarmate de VM draait. Zo ontstaat een systeem dat vraagt: “Nu de VM al vijf dagen draait, wat is de verwachte resterende looptijd?” Door steeds nieuwe gegevens toe te voegen worden voorspellingen accurater.
Drie algoritmes: NILAS, LAVA en LARS
De kern van het onderzoek bestaat uit drie algoritmes:
NILAS (Non-Invasive Lifetime Aware Scheduling):
Integreert de levensduurverwachting in een bestaande scoringfunctie voor het kiezen van een host-server. NILAS richt zich op hosts waar verwachte uitstapmomenten van VM’s ongeveer gelijk liggen. Zo ontstaan eerder “lege hosts”.
LAVA (Lifetime-Aware VM Allocation):
Verstandig anders: plaats kortlevende VM’s op hosts met al één of meer langlevende VM’s. Zo worden “gaten” in de capaciteit opgevuld zonder de totale levensduur van de host sterk te verlengen.
LARS (Lifetime-Aware Rescheduling):
Bij onderhoud of defragmentatie van hosts: sorteer VM’s op verwachte resterende levensduur en verhuis eerst de langlevende. Simulaties tonen een mogelijke reductie van tot zo’n 4,5 % minder live-migraties.
Uitdagingen bij grootschalige inzet
Het ontwikkelen van modellen is één ding, maar implementeren in productieomgevingen is weer een andere bal. Een klassieke valkuil: het model draaien op aparte inference-servers, die zelf weer VM’s nodig hebben — wat een cirkel-afhankelijkheid oplevert. De onderzoekers losten dat op door het model direct te compileren in de scheduler-binary van het systeem (Borg). Dat resulteerde in een mediane latency van slechts 9 microseconden — veel sneller dan de traditionele opzet. Daarnaast introduceerden ze een caching-mechanisme voor ‘host-lifetime scores’ om performance-problemen te vermijden op de schaal van hele zones.
Resultaten & impact
De resultaten spreken voor zich: met NILAS in productie-omgeving sinds begin 2024 zagen de teams een toename van lege hosts met 2,3 tot 9,2 procentpunt — wat direct bijdraagt aan hogere efficiëntie. Daarnaast werd CPU-stranding gereduceerd met circa 3% en geheugenstranding met ongeveer 2%. Simulaties tonen dat LAVA en LARS daar bovendien nog extra winst kunnen boeken. Het effect is zowel economisch (minder verspilling, betere benutting) als ecologisch (minder energie die in ongebruikte capaciteit verdwijnt).
Waarom dit relevant is
Voor organisaties die grootschalig cloud-infrastructuur beheren — of voor geïnteresseerden in hoe AI en systeemarchitectuur samenkomen — illustreert dit werk hoe machine learning niet louter “bovenop” systemen zit, maar geïntegreerd kan worden in de laagste infrastructuurlaag.Het demonstreert ook hoe onzekerheden (zoals “hoe lang blijft deze VM draaien?”) slim te hanteren zijn met probabilistische modellen en voortdurende herziening.
Met dit onderzoek – van Google Research, DeepMind en andere betrokken teams – is een fundamentele stap gezet richting algoritmisch geoptimaliseerde datacenters. De combinatie van voorspellingen, aanpassing en integratie in de scheduler-laag bewijst dat zelfs de meest systemische “spelletjes” in de cloud opgepakt kunnen worden met AI-gedreven oplossingen.In een tijd waarin efficiëntie en duurzaamheid belangrijker zijn dan ooit, toont dit project hoe de puzzelstukken van virtuele machines eindelijk steeds beter op hun plek vallen.









