Google Research heeft onlangs VaultGemma onthuld — een groot taalmodel dat vanaf de grond af is opgebouwd met differential privacy (DP). Het model belooft een sterke balans tussen prestaties, privacybescherming en bruikbaarheid.
Wat is differential privacy en waarom is het belangrijk?
Differential privacy is een wiskundige techniek waarmee data-analyse of machine learning-modellen zo worden ontworpen dat individuele gegevenspunten niet te herkennen zijn. In plaats van exacte gegevens te gebruiken, voegt het model gecontroleerde “ruis” toe — genoeg om privacy te garanderen, maar niet zoveel dat het model zijn bruikbaarheid verliest.
Dit is bijzonder relevant in tijden waarin AI steeds dieper doorleedt in persoonlijke en gevoelige informatie. Om AI verantwoordelijk te laten groeien, is privacy geen bijzaak meer, maar een kernfilosofie.
|
VaultGemma: The world's most capable differentially private LLMAs AI becomes more integrated into our lives, building it with privacy at its core is a critical frontier for the field. Differential privacy (DP) offers a mathematically robust solution by adding calibrated noise to prevent memorization. |
De uitdaging: Prestaties versus privacy
Het trainen van grootschalige taalmodellen met differential privacy gaat niet zonder haken en ogen. Er zijn twee grote knelpunten:
- Stabiliteit van de training: het toevoegen van ruis kan leiden tot niet-lineaire verschillen in hoe goed het model leert, met risico’s als verliespieken of instabiliteit.
- Hogere rekenkosten en grotere batches nodig: om privacy waarborgen te behouden, moeten batchgroottes en het aantal bewerkingen (compute) vaak sterk omhoog.
De “scaling laws” voor differential privacy
Om deze strijdpunten te begrijpen en mee te wegen, voerden de onderzoekers experimenten uit om de relaties bloot te leggen tussen modelgrootte, batch-size, ruisniveau, rekenkracht en hoeveelheid data:
- Ze ontdekten dat de noise-batch ratio (de verhouding tussen hoeveel ruis wordt toegevoegd en hoe groot de batches zijn) een kernrol speelt.
- Verder bleek dat het zinvol is om kleinere modellen te trainen in combinatie met zeer grote batchgroottes, vooral onder strengere privacy-restricties.
Deze schaalwetten vormen een leidraad voor toekomstige modellen die privacy centraal willen zetten.
VaultGemma: Resultaat van deze inzichten

Met die kennis ontwikkelden Google en DeepMind VaultGemma — een model met:
- 1 miljard parameters, waardoor het het grootste volledig vanaf nul met DP getrainde open model is.
- Een training die optimaal was afgesteld qua batchgrootte, aantal iteraties en de verhouding tussen ruis en data om de beste prestaties te halen binnen privacy-grenzen.
- Formele privacygaranties: specifiek een sequence-level differential privacy met een ε (epsilon) ≤ 2.0, δ (delta) ≤ 1.1×10⁻¹⁰, voor elke sequentie van ongeveer 1024 tokens.
- Tests toonden dat VaultGemma geen detecteerbare memorisatie vertoont van trainingsdata (d.w.z. het herhaalt niet blind passages uit trainingscorpora).
Waar staat VaultGemma nu, en wat zijn de beperkingen?
- Hoewel VaultGemma indrukwekkende resultaten bereikt, is er nog steeds een “utility gap” tussen modellen met en zonder DP: modellen zonder privacybeperkingen halen vaak hogere prestaties.
- De onderzoekers benadrukken dat deze kloof systematisch kleiner kan worden gemaakt, onder andere door verfijning van trainingsmechanismen, betere algoritmes en meer/betere data.
- De openstelling van de gewichten (weights) van VaultGemma via platforms als Hugging Face en Kaggle, plus het technische rapport, moet de bredere onderzoeksgemeenschap in staat stellen verder te bouwen.
Slotbeschouwing
VaultGemma vertegenwoordigt een belangrijke stap in de AI-ontwikkeling: een model dat krachtig én privé wil zijn. Het laat zien dat je niet hoeft te kiezen tussen prestaties en bescherming van data — al is de weg ernaartoe technisch veeleisend.
Voor onderzoekers, ontwikkelaars en beleidsmakers biedt dit model én de onderliggende schaalwetten een concreet handvat om te bouwen aan AI die vertrouwen kan wekken. En voor gebruikers betekent het potentieel dat systemen slimmer worden, zonder hun privacy op te offeren.










