Eigen AI, eigen regels: Gemma 3 270M finetunen stap voor stap

zaterdag, 25 oktober 2025
Ivan Jans

Google presenteert in een recente blogpost hoe ontwikkelaars Gemma 3 270M kunnen finetunen en lokaal (on-device) kunnen draaien. Gemma is een verzameling lichte, state-of-the-art open modellen, afkomstig uit dezelfde technologie als de Gemini-modellen. De kracht van Gemma 3 270M schuilt in de combinatie van toegankelijkheid én prestaties: je hebt geen dure hardware nodig om een gespecialiseerd model te creëren en draaien.

Own your AI: Learn how to fine-tune Gemma 3 270M and run it on-device

Learn to fine-tune and deploy Gemma 3 270M on-device. Create custom AI models, like a personal emoji generator, that run in-browser for a fast, private UX.

Dit artikel beschrijft hoe je in drie stappen (fijnslijpen, kwantiseren / converteren, en draaien) jouw eigen AI-model op je toestel zet — aan de hand van een voorbeeld waarbij tekst wordt vertaald naar emoji’s.

Stap 1: Gedrag van het model aanpassen via fine-tuning

Standaardmodellen zijn generiek. Als je Gemma vraagt teksten te vertalen naar emoji’s, kan je onverwachte of “vullingstekst” krijgen. Om ervoor te zorgen dat het model precies doet wat je wilt (bijv. enkel emoji’s, geen extra tekst), moet je het finetunen met voorbeelden.

Je maakt een dataset met zinnen en bijbehorende emoji-reacties. Hoe meer voorbeelden, hoe beter het model leert. Voor variatie kun je alternatieve zinnen genereren voor dezelfde emoji-uitkomst. Vroeger vereiste fine-tuning veel VRAM, maar dankzij QLoRA (Quantized Low-Rank Adaptation), een parameter-efficiënte techniek, werk je slechts een klein deel van de gewichten bij. Dat drukt de geheugenbehoefte en maakt fine-tunen snelle en praktisch haalbaar — bijvoorbeeld in Google Colab met een T4 GPU.

Stap 2: Kwantiseren en omzetten voor on-device gebruik

Na het finetunen heb je een gespecialiseerd model, maar het origineel kan nog te groot zijn voor snelle, lokale uitvoering. Daarom pas je kwantisatie toe — je verlaagt de precisie van de modelgewichten (bijv. van 16-bit naar 4-bit), wat het model veel kleiner maakt met minimaal prestatieverlies. Hiermee kun je het model onder de 300 MB krijgen, een haalbare grootte voor mobiele of desktoptoepassingen. Vervolgens converteer je het model in één stap naar een formaat dat gebruikt kan worden met frameworks zoals MediaPipe (via LiteRT) of Transformers.js (via ONNX). Met zulke frameworks kun je later inference draaien in de browser met WebGPU, zodat de AI lokaal werkt, geen server nodig heeft en data privé blijft.

Stap 3: Het model draaien in de browser

Het sterkste voordeel: je model draait volledig in de browser, op het apparaat van de gebruiker. Je downloadt de voorbeeld-webapp, vervangt één regel code om op jouw model te wijzen, en alles is klaar. MediaPipe en Transformers.js maken het eenvoudig: je initieert de AI-taak, stuurt de prompt (bijv. “Translate this text to emoji”) en ontvangt direct het resultaat. Zodra het model gecachet is op het toestel, draaien volgende verzoeken lokaal — met lage latentie, offline werking en privacy voor gebruikers.

Waarom dit belangrijk is

Geen expertise vereist: je hoeft geen AI-wetenschapper te zijn — met relatief kleine datasets kun je krachtige modellen maken.
Controle & privacy: omdat de AI op het apparaat draait, gaat er geen gevoelige data naar servers.
Snelheid en toegankelijkheid: lage laadtijd, werking offline, geen dure infrastructuur nodig.
Schaalbaarheid van maatwerk AI: je kunt meerdere gespecialiseerde modellen maken, elk gericht op een specifieke taak.

Google biedt volledige bronnen, tutorials en demo-code om je op weg te helpen. Probeer het uit in de live demo 🤓 hieronder 👇