Wie vandaag een YouTube Short opent en speelt met de effecten, merkt het meteen: gezichten veranderen in cartoons, maskers verschijnen naadloos en filters reageren in real-time op elke beweging. Het lijkt bijna magie. Maar achter die magie schuilt een verhaal van slimme ingenieurs, enorme AI-modellen en een uitdaging die ooit onmogelijk leek: hoe krijg je superzware generatieve AI vlot draaiend op een smartphone?
From massive AI models to mobile magicWe detail how YouTube delivers real-time generative AI effects on mobile devices by using knowledge distillation and on-device optimization |
Het probleem: groot versus klein
In de onderzoekscentra van Google stond men voor een dilemma. Generatieve AI-modellen zoals StyleGAN2 of Imagen leveren verbluffende resultaten, maar zijn te groot en te traag voor een mobiel toestel. Het was alsof je een vrachtwagen probeerde te parkeren in een fietsstalling.
De oplossing? De kennis van die grote modellen overbrengen naar compacte, lichte versies die op een telefoon passen—zonder dat de magie verloren gaat.
YouTube secretly used AI to edit people's videos. The results could bend realityYouTube made AI enhancements to videos without telling users or asking permission. As AI quietly mediates our world, what happens to our shared connections with real life? |
De leerling leert van de meester
De aanpak die gekozen werd, heet een teacher–student-model. De “teacher” is het gigantische AI-model dat alle kunstjes kent. De “student” is een veel kleiner model, geoptimaliseerd om soepel te draaien op je smartphone.
Hoe leert die student? Door duizenden voorbeelden die de teacher eerst maakt. Voorbeelden met gezichten in allerlei vormen, leeftijden en huidskleuren. Zo wordt de student getraind om hetzelfde te kunnen—maar dan razendsnel en mobiel.
Controversy is growing as YouTube has applied artificial intelligence (AI)-based correction function.. - MKControversy is growing as YouTube has applied artificial intelligence (AI)-based correction function to some creator videos without consent process. Although it is in the name of improving image quali.. |
Identiteit bewaren: Geen vreemde gezichten
Een van de grootste uitdagingen was dat gezichten niet mochten vervormen. Niemand wil een filter dat je lach in een grimas verandert of je huidtoon onnatuurlijk maakt.
Daarom gebruikten de onderzoekers technieken zoals Pivotal Tuning Inversion (PTI). Daarmee kan het model de unieke kenmerken van een gezicht vastleggen en behouden, zelfs wanneer er een masker of cartoonlaag overheen gaat.
YouTube is editing billions of users’ videos and training AI without their consentThe story began to emerge in June, when news media worldwide revealed that Google was facing backlash for allegedly using over 20 billion YouTube videos without… |
Van laboratorium naar je handpalm
Toen de student eenmaal slim genoeg was, moest hij nog snel en efficiënt leren werken op mobiele hardware. Daarvoor werd MediaPipe ingezet, een open-source framework van Google.
Het proces verloopt in enkele stappen:
- Een Face Mesh herkent en stabiliseert je gezicht.
- Het beeld wordt bijgesneden en naar het compacte AI-model gestuurd.
- Het effect verschijnt meteen terug in de video.
Het resultaat: vloeiende effecten aan 30 beelden per seconde. Op een Pixel 8 Pro gebeurt dat in amper 6 milliseconden.
Van Halloweenmasker tot glimlach-boost
De technologie werd in 2023 geïntroduceerd in YouTube Shorts en sindsdien verschenen er talloze creatieve effecten. Van lach-animaties en “nooit meer knipperen” tot seizoensgebonden filters zoals Halloweenmaskers. Alles realtime, zonder hapering.
En dit is nog maar het begin. Nieuwe generatieve modellen zoals Veo 3 staan klaar om de lat nog hoger te leggen, met snellere prestaties en meer creatieve vrijheid.
|
Molly McDonald on why YouTube's new AI rules matter to creativesThe leading YouTube producer explains how the new guidelines should protect us from a deluge of AI slop. Let's not beat around the bush: tech giants ... |
Het grote verhaal
Wat dit verhaal bijzonder maakt, is de vertaalslag van grootschalige AI naar dagelijkse beleving. Waar generatieve modellen ooit enkel in datacenters draaiden, kan nu iedereen op zijn telefoon dezelfde magie ervaren.
YouTube toont daarmee dat de toekomst van AI niet alleen groots en complex hoeft te zijn—maar ook persoonlijk, speels en letterlijk binnen handbereik.









