FoundationMotion: Hoe AI eindelijk leert begrijpen hoe de wereld beweegt

dinsdag, 19 mei 2026
Ivan Jans

Waarom beweging de ontbrekende schakel is in AI

In de wereld van kunstmatige intelligentie draait alles al jaren om taal en beeld. Maar één cruciaal element bleef opvallend onderbelicht: beweging. Volgens onderzoeker Yulu Gan is juist dat begrip van beweging essentieel om echte fysieke redenering mogelijk te maken.

AI-systemen moeten niet alleen herkennen wat ze zien, maar ook begrijpen wat er gebeurt en wat er zal gebeuren. Denk aan een vallend object, een rijdende auto of een persoon die een handeling uitvoert. Zonder inzicht in dynamiek blijft AI blind voor de realiteit.

Waarom huidige AI-modellen falen

Hoewel moderne Vision-Language Models (VLM’s) indrukwekkende prestaties leveren, botsen ze op hun limieten zodra beweging in beeld komt. Recente benchmarks tonen aan dat zelfs de meest geavanceerde modellen moeite hebben met:

Het volgen van objecten doorheen de tijd
Het interpreteren van complexe interacties
Het voorspellen van toekomstige acties

De oorzaak? Een schrijnend tekort aan kwalitatieve, grootschalige datasets rond beweging.

Het probleem met bestaande datasets

Tot vandaag worden motion-datasets voornamelijk handmatig gelabeld. Dat is:

Tijdrovend
Duur
Moeilijk schaalbaar

Hierdoor blijven datasets klein en oppervlakkig, terwijl AI juist nood heeft aan enorme hoeveelheden gedetailleerde trainingsdata.

FoundationMotion: Een volledig geautomatiseerde doorbraak

Daar komt FoundationMotion in beeld. Dit nieuwe systeem introduceert een revolutionaire aanpak: een volledig geautomatiseerde pipeline die zelf datasets opbouwt.

Hoe werkt het?

De pipeline combineert verschillende technologieën in één vloeiende keten:

Detectie van objecten in video’s
Tracking van bewegingen en trajecten
Analyse via Large Language Models (LLM’s)
Generatie van beschrijvingen (captions)
Creatie van vraag-antwoordparen rond beweging en ruimte

Het resultaat? Rijke, fijnmazige datasets zonder menselijke tussenkomst.

Waarom simpele auto-captioning niet volstaat

Een naïeve aanpak, gewoon automatisch beschrijvingen genereren, blijkt onvoldoende. Zonder inzicht in trajecten en context missen modellen de essentie van beweging.

FoundationMotion lost dit op door expliciet trajectinformatie te koppelen aan taalmodellen. Daardoor ontstaat een veel dieper begrip van wat er werkelijk gebeurt in een video.

De kracht van de detector + LLM pipeline

De echte innovatie zit in de combinatie van:

Computer vision (voor detectie en tracking)
Taalmodellen (voor interpretatie en redenering)

Deze hybride aanpak zorgt ervoor dat AI niet alleen ziet, maar ook begrijpt.

Indrukwekkende resultaten

Met de gegenereerde datasets werden bestaande modellen zoals:

NVILA-Video-15B
Qwen2.5-7B

verder verfijnd (fine-tuning). De resultaten zijn opvallend:

Sterke verbetering in motion understanding
Geen verlies in andere prestaties
Betere scores dan gesloten modellen zoals Gemini 2.5 Flash
Overtreffen van grote open-source modellen zoals Qwen2.5-VL-72B

Dit markeert een belangrijke verschuiving in de AI-wereld.

Wat dit betekent voor de toekomst van AI

FoundationMotion opent de deur naar AI-systemen die:

Fysische processen begrijpen
Complexe interacties analyseren
Betere voorspellingen maken
Toepasbaar zijn in robotica, autonome voertuigen en simulaties

Het brengt AI een stap dichter bij echte wereldkennis.

Beperkingen en uitdagingen

Toch is het verhaal niet zonder kanttekeningen:

Complexiteit van pipelines kan fouten introduceren
Niet alle bewegingen zijn eenvoudig te modelleren
Trade-offs tussen schaal en precisie blijven bestaan

Maar de richting is duidelijk: automatisering van data is de sleutel.

Conclusie: Van kijken naar begrijpen

Met FoundationMotion verschuift AI van passieve observatie naar actief begrip. Wat begon als beeldherkenning, evolueert naar echte interpretatie van de fysieke wereld.

De implicaties zijn enorm, en dit is nog maar het begin.

FoundationMotion: Hoe AI eindelijk leert begrijpen hoe de wereld beweegt

Waarom beweging de ontbrekende schakel is in AI

Waarom huidige AI-modellen falen

Het probleem met bestaande datasets

FoundationMotion: Een volledig geautomatiseerde doorbraak

Hoe werkt het?

Waarom simpele auto-captioning niet volstaat

De kracht van de detector + LLM pipeline

Indrukwekkende resultaten

Wat dit betekent voor de toekomst van AI

Beperkingen en uitdagingen

Conclusie: Van kijken naar begrijpen

Aanbevolen voor jou

TRENDING DEZE MAAND

In de kijker

AI kan vanaf nu de muis overnemen op je scherm

Meta zet de volgende stap in AI met AI-gegenereerde posts

Salesforce presenteert Agentforce – Zoals AI voor Sales bedoeld is

Google Earth laat gebruikers binnenkort ‘tijdreizen’ tot wel 80 jaar terug

Inschrijven Nieuwsbrief

Kies voor een UP-TO-DATE AI Website 100% in Google

UP-TO-DATE WebDesign BV

UP-TO-DATE AI Today

Voor u aanbevolen