Waarom beweging de ontbrekende schakel is in AI
In de wereld van kunstmatige intelligentie draait alles al jaren om taal en beeld. Maar één cruciaal element bleef opvallend onderbelicht: beweging. Volgens onderzoeker Yulu Gan is juist dat begrip van beweging essentieel om echte fysieke redenering mogelijk te maken.
AI-systemen moeten niet alleen herkennen wat ze zien, maar ook begrijpen wat er gebeurt en wat er zal gebeuren. Denk aan een vallend object, een rijdende auto of een persoon die een handeling uitvoert. Zonder inzicht in dynamiek blijft AI blind voor de realiteit.
Waarom huidige AI-modellen falen
Hoewel moderne Vision-Language Models (VLM’s) indrukwekkende prestaties leveren, botsen ze op hun limieten zodra beweging in beeld komt. Recente benchmarks tonen aan dat zelfs de meest geavanceerde modellen moeite hebben met:
- Het volgen van objecten doorheen de tijd
- Het interpreteren van complexe interacties
- Het voorspellen van toekomstige acties
De oorzaak? Een schrijnend tekort aan kwalitatieve, grootschalige datasets rond beweging.
Het probleem met bestaande datasets
Tot vandaag worden motion-datasets voornamelijk handmatig gelabeld. Dat is:
- Tijdrovend
- Duur
- Moeilijk schaalbaar
Hierdoor blijven datasets klein en oppervlakkig, terwijl AI juist nood heeft aan enorme hoeveelheden gedetailleerde trainingsdata.
FoundationMotion: Een volledig geautomatiseerde doorbraak
Daar komt FoundationMotion in beeld. Dit nieuwe systeem introduceert een revolutionaire aanpak: een volledig geautomatiseerde pipeline die zelf datasets opbouwt.
Hoe werkt het?
De pipeline combineert verschillende technologieën in één vloeiende keten:
- Detectie van objecten in video’s
- Tracking van bewegingen en trajecten
- Analyse via Large Language Models (LLM’s)
- Generatie van beschrijvingen (captions)
- Creatie van vraag-antwoordparen rond beweging en ruimte
Het resultaat? Rijke, fijnmazige datasets zonder menselijke tussenkomst.
Waarom simpele auto-captioning niet volstaat
Een naïeve aanpak, gewoon automatisch beschrijvingen genereren, blijkt onvoldoende. Zonder inzicht in trajecten en context missen modellen de essentie van beweging.
FoundationMotion lost dit op door expliciet trajectinformatie te koppelen aan taalmodellen. Daardoor ontstaat een veel dieper begrip van wat er werkelijk gebeurt in een video.
De kracht van de detector + LLM pipeline
De echte innovatie zit in de combinatie van:
- Computer vision (voor detectie en tracking)
- Taalmodellen (voor interpretatie en redenering)
Deze hybride aanpak zorgt ervoor dat AI niet alleen ziet, maar ook begrijpt.
Indrukwekkende resultaten
Met de gegenereerde datasets werden bestaande modellen zoals:
- NVILA-Video-15B
- Qwen2.5-7B
verder verfijnd (fine-tuning). De resultaten zijn opvallend:
- Sterke verbetering in motion understanding
- Geen verlies in andere prestaties
- Betere scores dan gesloten modellen zoals Gemini 2.5 Flash
- Overtreffen van grote open-source modellen zoals Qwen2.5-VL-72B
Dit markeert een belangrijke verschuiving in de AI-wereld.
Wat dit betekent voor de toekomst van AI
FoundationMotion opent de deur naar AI-systemen die:
- Fysische processen begrijpen
- Complexe interacties analyseren
- Betere voorspellingen maken
- Toepasbaar zijn in robotica, autonome voertuigen en simulaties
Het brengt AI een stap dichter bij echte wereldkennis.
Beperkingen en uitdagingen
Toch is het verhaal niet zonder kanttekeningen:
- Complexiteit van pipelines kan fouten introduceren
- Niet alle bewegingen zijn eenvoudig te modelleren
- Trade-offs tussen schaal en precisie blijven bestaan
Maar de richting is duidelijk: automatisering van data is de sleutel.
Conclusie: Van kijken naar begrijpen
Met FoundationMotion verschuift AI van passieve observatie naar actief begrip. Wat begon als beeldherkenning, evolueert naar echte interpretatie van de fysieke wereld.
De implicaties zijn enorm, en dit is nog maar het begin.









