FoundationMotion: Hoe AI eindelijk leert begrijpen hoe de wereld beweegt

FoundationMotion: Hoe AI eindelijk leert begrijpen hoe de wereld beweegt

Waarom beweging de ontbrekende schakel is in AI

In de wereld van kunstmatige intelligentie draait alles al jaren om taal en beeld. Maar één cruciaal element bleef opvallend onderbelicht: beweging. Volgens onderzoeker Yulu Gan is juist dat begrip van beweging essentieel om echte fysieke redenering mogelijk te maken.

AI-systemen moeten niet alleen herkennen wat ze zien, maar ook begrijpen wat er gebeurt en wat er zal gebeuren. Denk aan een vallend object, een rijdende auto of een persoon die een handeling uitvoert. Zonder inzicht in dynamiek blijft AI blind voor de realiteit.

Waarom huidige AI-modellen falen

Hoewel moderne Vision-Language Models (VLM’s) indrukwekkende prestaties leveren, botsen ze op hun limieten zodra beweging in beeld komt. Recente benchmarks tonen aan dat zelfs de meest geavanceerde modellen moeite hebben met:

  • Het volgen van objecten doorheen de tijd
  • Het interpreteren van complexe interacties
  • Het voorspellen van toekomstige acties

De oorzaak? Een schrijnend tekort aan kwalitatieve, grootschalige datasets rond beweging.

Het probleem met bestaande datasets

Tot vandaag worden motion-datasets voornamelijk handmatig gelabeld. Dat is:

  • Tijdrovend
  • Duur
  • Moeilijk schaalbaar

Hierdoor blijven datasets klein en oppervlakkig, terwijl AI juist nood heeft aan enorme hoeveelheden gedetailleerde trainingsdata.

FoundationMotion: Een volledig geautomatiseerde doorbraak

Daar komt FoundationMotion in beeld. Dit nieuwe systeem introduceert een revolutionaire aanpak: een volledig geautomatiseerde pipeline die zelf datasets opbouwt.

Hoe werkt het?

De pipeline combineert verschillende technologieën in één vloeiende keten:

  1. Detectie van objecten in video’s
  2. Tracking van bewegingen en trajecten
  3. Analyse via Large Language Models (LLM’s)
  4. Generatie van beschrijvingen (captions)
  5. Creatie van vraag-antwoordparen rond beweging en ruimte
Het resultaat? Rijke, fijnmazige datasets zonder menselijke tussenkomst.


Waarom simpele auto-captioning niet volstaat

Een naïeve aanpak, gewoon automatisch beschrijvingen genereren, blijkt onvoldoende. Zonder inzicht in trajecten en context missen modellen de essentie van beweging.

FoundationMotion lost dit op door expliciet trajectinformatie te koppelen aan taalmodellen. Daardoor ontstaat een veel dieper begrip van wat er werkelijk gebeurt in een video.

De kracht van de detector + LLM pipeline

De echte innovatie zit in de combinatie van:

  • Computer vision (voor detectie en tracking)
  • Taalmodellen (voor interpretatie en redenering)
Deze hybride aanpak zorgt ervoor dat AI niet alleen ziet, maar ook begrijpt.

Indrukwekkende resultaten

Met de gegenereerde datasets werden bestaande modellen zoals:

  • NVILA-Video-15B
  • Qwen2.5-7B

verder verfijnd (fine-tuning). De resultaten zijn opvallend:

  • Sterke verbetering in motion understanding
  • Geen verlies in andere prestaties
  • Betere scores dan gesloten modellen zoals Gemini 2.5 Flash
  • Overtreffen van grote open-source modellen zoals Qwen2.5-VL-72B
Dit markeert een belangrijke verschuiving in de AI-wereld.

Wat dit betekent voor de toekomst van AI

FoundationMotion opent de deur naar AI-systemen die:

  • Fysische processen begrijpen
  • Complexe interacties analyseren
  • Betere voorspellingen maken
  • Toepasbaar zijn in robotica, autonome voertuigen en simulaties
Het brengt AI een stap dichter bij echte wereldkennis.

Beperkingen en uitdagingen

Toch is het verhaal niet zonder kanttekeningen:

  • Complexiteit van pipelines kan fouten introduceren
  • Niet alle bewegingen zijn eenvoudig te modelleren
  • Trade-offs tussen schaal en precisie blijven bestaan
Maar de richting is duidelijk: automatisering van data is de sleutel.


Conclusie: Van kijken naar begrijpen

Met FoundationMotion verschuift AI van passieve observatie naar actief begrip. Wat begon als beeldherkenning, evolueert naar echte interpretatie van de fysieke wereld.

De implicaties zijn enorm, en dit is nog maar het begin.

Aanbevolen voor jou

In de kijker

AI kan vanaf nu de muis overnemen op je scherm

AI kan vanaf nu de muis overnemen op je scherm

Meta zet de volgende stap in AI met AI-gegenereerde posts

Meta zet de volgende stap in AI met AI-gegenereerde posts

Salesforce presenteert Agentforce – Zoals AI voor Sales bedoeld is

Salesforce presenteert Agentforce – Zoals AI voor Sales bedoeld is

Google Earth laat gebruikers binnenkort ‘tijdreizen’ tot wel 80 jaar terug

Google Earth laat gebruikers binnenkort ‘tijdreizen’ tot wel 80 jaar terug

Updates

Inschrijven Nieuwsbrief

Zo word je altijd als eerste op de hoogte gebracht van ons laatste nieuws, updates, jobs, tips & promoties. Stay UP-TO-DATE!

WEBSITE LATEN MAKEN?​​​​​​​​​​​​​​

Kies voor een UP-TO-DATE AI Website 100% in Google

Een UP-TO-DATE AI Website maakt het gemakkelijk om automatisch up-to-date te blijven met je klanten en overal aanwezig te zijn.

Maak een afspraak