Microsoft MindJourney: AI leert navigeren in denkbeeldige 3D-werelden

Microsoft MindJourney: AI leert navigeren in denkbeeldige 3D-werelden

Microsoft Research presenteert MindJourney, een baanbrekende methode waarmee AI, specifiek Vision–Language Models (VLM’s), leert ruimtelijke verbanden te begrijpen door zich “voor te stellen” hoe het is een scène te betreden. Doordat het systeem hypothetische 3D-bewegingen simuleert via een wereldmodel, krijgt de AI een betekenisvolle ruimtelijke context die 2D-beelden overstijgt.

MindJourney: Test-Time Scaling with World Models for Spatial Reasoning

Een kijkje achter de schermen van MindJourney

MindJourney gebruikt een zogenoemd wereldmodel, gebaseerd op een video-verwerkend systeem dat is getraind op beelden vanuit één bewegend perspectief—alsof je als cameraman door de scène beweegt. Zo voorspelt het systeem hoe nieuwe invalshoeken eruitzien vanuit andere posities.

Vervolgens vormt de AI met behulp van een spatial beam search een verkenningsstrategie: het genereert meerdere mogelijke toekomstbeelden en laat de VLM selecteren welke invalshoeken het meest belovend zijn om de ruimtelijke vraag te beantwoorden. Ondertussen raakt via iteraties minder relevante richtingen uitgesloten, waardoor alleen de meest informatie­rijke paden overblijven.

MindJourney enables AI to explore simulated 3D worlds

MindJourney enables AI to explore simulated 3D worlds

MindJourney can enable AI to navigate and interpret 3D environments from limited visual input, potentially improving performance in navigation, planning, and safety-critical tasks:

Zonder training, toch slimmer

Een opvallend aspect is dat dit proces gewoon op testtijd plaatsvindt—zonder extra training van de AI. Door de simulatie–evaluatie–integratiecyclus kan de AI haar ruimtelijke redenering aanzienlijk verbeteren: op de Spatial Aptitude Training (SAT)-benchmark stijgt de nauwkeurigheid met gemiddeld 8 % ten opzichte van de standaard VLM-prestaties.

Synergie tussen VLM en wereldmodel

MindJourney verenigt de sterke kanten van twee verschillende technologieën: het basisinzicht van VLM’s in beelden en de driedimensionale context van wereldmodellen. Samen versterken ze elkaar, zonder de noodzaak om beide systemen opnieuw te trainen. Dit opent perspectieven voor AI‑agenten die complexere, fysieke scènes kunnen interpreteren én bevragen.

Toepassingen van morgen

Het vermogen om voorbij het zichtbare beeld te redeneren opent toepassingsdomeinen met impact:

  • Autonome robots die navigeren in onbekende omgevingen
  • Slimme woningtechnologieën die ruimtelijke context interpreteren
  • Hulpmiddelen voor mensen met visuele beperking, die visuele informatie over fysieke ruimte beter verduidelijken

Aanbevolen voor jou

In de kijker

AI kan vanaf nu de muis overnemen op je scherm

AI kan vanaf nu de muis overnemen op je scherm

Meta zet de volgende stap in AI met AI-gegenereerde posts

Meta zet de volgende stap in AI met AI-gegenereerde posts

Salesforce presenteert Agentforce – Zoals AI voor Sales bedoeld is

Salesforce presenteert Agentforce – Zoals AI voor Sales bedoeld is

Google Earth laat gebruikers binnenkort ‘tijdreizen’ tot wel 80 jaar terug

Google Earth laat gebruikers binnenkort ‘tijdreizen’ tot wel 80 jaar terug

Updates

Inschrijven Nieuwsbrief

Zo word je altijd als eerste op de hoogte gebracht van ons laatste nieuws, updates, jobs, tips & promoties. Stay UP-TO-DATE!

WEBSITE LATEN MAKEN?​​​​​​​​​​​​​​

Kies voor een UP-TO-DATE AI Website 100% in Google

Een UP-TO-DATE AI Website maakt het gemakkelijk om automatisch up-to-date te blijven met je klanten en overal aanwezig te zijn.

Maak een afspraak