Microsoft Research presenteert MindJourney, een baanbrekende methode waarmee AI, specifiek Vision–Language Models (VLM’s), leert ruimtelijke verbanden te begrijpen door zich “voor te stellen” hoe het is een scène te betreden. Doordat het systeem hypothetische 3D-bewegingen simuleert via een wereldmodel, krijgt de AI een betekenisvolle ruimtelijke context die 2D-beelden overstijgt.
Een kijkje achter de schermen van MindJourney
MindJourney gebruikt een zogenoemd wereldmodel, gebaseerd op een video-verwerkend systeem dat is getraind op beelden vanuit één bewegend perspectief—alsof je als cameraman door de scène beweegt. Zo voorspelt het systeem hoe nieuwe invalshoeken eruitzien vanuit andere posities.
Vervolgens vormt de AI met behulp van een spatial beam search een verkenningsstrategie: het genereert meerdere mogelijke toekomstbeelden en laat de VLM selecteren welke invalshoeken het meest belovend zijn om de ruimtelijke vraag te beantwoorden. Ondertussen raakt via iteraties minder relevante richtingen uitgesloten, waardoor alleen de meest informatierijke paden overblijven.
|
MindJourney enables AI to explore simulated 3D worldsMindJourney can enable AI to navigate and interpret 3D environments from limited visual input, potentially improving performance in navigation, planning, and safety-critical tasks: |
Zonder training, toch slimmer
Een opvallend aspect is dat dit proces gewoon op testtijd plaatsvindt—zonder extra training van de AI. Door de simulatie–evaluatie–integratiecyclus kan de AI haar ruimtelijke redenering aanzienlijk verbeteren: op de Spatial Aptitude Training (SAT)-benchmark stijgt de nauwkeurigheid met gemiddeld 8 % ten opzichte van de standaard VLM-prestaties.
Synergie tussen VLM en wereldmodel
MindJourney verenigt de sterke kanten van twee verschillende technologieën: het basisinzicht van VLM’s in beelden en de driedimensionale context van wereldmodellen. Samen versterken ze elkaar, zonder de noodzaak om beide systemen opnieuw te trainen. Dit opent perspectieven voor AI‑agenten die complexere, fysieke scènes kunnen interpreteren én bevragen.
Toepassingen van morgen
Het vermogen om voorbij het zichtbare beeld te redeneren opent toepassingsdomeinen met impact:
- Autonome robots die navigeren in onbekende omgevingen
- Slimme woningtechnologieën die ruimtelijke context interpreteren
- Hulpmiddelen voor mensen met visuele beperking, die visuele informatie over fysieke ruimte beter verduidelijken









