Nvidia’s visie op de ultieme doorbraak in autonome intelligentie
Volgens Jim Fan, hoofd van het embodied AI-onderzoek bij NVIDIA, bevindt robotica zich niet langer in een experimentele fase, maar in de eindfase van zijn ontwikkeling. In een diepgaand gesprek schetst hij een toekomst waarin robots niet alleen taken uitvoeren, maar de wereld begrijpen, redeneren en zelfstandig leren.
De “grote parallel”: Robotica volgt het pad van AI
Fan introduceert een krachtig concept: de “grote parallel”. Net zoals taalmodellen zich ontwikkelden van simpele tekstvoorspellers tot complexe redeneermachines, ziet hij robotica dezelfde weg volgen.
Hij beschrijft drie fases:
- Pre-training → robots leren via enorme hoeveelheden data
- Reasoning → robots begrijpen context en nemen beslissingen
- Auto-research → systemen verbeteren zichzelf autonoom
Maar er is een cruciaal verschil. Waar AI draait om taal, draait robotica om de fysieke wereld:
- Taalmodellen → worden vervangen door wereldmodellen
- Tekstdata → wordt vervangen door video en sensorische input
- Acties → worden gestuurd door world action models
Met andere woorden: robots leren niet langer hoe ze moeten handelen via scripts, maar via ervaringen en observaties van de echte wereld.
Van tele-operatie naar egocentrische data
Een van de grootste verschuivingen volgens Fan is het einde van klassieke tele-operatie (waarbij mensen robots op afstand besturen).
In plaats daarvan:
- Robots leren via egocentrische video (first-person perspectief)
- Data wordt verzameld alsof de robot zelf “ziet en ervaart”
- Schaal wordt exponentieel groter dankzij automatisering
Dit leidt tot een explosie aan trainingsdata, vergelijkbaar met wat internetdata betekende voor taalmodellen.
Waarom bestaande modellen tekortschieten
Fan is kritisch voor huidige benaderingen zoals het zogenaamde VLA-paradigma (Vision-Language-Action).
Zijn argument: 👉 deze systemen zijn te beperkt omdat ze nog steeds afhankelijk zijn van menselijke interpretaties en labels.
In plaats daarvan pleit hij voor:
- Video-gebaseerde wereldmodellen
- Simulaties waarin robots “dromen” en experimenteren
- Systemen zoals DreamZero en DreamDojo die acties leren voorspellen
Hiermee verschuift robotica van instructie-gedreven naar intuïtief lerende systemen.
Compute = omgeving = data
Een opvallende uitspraak van Fan:
“Compute is nu gelijk aan omgeving, en omgeving is gelijk aan data.”
Wat betekent dit concreet?
- Meer rekenkracht = meer gesimuleerde werelden
- Meer werelden = meer ervaringen voor robots
- Meer ervaring = snellere intelligentie
Dit creëert een feedbacklus die robotontwikkeling drastisch versnelt.
De fysieke Turingtest komt eraan
Misschien de meest gedurfde voorspelling:
👉 Binnen 2 tot 3 jaar zouden robots de fysieke Turingtest kunnen doorstaan.
Dat betekent:
- Een robot gedraagt zich zo natuurlijk
- Dat mensen niet meer kunnen onderscheiden of het een mens of machine is
- In fysieke interacties, niet alleen gesprekken
Als dat klopt, zitten we op een kantelpunt vergelijkbaar met de doorbraak van GPT-modellen, maar dan in de echte wereld.
Een generatie op het juiste moment
Volgens Fan is dit geen toeval. Hij gelooft dat deze generatie onderzoekers en ontwikkelaars precies op het juiste moment leeft:
- De technologie is klaar
- De data-infrastructuur bestaat
- De compute-kracht is beschikbaar
Alles wijst erop dat robotica zijn “ChatGPT-moment” nadert.
Conclusie
De visie van Jim Fan maakt één ding duidelijk: Robotica staat niet aan het begin, maar aan het einde van een lange evolutie.
Wat nog ontbreekt, is geen theorie maar schaal.
En als die schaal er komt, kan de grens tussen mens en machine sneller verdwijnen dan velen verwachten.









