De laatste fase van robotica: Waarom de doorbraak nabij is

maandag, 18 mei 2026
Ivan Jans

Nvidia’s visie op de ultieme doorbraak in autonome intelligentie

Volgens Jim Fan, hoofd van het embodied AI-onderzoek bij NVIDIA, bevindt robotica zich niet langer in een experimentele fase, maar in de eindfase van zijn ontwikkeling. In een diepgaand gesprek schetst hij een toekomst waarin robots niet alleen taken uitvoeren, maar de wereld begrijpen, redeneren en zelfstandig leren.

De “grote parallel”: Robotica volgt het pad van AI

Fan introduceert een krachtig concept: de “grote parallel”. Net zoals taalmodellen zich ontwikkelden van simpele tekstvoorspellers tot complexe redeneermachines, ziet hij robotica dezelfde weg volgen.

Hij beschrijft drie fases:

Pre-training → robots leren via enorme hoeveelheden data
Reasoning → robots begrijpen context en nemen beslissingen
Auto-research → systemen verbeteren zichzelf autonoom

Maar er is een cruciaal verschil. Waar AI draait om taal, draait robotica om de fysieke wereld:

Taalmodellen → worden vervangen door wereldmodellen
Tekstdata → wordt vervangen door video en sensorische input
Acties → worden gestuurd door world action models

Met andere woorden: robots leren niet langer hoe ze moeten handelen via scripts, maar via ervaringen en observaties van de echte wereld.

Van tele-operatie naar egocentrische data

Een van de grootste verschuivingen volgens Fan is het einde van klassieke tele-operatie (waarbij mensen robots op afstand besturen).

In plaats daarvan:

Robots leren via egocentrische video (first-person perspectief)
Data wordt verzameld alsof de robot zelf “ziet en ervaart”
Schaal wordt exponentieel groter dankzij automatisering

Dit leidt tot een explosie aan trainingsdata, vergelijkbaar met wat internetdata betekende voor taalmodellen.

Waarom bestaande modellen tekortschieten

Fan is kritisch voor huidige benaderingen zoals het zogenaamde VLA-paradigma (Vision-Language-Action).

Zijn argument: 👉 deze systemen zijn te beperkt omdat ze nog steeds afhankelijk zijn van menselijke interpretaties en labels.

In plaats daarvan pleit hij voor:

Video-gebaseerde wereldmodellen
Simulaties waarin robots “dromen” en experimenteren
Systemen zoals DreamZero en DreamDojo die acties leren voorspellen

Hiermee verschuift robotica van instructie-gedreven naar intuïtief lerende systemen.

Compute = omgeving = data

Een opvallende uitspraak van Fan:

“Compute is nu gelijk aan omgeving, en omgeving is gelijk aan data.”

Wat betekent dit concreet?

Meer rekenkracht = meer gesimuleerde werelden
Meer werelden = meer ervaringen voor robots
Meer ervaring = snellere intelligentie

Dit creëert een feedbacklus die robotontwikkeling drastisch versnelt.

De fysieke Turingtest komt eraan

Misschien de meest gedurfde voorspelling:

👉 Binnen 2 tot 3 jaar zouden robots de fysieke Turingtest kunnen doorstaan.

Dat betekent:

Een robot gedraagt zich zo natuurlijk
Dat mensen niet meer kunnen onderscheiden of het een mens of machine is
In fysieke interacties, niet alleen gesprekken

Als dat klopt, zitten we op een kantelpunt vergelijkbaar met de doorbraak van GPT-modellen, maar dan in de echte wereld.

Een generatie op het juiste moment

Volgens Fan is dit geen toeval. Hij gelooft dat deze generatie onderzoekers en ontwikkelaars precies op het juiste moment leeft:

De technologie is klaar
De data-infrastructuur bestaat
De compute-kracht is beschikbaar

Alles wijst erop dat robotica zijn “ChatGPT-moment” nadert.

Conclusie

De visie van Jim Fan maakt één ding duidelijk: Robotica staat niet aan het begin, maar aan het einde van een lange evolutie.

Wat nog ontbreekt, is geen theorie maar schaal.

En als die schaal er komt, kan de grens tussen mens en machine sneller verdwijnen dan velen verwachten.

De laatste fase van robotica: Waarom de doorbraak nabij is

Nvidia’s visie op de ultieme doorbraak in autonome intelligentie

De “grote parallel”: Robotica volgt het pad van AI