DeepMind gooit de deuren open naar de fysieke wereld met de nieuwste generatie AI-robotica: Gemini Robotics 1.5 en Gemini Robotics-ER 1.5. Waar eerdere AI-modellen nog beperkt bleven tot tekst, afbeeldingen of afzonderlijke commando’s, gaan deze modellen een stap verder: ze kunnen plannen, redeneren, reageren, uitvoeren én samenwerken met digitale tools terwijl ze in de echte wereld handelen.
Slim denken vóór doen: Visie naar actie
Gemini Robotics 1.5 fungeert als het uitvoerende brein dat visuele input én taal kan omzetten in fysieke bewegingen. In plaats van direct commando’s te vertalen naar acties, “denkt” het model eerst — het genereert een interne redenering in natuurlijke taal, waarna het de juiste motorische stappen kiest. Deze aanpak zorgt voor meer transparantie: de robot kan uitleg geven over zijn denkproces en beslissingen.
|
Gemini Robotics 1.5 brings AI agents into the physical worldWe’re powering an era of physical agents — enabling robots to perceive, plan, think, use tools and act to better solve complex multi-step tasks. |
Een breder plan: Het orchestreren van agentische taken
De partner van het uitvoerende model is Gemini Robotics-ER 1.5, het “embodied reasoning”-model dat functioneert als een hoger niveau planner. Dit model analyseert de omgeving ruimtelijk, ontwikkelt slimme strategieën voor meerstapsopdrachten en kan digitale tools aanspreken — zoals Google Search — om extra informatie op te halen. Vervolgens vertaalt het de bevindingen naar instructies die de uitvoerende robot kan uitvoeren.
Een concreet voorbeeld: als je een robot vraagt om afval te sorteren volgens de lokale recyclingregels, zoekt het reasoning-model eerst de richtlijnen online op, bepaalt welke objecten in welke bakken horen en creëert dan een stap-voor-stap plan dat de uitvoerende motorische robot kan verwerken.
Leren van variatie: Overdracht tussen robottypen
Wat bijzonder is: Gemini Robotics 1.5 kan vaardigheden leren op één robotvorm (bijv. een tweearmrobot) en deze kennis overbrengen naar een totaal verschillende robot, zoals een humanoïde. Zo ontstaat een generieke intelligentie die niet strikt gebonden is aan één robotconfiguratie.
Bijvoorbeeld: taken geleerd op de ALOHA 2-robot werken ook op de Apptronik humanoïde of de bi-arm Franka. Dit versnelt het adaptieproces, want ontwikkelaars hoeven niet voor elke robot een volledig nieuw model te trainen.
|
Building the Next Generation of Physical Agents with Gemini Robotics-ER 1.5Gemini Robotics-ER 1.5, now available to developers, is a state-of-the-art embodied reasoning model for robots. |
Precisiemodel: Ruimtelijke & temporele intelligentie
Gemini Robotics-ER 1.5 blinkt uit in ruimtelijk inzicht. Het model kan nauwkeurige 2D-punten toewijzen aan objecten, rekening houden met afmetingen, vormen, “affordances” (wat een object uitnodigt te doen), en zo een robot vertellen waar precies te grijpen of te bewegen.
Ook in de tijdsdimensie is het sterk: het model kan video’s analyseren, oorzaak-gevolgrelaties begrijpen en taken chronologisch ontleden. Het kan bijvoorbeeld vertellen in welke volgorde acties uitgevoerd zijn, of wat er tussen twee tijdstippen gebeurde.
Bovendien bepaalt de gebruiker of het model “lang wil nadenken” (hogere nauwkeurigheid) of juist snel wil reageren (lagere latentie) — een flexibele “denkkapaciteit” dus.
Veiligheid & verantwoorde ontwikkeling
DeepMind besteedt veel aandacht aan veiligheid en alignering. De modellen bevatten verbeterde veiligheidsfilters zodat ze plannen kunnen weigeren die fysieke beperkingen overschrijden (zoals te zwaar tillen).
Daarnaast werkt het team samen via het Responsibility & Safety Council en andere afdelingen om ervoor te zorgen dat robotica ontwikkeld wordt binnen ethische kaders. Ze hebben ook het ASIMOV-benchmark geüpdatet: een dataset en evaluatiekader voor semantische veiligheid met betere dekking van randgevallen.
Toegang & beschikbaarheid
Vanaf vandaag is Gemini Robotics-ER 1.5 beschikbaar voor ontwikkelaars via de Gemini API in Google AI Studio. De meer fysiek-georiënteerde Gemini Robotics 1.5 is voorlopig nog enkel toegankelijk voor geselecteerde partners.
DeepMind ziet dit als een belangrijke stap op weg naar echte AGI (algemene kunstmatige intelligentie) in de fysieke wereld — geen systemen die alleen reageren, maar die plannen, redeneren en handelen in een complexë omgeving.
Impact & uitdagingen
De verschuiving die DeepMind beoogt is substantieel: robots die niet louter commando’s volgen, maar actief deelnemen aan het bedenken en uitvoeren van plannen. Dat opent deuren voor toepassingen in logistiek, huishouden, hulpverlening, robotica in de industrie, enzovoort.
Tegelijk zijn er uitdagingen: betrouwbaarheid in onbekende of chaotische omgevingen, veilige interactie met mensen, onverwachte situaties, het voorkomen van “hallucinaties” of fouten in redenering, en ethische verantwoordelijkheden.
De combinatie van redenerende AI (+ planning met externe tools) en motorisch uit te voeren modellen markeert een spannend hoofdstuk in robotica.
Met Gemini Robotics 1.5 en Gemini Robotics-ER 1.5 zet DeepMind een ambitieus, maar fundamenteel belangrijke stap: AI-systemen die niet enkel in virtuele of tekstuele kaders opereren, maar écht in de fysieke wereld denken en handelen. De vraag is nu niet meer of robots zullen meedraaien in onze leefwereld, maar hoe snel en hoe veilig.









