Nieuwe doorbraak in menselijke interactie met het web
Google heeft een nieuwe AI-model gelanceerd, Gemini 2.5 Computer Use, dat zich onderscheidt doordat het webbrowserinterfaces kan begrijpen en ermee kan interacteren — zoals een mens dat zou doen.
Met visueel begrip en redeneervermogen kan Gemini 2.5 taken uitvoeren zoals op knoppen klikken, formulieren invullen en door webpagina’s scrollen. Deze aanpak verschilt van traditionele AI-modellen, die meestal vertrouwen op gestructureerde API’s voor interactie met systemen.
Google’s latest AI model uses a web browser like you doGoogle has released a new Gemini AI model to developers that’s designed to use a browser to navigate around and interact with web pages designed for people. |
Volgens Google overtreft Gemini 2.5 concurrerende modellen zoals Claude en ChatGPT op diverse benchmarks rond web- en mobiele interacties.
Google announces Gemini 2.5 Computer Use AI model that can control web browsers like humans do - The Times of IndiaTech News News: Google has launched Gemini 2.5 Computer Use, an AI model capable of interacting with software like a human by visually understanding interfaces. This |
Hoe werkt het?
In tegenstelling tot AI’s die via API’s opereren, interpreteert Gemini 2.5 de visuele weergave van een webpagina – de knoppen, tekstvelden, lay-out — en handelt op basis van wat het ziet. Het model ondersteunt dertien vooraf ingestelde acties, zoals typen, scrollen, klikken en slepen.
Momenteel opereert Gemini 2.5 vooral binnen de browseromgeving (niet op het hele besturingssysteem) — dat betekent dat het zich richt op taken binnen webinterfaces, en minder op het bedienen van andere applicaties buiten de browser.
Ontwikkelaars krijgen toegang via Google AI Studio en Vertex AI, terwijl geïnteresseerden demonstraties kunnen volgen via een platform genaamd Browserbase.
|
Introducing the Gemini 2.5 Computer Use modelToday we are releasing the Gemini 2.5 Computer Use model via the API, which outperforms leading alternatives at browser and mobile tasks. |
Belang en consequenties
Deze ontwikkeling markeert een nieuw stadium in AI-agenten die niet enkel tekst genereren, maar daadwerkelijk acties uitvoeren in digitale omgevingen. Het biedt potentieel voor automatisering van repetitieve webtaken — bijvoorbeeld automatisch formulieren invullen of gebruikersinterfaces testen — wanneer directe API’s ontbreken.
Tegelijk roept het vragen op rond veiligheid, controle en betrouwbaarheid: hoe waarborgt men dat zo’n AI niet ongewenste handelingen verricht of vertrouwelijke gegevens misbruikt? Google vermeldt dat er “safety guardrails” zijn ingebouwd om risico’s te beperken.
De toekomst van Gemini
Gemini 2.5 is onderdeel van een bredere Gemini-familie, met varianten zoals Pro, Flash en Flash-Lite, elk geoptimaliseerd voor verschillende toepassingen qua snelheid, kosten en vermogen.
Google werkt ook aan nieuwe modi zoals “Deep Think” voor complexere redenering in Gemini 2.5 Pro, en blijft uitbreiden in beveiliging en efficiëntie van het model.
Met Gemini 2.5 zou AI niet langer louter antwoorden geven, maar ook daadwerkelijk de digitale muis en het toetsenbord van de gebruiker kunnen overnemen — binnen de grenzen van wat is toegestaan.
|
We’re expanding our Gemini 2.5 family of modelsGemini 2.5 Flash and Pro are now generally available, and we’re introducing 2.5 Flash-Lite, our most cost-efficient and fastest 2.5 model yet. |









