Van chatbots naar digitale waarnemers en beslissers
In een nieuwe aflevering van The Shift duikt het team van Microsoft diep in een fundamentele vraag die de toekomst van AI zal bepalen: Welke zintuigen hebben AI-agents nodig om effectief te kunnen handelen?
Wat ooit begon als simpele tekstgebaseerde chatbots, evolueert razendsnel naar intelligente systemen die niet alleen begrijpen, maar ook waarnemen, interpreteren en beslissingen nemen. Volgens experts Ronak Chokshi, Vinod Valloppillil en Linda Li ligt de sleutel tot die evolutie in iets verrassend menselijks: Zintuigen.
Van input naar inzicht: AI moet leren ‘voelen’
De eerste generatie AI-agents werkte vooral met één kanaal: Tekst. Maar dat is volgens de sprekers niet langer voldoende.
Om echt nuttig te zijn, moeten agents meerdere vormen van input kunnen verwerken — vergelijkbaar met hoe mensen de wereld ervaren. Denk aan:
- Visuele informatie (beelden, video)
- Auditieve signalen (spraak, geluid)
- Contextuele data (omgeving, geschiedenis, intentie)
Deze multimodale aanpak stelt agents in staat om situaties beter te begrijpen en relevanter te reageren. Een AI die enkel tekst leest, mist immers cruciale signalen die buiten woorden liggen.
Zien, horen, begrijpen: De opkomst van multimodale agents
De toekomst van AI ligt volgens het team in zogenaamde multimodale agents. Dat zijn systemen die verschillende “zintuigen” combineren om een rijker beeld van de werkelijkheid te vormen.
Een voorbeeld: Een agent die een video bekijkt, kan niet alleen de beelden analyseren, maar ook de gesproken woorden interpreteren én de context begrijpen. Dat maakt hem veel krachtiger dan traditionele AI.
Context is het zesde zintuig
Naast klassieke zintuigen benadrukken de experts nog een cruciaal element: context.
Context bepaalt waarom iets gebeurt en wat het betekent. Zonder context blijft AI oppervlakkig. Met context kan een agent:
- Intenties herkennen
- Relevantie inschatten
- Gepaste acties ondernemen
In die zin fungeert context als een soort “zesde zintuig” dat alle andere signalen samenbrengt.
Van waarnemen naar handelen
Maar waarnemen alleen is niet genoeg. Het uiteindelijke doel van AI-agents is actie.
Daarvoor moeten ze drie stappen beheersen:
- Waarnemen – data verzamelen via verschillende zintuigen
- Interpreteren – betekenis geven aan die data
- Handelen – beslissingen nemen en uitvoeren
Pas wanneer deze drie naadloos samenwerken, ontstaat er een echte “agent” die autonoom waarde kan leveren.
De volgende fase van AI: Agents als digitale collega’s
Wat betekent dit concreet voor bedrijven en gebruikers?
Volgens het team van Microsoft staan we aan de vooravond van een nieuwe fase waarin AI-agents functioneren als digitale collega’s. Ze zullen:
- Complexe workflows automatiseren
- Proactief beslissingen voorstellen
- Samenwerken met mensen in real-time
Maar dat kan alleen als ze beschikken over voldoende “zintuigen” om de wereld correct te interpreteren.
Conclusie: AI wordt minder blind en meer bewust
De centrale boodschap uit deze aflevering is helder: AI-agents moeten leren waarnemen zoals mensen dat doen, of zelfs beter.
Door zintuigen zoals zicht, gehoor en context te combineren, evolueren ze van passieve tools naar actieve spelers. Niet langer enkel reagerend op input, maar anticiperend op situaties.
De vraag is dus niet langer of AI zal handelen, maar hoe goed het zal kunnen zien, horen en begrijpen voordat het dat doet.









