We staan op een kantelpunt in de evolutie van kunstmatige intelligentie. Waar we voorheen enkel met tekst communiceerden tegen een scherm, transformeren nieuwe systemen in digitale zintuigen die beelden, geluid en data naadloos met elkaar verweven.
In de begindagen van de huidige AI-revolutie waren Large Language Models (LLMs) vooral meesters in het geschreven woord. Ze lazen bibliotheken uit en schreven essays in een handomdraai. Maar de wereld bestaat uit meer dan letters alleen. Martin Keen van IBM legt uit dat de nieuwe generatie AI (de zogenaamde ‘multimodale AI’) de barrières tussen verschillende soorten media definitief doorbreekt.
De gedeelde taal van vectoren
Het geheim achter deze technologie ligt in hoe de AI informatie opslaat. In plaats van tekst en afbeeldingen als totaal verschillende zaken te zien, vertaalt multimodale AI alles naar een ‘gedeelde vectorruimte’. Of het nu gaat om het woord ‘hond’ of een foto van een Labrador: voor de AI eindigen ze op dezelfde coördinaten in een gigantisch digitaal universum van betekenissen.
Hierdoor kan een model niet alleen beschrijven wat het ziet, maar ook concepten uit de ene wereld (beeld) vertalen naar de andere (tekst of geluid).
Geavanceerde tokenisatie: De bouwstenen
Om dit mogelijk te maken, maakt de AI gebruik van geavanceerde tokenisatie. Waar een tekstmodel woorden opdeelt in kleine stukjes (tokens), doet een multimodaal model dat ook met pixels van een afbeelding of frequenties van een audiofragment.
Het resultaat? Een ‘native’ multimodaal systeem. Dit betekent dat het model vanaf de basis is getraind om verschillende stromen informatie tegelijkertijd te verwerken. Het is niet langer een tekstmodel waar achteraf een ‘ogen-module’ op is geplakt; het is een systeem dat van nature begrijpt hoe de visuele en tekstuele wereld met elkaar verbonden zijn.
Van 'Any-to-Any': De toekomst van creatie
De meest opwindende ontwikkeling die Keen bespreekt, is de verschuiving naar ‘any-to-any’ generatie. Dit houdt in dat de input van elk type (bijvoorbeeld een gesproken opdracht) kan leiden tot een output van elk ander type (bijvoorbeeld een gegenereerde video of een technisch schema).
Deze flexibiliteit transformeert AI-innovatie van een simpele chatbot naar een veelzijdige assistent die kan meekijken met een chirurg, een bouwtekening kan analyseren op fouten of een podcast kan samenvatten in een interactieve infographic. De grens tussen wat de computer ziet en wat de computer begrijpt, is hiermee officieel vervaagd.









