Tokenisatie 2.0: Hoe AI pixels en woorden verweeft

Tokenisatie 2.0: Hoe AI pixels en woorden verweeft

We staan op een kantelpunt in de evolutie van kunstmatige intelligentie. Waar we voorheen enkel met tekst communiceerden tegen een scherm, transformeren nieuwe systemen in digitale zintuigen die beelden, geluid en data naadloos met elkaar verweven.

In de begindagen van de huidige AI-revolutie waren Large Language Models (LLMs) vooral meesters in het geschreven woord. Ze lazen bibliotheken uit en schreven essays in een handomdraai. Maar de wereld bestaat uit meer dan letters alleen. Martin Keen van IBM legt uit dat de nieuwe generatie AI (de zogenaamde ‘multimodale AI’) de barrières tussen verschillende soorten media definitief doorbreekt.

De gedeelde taal van vectoren

Het geheim achter deze technologie ligt in hoe de AI informatie opslaat. In plaats van tekst en afbeeldingen als totaal verschillende zaken te zien, vertaalt multimodale AI alles naar een ‘gedeelde vectorruimte’. Of het nu gaat om het woord ‘hond’ of een foto van een Labrador: voor de AI eindigen ze op dezelfde coördinaten in een gigantisch digitaal universum van betekenissen.

Hierdoor kan een model niet alleen beschrijven wat het ziet, maar ook concepten uit de ene wereld (beeld) vertalen naar de andere (tekst of geluid).

What is Multimodal AI? How LLMs Process Text, Images, and More

Geavanceerde tokenisatie: De bouwstenen

Om dit mogelijk te maken, maakt de AI gebruik van geavanceerde tokenisatie. Waar een tekstmodel woorden opdeelt in kleine stukjes (tokens), doet een multimodaal model dat ook met pixels van een afbeelding of frequenties van een audiofragment.

Het resultaat? Een ‘native’ multimodaal systeem. Dit betekent dat het model vanaf de basis is getraind om verschillende stromen informatie tegelijkertijd te verwerken. Het is niet langer een tekstmodel waar achteraf een ‘ogen-module’ op is geplakt; het is een systeem dat van nature begrijpt hoe de visuele en tekstuele wereld met elkaar verbonden zijn.


Van 'Any-to-Any': De toekomst van creatie

De meest opwindende ontwikkeling die Keen bespreekt, is de verschuiving naar ‘any-to-any’ generatie. Dit houdt in dat de input van elk type (bijvoorbeeld een gesproken opdracht) kan leiden tot een output van elk ander type (bijvoorbeeld een gegenereerde video of een technisch schema).

Deze flexibiliteit transformeert AI-innovatie van een simpele chatbot naar een veelzijdige assistent die kan meekijken met een chirurg, een bouwtekening kan analyseren op fouten of een podcast kan samenvatten in een interactieve infographic. De grens tussen wat de computer ziet en wat de computer begrijpt, is hiermee officieel vervaagd.

Aanbevolen voor jou

In de kijker

AI kan vanaf nu de muis overnemen op je scherm

AI kan vanaf nu de muis overnemen op je scherm

Meta zet de volgende stap in AI met AI-gegenereerde posts

Meta zet de volgende stap in AI met AI-gegenereerde posts

Salesforce presenteert Agentforce – Zoals AI voor Sales bedoeld is

Salesforce presenteert Agentforce – Zoals AI voor Sales bedoeld is

Google Earth laat gebruikers binnenkort ‘tijdreizen’ tot wel 80 jaar terug

Google Earth laat gebruikers binnenkort ‘tijdreizen’ tot wel 80 jaar terug

Updates

Inschrijven Nieuwsbrief

Zo word je altijd als eerste op de hoogte gebracht van ons laatste nieuws, updates, jobs, tips & promoties. Stay UP-TO-DATE!

WEBSITE LATEN MAKEN?​​​​​​​​​​​​​​

Kies voor een UP-TO-DATE AI Website 100% in Google

Een UP-TO-DATE AI Website maakt het gemakkelijk om automatisch up-to-date te blijven met je klanten en overal aanwezig te zijn.

Maak een afspraak