De wereld van artificiële intelligentie schuift opnieuw een versnelling hoger. Tijdens een nieuwe “Build Hour” demonstreerde OpenAI hoe ontwikkelaars met GPT-Realtime-2 een compleet nieuwe generatie stemassistenten kunnen bouwen: sneller, slimmer, expressiever en veel menselijker dan eerdere systemen.
Waar voice-AI vroeger vaak haperde, onnatuurlijk klonk of seconden nodig had om te reageren, draait het nu om realtime interactie. Live vertalen, gesprekken voeren, applicaties bedienen en complexe workflows uitvoeren, allemaal terwijl een gebruiker gewoon praat.
De sessie, gepresenteerd door Teri Yu en Erika Kettleson, gaf een blik op hoe stem-AI evolueert van eenvoudige chatbot naar een volwaardige digitale collega.
Van spraakherkenning naar intelligente conversatie
Centraal in de presentatie stonden drie nieuwe modellen:
- GPT-Realtime-2
- GPT-Realtime-Translate
- GPT-Realtime-Whisper
Samen vormen ze volgens OpenAI een fundament voor ultralage latency in spraaktoepassingen.
De technologie kan niet alleen woorden herkennen, maar ook context onthouden, emoties interpreteren en gesprekken dynamisch sturen. Dat betekent dat een AI-assistent tijdens een gesprek kan redeneren, tools gebruiken, informatie ophalen en acties uitvoeren zonder dat de interactie onnatuurlijk aanvoelt.
Volgens OpenAI is dat precies waar de industrie naartoe beweegt: van “voice commands” naar echte “voice experiences”.
Live vertalen zonder merkbare vertraging
Een van de opvallendste demo’s draaide rond realtime vertaling. GPT-Realtime-Translate vertaalt gesproken taal vrijwel onmiddellijk naar een andere taal, terwijl de natuurlijke spreekstijl behouden blijft.
Dat opent deuren voor internationale klantenservice, meertalige meetings, toerisme en wereldwijde e-commerce.
De technologie probeert niet langer simpelweg woorden om te zetten, maar ook toon, timing en intentie mee te nemen in de vertaling. Daardoor voelt een gesprek minder mechanisch en meer alsof twee mensen elkaar rechtstreeks begrijpen.
Stemassistenten die kunnen redeneren én handelen
Met GPT-Realtime-2 wil OpenAI verder gaan dan klassieke voice assistants zoals Siri of Alexa.
De nieuwe architectuur ondersteunt onder andere:
- parallel tool calling
- context over meerdere gespreksturns
- 128K contextvenster
- preambles
- domeinspecifiek begrip
- controleerbare expressiviteit
Dat betekent concreet dat een AI-agent tijdens een gesprek meerdere systemen tegelijk kan aanspreken, informatie kan combineren en daarop kan reageren.
In een demonstratie bouwde het team een voice-powered zoekagent die tijdens een gesprek zelfstandig informatie verzamelde en samenvatte. In een andere demo bestuurde de AI een product analytics dashboard volledig via stemcommando’s.
De gebruiker sprak. De AI begreep, analyseerde en voerde acties uit.
Van chatbots naar operationele AI-medewerkers
De implicaties zijn enorm.
Realtime stem-AI verschuift van een leuke interface naar een operationele laag bovenop software en bedrijfsprocessen. In plaats van dashboards te bedienen met muis en toetsenbord, kunnen werknemers binnenkort simpelweg praten tegen systemen die daadwerkelijk begrijpen wat er bedoeld wordt.
Dat maakt interactie sneller, natuurlijker en toegankelijker.
Voor bedrijven betekent het ook dat AI-agents klantenservice, sales, analytics en interne workflows steeds autonomer kunnen uitvoeren.
Sierra toont hoe productieklare voice-agents gebouwd worden
Tijdens de sessie kwam ook Sierra aan bod, een bedrijf dat productiegerichte customer experience agents ontwikkelt.
Hun focus ligt niet alleen op intelligentie, maar vooral op betrouwbaarheid en veiligheid.
Sierra demonstreerde hoe moderne voice-agents gebouwd worden met:
- guardrails
- VAD-tuning (Voice Activity Detection)
- tracing
- redaction
- evaluatiesystemen
- klantgerichte testomgevingen
Die infrastructuur moet ervoor zorgen dat realtime AI-agents niet alleen slim klinken, maar ook veilig, controleerbaar en schaalbaar blijven in echte bedrijfsomgevingen.
De race naar natuurlijke AI-interactie versnelt
De Build Hour maakte vooral duidelijk dat de AI-industrie bezig is met een fundamentele verschuiving. De toekomst draait niet langer uitsluitend om tekstchatbots, maar om AI die ziet, hoort, spreekt en handelt in realtime.
Stem wordt daarmee steeds meer de natuurlijke interface van digitale systemen.
Van klantenservice tot shopping-assistenten, van realtime vertalers tot AI-gestuurde dashboards: GPT-Realtime-2 laat zien hoe snel de grens tussen menselijke communicatie en machine-interactie vervaagt.
En volgens OpenAI is dit nog maar het begin.









