Op het evenement TechCrunch Disrupt 2025 legde ElevenLabs-CEO Mati Staniszewski uit waarom hij gelooft dat spraak-AI-modellen op termijn verworden tot een commodity — een product dat weinig onderscheidend vermogen meer biedt. In dit artikel wordt toegelicht wat hij bedoelt, welke impact dit heeft op de markt van audio-AI en wat de consequenties zijn voor bedrijven die met spraak-technologie werken.
ElevenLabs CEO says AI audio models will be 'commoditized' over time | TechCrunchElevenLabs' founder Mati Staniszewski said that, in the short term, AI audio models were still the "biggest advantage and the biggest step change you can have today." |
Modeldominantie — nog steeds relevant
Staniszewski begint bij de huidige situatie: op dit moment is het bouwen van hoogwaardige spraakmodellen nog een belangrijk competitief voordeel. Zoals hij stelt: “Vandaag zijn modellen nog de grootste technische barrière.” Hij benadrukt dat wanneer een AI-stem onnatuurlijk klinkt of haperend is, de gebruikerservaring er meteen onder lijdt. Daarmee blijft de kwaliteit van het model cruciaal.Voor bedrijven die nu investeren in spraaktechnologie – zoals audioboeken, games, voice-bots – is dit een signaal: de techniek is voorlopig nog een onderscheidende factor.
AI Model Commoditization Coming Soon, Says ElevenLabs CEO at TechCrunch Disrupt 2025 - News and Statistics - IndexBoxElevenLabs CEO predicts AI model commoditization in coming years, discusses shift to multi-modal approaches and company's focus on building models despite long-term market changes. |
De verschuiving naar commoditisering
Maar de kern van zijn boodschap is dat die technische barrière niet eeuwig blijft. Volgens Staniszewski zullen spraak-AI-modellen “in de loop van de tijd” gedifferentieerd raken, maar uiteindelijk steeds meer op elkaar gaan lijken — “over de komende paar jaar”, zo zei hij. Met andere woorden: zodra de basiskwaliteit op niveau is, wordt het model zelf een basisonderdeel — iets wat elke speler in de markt waarschijnlijk kan bieden — en verplaatst de waarde zich van de techniek naar de toepassingen, schaalbaarheid en gebruikservaring.
Waarom dan toch investeren in modellen?
Als de modellen zo snel standaard worden, waarom zou een bedrijf dan nog budget en R&D inzetten om eigen modellen te bouwen? Staniszewski geeft hier twee antwoorden:
- Kortetermijnvoordeel: “Vandaag blijft modelinvestering het grootste voordeel en de grootste stap vooruit.”
- Middellangetermijnstrategie: wanneer modellen gemeengoed zijn geworden, is het onderscheid in hoe je die modellen inzet, welke applicaties je bouwt en hoe je ze integreert in gebruikersscenario’s. Hij vergelijkt dit met de historiek van hardware- + software-integratie bij Apple: “Software + hardware was de magie voor Apple, wij denken dat product + AI de magie wordt voor de volgende generatie use-cases.”
Het volgende slagveld: Multi-modaal en scenario-gericht
Staniszewski ziet dat de concurrentie zich niet langer alleen op spraakmodellen richt, maar op samensmelting met andere modaliteiten: beeld, tekst, interactie. Hij noemt dat in de komende 1–2 jaar “audio en video tegelijkertijd genereren” of “audio en LLM’s in conversatie” steeds meer gemeengoed zullen worden. Voor bedrijven betekent dit: investeren in spraak alleen is wellicht niet voldoende — integratie met bredere AI-architecturen en multimodale workflows kan het onderscheid worden.
Consequenties voor bedrijven en markten
De verwachting dat spraakmodellen ged commoditizen heeft belangrijke implicaties:
- Prijsdruk en marginerosie: wanneer meerdere aanbieders technisch gelijkwaardig worden, zal prijs een steeds grotere rol spelen.
- Verschuiving naar diensten en oplossingen: in plaats van “beste model” zal het gaan om “beste integratie”, “beste applicatie”, “betrouwbaarheid”, “aanpasbaarheid aan scenario’s”.
- Differentiatie in gebruikscases: Staniszewski voorspelt dat bedrijven verschillende modellen gaan kiezen op basis van het scenario — klantenservice, games, educatie — in plaats van één allesomvattend model.
- Rol van open-source en partnerships: ElevenLabs wil naast het eigen modelwerk ook samenwerken met open-source en andere spelers om audio-expertise te combineren met andere AI-capabilities.
Reflectie voor de Europese markt & de gebruiker
Voor spelers in Europa — zoals contentproducenten, taal-technologiebedrijven, spraak-AI-diensten — betekent dit: blijf investeren in kwaliteit en differentiatie, maar bereid je voor op een wereld waarin spraakmodellen geen exclusief bezit meer zijn. Het onderscheid komt dan van hoe goed je het model inzet, integreert, aanpast aan specifieke gebruikersgroepen of talen — ook minderheidstalen of niche-toepassingen kunnen hier kansen bieden.
Voor gebruikers is het goed om te beseffen dat de benchmark op spraak-AI stijgt, en dat het verschil tussen “goed genoeg” en “uitzonderlijk” kleiner wordt. Innovatie zal eerder gaan om gebruiksgemak, creativiteit, integratie in workflows, dan om puur vocale kwaliteit.
Het verhaal van Staniszewski en ElevenLabs is een waarschuwing én een uitnodiging: de fase van exclusieve spraakmodellen is voorbij, of in ieder geval onderweg. De uitdaging is niet langer slechts: “Maak het beste model”, maar: “Maak de beste toepassing”. Bedrijven die nu investeren in dat perspectief — productisering, scenario-gerichte integratie, multimodaliteit — positioneren zich sterker voor de toekomst.









