Hoe NVIDIA met één dataset en twee AI-modellen de toekomst van spraaktechnologie verandert.
Een stille revolutie in Europese talen
In een wereld waarin gesproken taal steeds vaker wordt omgezet naar tekst — en soms meteen naar een andere taal — speelt artificiële intelligentie een steeds grotere rol. Maar wie denkt dat deze technologie vooral gericht is op grote, wereldwijde talen zoals Engels, Frans of Spaans, vergist zich. NVIDIA wil met zijn nieuwste innovatie ook kleinere Europese talen een stem geven. Letterlijk.
Het technologiebedrijf lanceerde deze week een indrukwekkend pakket: Granary, een open dataset van bijna een miljoen uur aan audio, bedoeld voor spraakherkenning en vertaling in 25 Europese talen. En niet alleen de usual suspects — ook talen zoals Maltees, Estisch en Kroatisch zijn van de partij.
Now We’re Talking: NVIDIA Releases Open Dataset, Models for Multilingual Speech AIThe new Granary dataset was used to train high-accuracy and high-throughput speech AI models for audio transcription and translation. |
Een schatkamer vol stemmen
De naam Granary is niet toevallig gekozen. Het is een soort digitale graanschuur, gevuld met spraakfragmenten van over het hele continent. In totaal bevat de dataset 650.000 uur audio voor transcriptie en 350.000 uur voor vertaling. Daarmee is Granary niet alleen een van de grootste meertalige datasets ooit, maar ook een van de meest toegankelijke — volledig vrij beschikbaar voor ontwikkelaars en onderzoekers.
Wat Granary zo bijzonder maakt, is de manier waarop hij is samengesteld. NVIDIA werkte samen met onder andere Carnegie Mellon University om ongecodeerde audio automatisch te verrijken met labels, zonder menselijke annotatie. Dankzij de open-source NeMo toolkit werd ruwe audio omgezet in bruikbare trainingsdata. Dat bespaart tijd, geld en — niet onbelangrijk — menselijke bias.
AI‑modellen die luisteren én begrijpen
Een dataset is één ding. Maar om er écht iets mee te doen, zijn ook modellen nodig die de data kunnen verwerken. Daarom lanceerde NVIDIA tegelijk twee krachtige AI‑modellen: Canary‑1b‑v2 en Parakeet‑tdt‑0.6b‑v3.
Canary is het zwaargewicht van de twee. Met een miljard parameters levert het model transcripties en vertalingen van hoge kwaliteit, terwijl het veel efficiënter is dan zijn grotere voorgangers. Parakeet is dan weer gericht op snelheid: in één inferentiestap kan het model automatisch de taal detecteren én een audiobestand van 24 minuten transcriberen.
Beide modellen zijn niet alleen slim, maar ook praktisch. Ze voegen automatisch leestekens toe, zorgen voor hoofdletters en voorzien elk woord van een tijdstempel. Perfect dus voor wie professionele toepassingen ontwikkelt — van ondertitelingssoftware tot realtime vertaalapps.
Open voor iedereen
Wat dit project zo uniek maakt, is niet alleen de technologie, maar ook de filosofie erachter. NVIDIA deelt niet alleen de modellen en datasets, maar ook de hele werkwijze. Alles is open-source, beschikbaar op GitHub en Hugging Face. Dat betekent dat iedereen — van een onderzoeker in Tallinn tot een start-up in Zagreb — voort kan bouwen op deze basis.
Granary en de bijbehorende modellen zijn dus meer dan een technologische stap voorwaarts. Ze vormen een uitnodiging aan Europa én de wereld om spraaktechnologie inclusiever, sneller en slimmer te maken.









