Van Engels naar wereldtalen: Meertalige AI krijgt wetenschappelijke richtlijnen

Van Engels naar wereldtalen: Meertalige AI krijgt wetenschappelijke richtlijnen

Google-onderzoekers ontrafelen hoe je taalmodellen slim kunt opschalen voor honderden talen — niet alleen voor Engels

Hoe kun je AI-modellen bouwen die écht werken voor wereldtalen?

Meer dan de helft van de gebruikers van AI-modellen spreekt geen Engels, maar de meeste wetenschappelijke richtlijnen voor het trainen van taalmodellen zijn nog steeds sterk op het Engels gericht. Daardoor staan ontwikkelaars voor een dilemma: hoe schaal je een model efficiënt, effectief en betaalbaar als je honderden talen wilt bedienen? 

Het nieuwe ATLAS-framework (Adaptive Transfer Scaling Laws) van Google Research en DeepMind biedt nu antwoorden op die vraag. ATLAS beschrijft hoe je modelgrootte, taaldata en trainingsmix kunt optimaliseren — niet alleen voor één taal, maar voor talloze taalcombinaties tegelijk. 

ATLAS provides guidance on how to mix data and train the most effective models to serve languages beyond English.

https://research.google

 

ATLAS: Eén schaalwet voor meertalige modellen

Het kernidee achter ATLAS is elegant én praktisch: in plaats van alleen te kijken naar Engels of één vaste taal, kijkt deze aanpak naar hoe talen elkaar beïnvloeden tijdens training. Door data uit meerdere talen slim te combineren kun je de prestaties op een specifieke doeltaal verbeteren — denk bijvoorbeeld aan Catalaans door tegelijk Spaans, Italiaans en Portugees te gebruiken. 

ATLAS bestaat uit drie bouwstenen:

  • Een cross-linguale transfermatrix: welke talen helpen elkaar het meest?
  • Een schaalwet voor meertalige settings: hoe groeit kwaliteit als je meer talen toevoegt?
  • Regels voor training vs. fine-tuning: wanneer begin je helemaal opnieuw en wanneer bouw je verder op een bestaand meertalig model? 

De grootste meertalige studie tot nu toe

Om deze regels te ontdekken, voerden de onderzoekers een enorme serie experimenten uit: 774 trainingsruns met modellen van 10 miljoen tot 8 miljard parameters, gevoed met data uit meer dan 400 talen en beoordeeld in 48 talen. 



This heatmap shows the cross-lingual transfer matrix, quantifying language-to-language synergies and inference. Redindicates that a language helps and blue indicates it hurts. Boxes highlight each target language’s top-5 helpers. Languages that share the same writing system (e.g., Latin script) are notably more synergistic.

Dankzij deze dataset konden ze niet alleen de positieve effecten tussen 1.400 taalkoppelingen kwantificeren, maar ook begrijpen waar modellen starten met leren en hoe dit verandert naarmate hun schaal toeneemt. 

Een kaart van taalkundige synergieën

Een van de meest tastbare resultaten is de cross-linguale transfermatrix — een empirische ‘kaart’ die laat zien welke talen elkaar helpen of juist belemmeren tijdens training. Talen die dezelfde schriftvorm of familie delen (bijvoorbeeld Latijnse letters) blijken vaker positief samen te werken. 

Zo blijkt bijvoorbeeld dat Engels, Frans en Spaans flinke positieve invloed hebben op veel andere talen. Maar de interacties zijn niet altijd symmetrisch: de hulp van taal A aan taal B is niet per se gelijk aan die van B aan A. 

De “vloek van meertaligheid” doorgrond

Wanneer je meer talen tegelijk leert, kunnen modellen — als ze niet goed zijn ontworpen — kwaliteit verliezen. Dit fenomeen staat bekend als de vloek van meertaligheid. ATLAS maakt deze dynamiek meetbaar: om een model even goed te houden als je het aantal talen verdubbelt, moet je modelgrootte en trainingsdata op een bepaalde manier verhogen. 

In de praktijk betekent dit dat je bij het verdubbelen van talen bijvoorbeeld 1,18× grotere modellen en 1,66× meer trainingsdata nodig hebt — waarbij de extra data vooral uit de nieuwe talen moet komen. 


Praktische richtlijnen voor ontwikkelaars

ATLAS biedt concrete adviezen die onderzoekers en AI-engineers direct kunnen toepassen:

  • Hoe kies je welke talen je tegelijkertijd wilt trainen?
  • Hoe bepaal je de ideale modelgrootte en datavolume?
  • Wanneer kies je voor fine-tuning van een bestaand model versus een nieuwe training?

Dat maakt ATLAS niet alleen een theoretische bijdrage, maar een bruikbaar hulpmiddel voor iedereen die AI-modellen wil bouwen die echt werken voor een wereldpubliek — en niet alleen voor Engels-sprekenden.

Aanbevolen voor jou

In de kijker

AI kan vanaf nu de muis overnemen op je scherm

AI kan vanaf nu de muis overnemen op je scherm

Meta zet de volgende stap in AI met AI-gegenereerde posts

Meta zet de volgende stap in AI met AI-gegenereerde posts

Salesforce presenteert Agentforce – Zoals AI voor Sales bedoeld is

Salesforce presenteert Agentforce – Zoals AI voor Sales bedoeld is

Google Earth laat gebruikers binnenkort ‘tijdreizen’ tot wel 80 jaar terug

Google Earth laat gebruikers binnenkort ‘tijdreizen’ tot wel 80 jaar terug

Updates

Inschrijven Nieuwsbrief

Zo word je altijd als eerste op de hoogte gebracht van ons laatste nieuws, updates, jobs, tips & promoties. Stay UP-TO-DATE!

WEBSITE LATEN MAKEN?​​​​​​​​​​​​​​

Kies voor een UP-TO-DATE AI Website 100% in Google

Een UP-TO-DATE AI Website maakt het gemakkelijk om automatisch up-to-date te blijven met je klanten en overal aanwezig te zijn.

Maak een afspraak