Google-onderzoekers ontrafelen hoe je taalmodellen slim kunt opschalen voor honderden talen — niet alleen voor Engels
Hoe kun je AI-modellen bouwen die écht werken voor wereldtalen?
Meer dan de helft van de gebruikers van AI-modellen spreekt geen Engels, maar de meeste wetenschappelijke richtlijnen voor het trainen van taalmodellen zijn nog steeds sterk op het Engels gericht. Daardoor staan ontwikkelaars voor een dilemma: hoe schaal je een model efficiënt, effectief en betaalbaar als je honderden talen wilt bedienen?
Het nieuwe ATLAS-framework (Adaptive Transfer Scaling Laws) van Google Research en DeepMind biedt nu antwoorden op die vraag. ATLAS beschrijft hoe je modelgrootte, taaldata en trainingsmix kunt optimaliseren — niet alleen voor één taal, maar voor talloze taalcombinaties tegelijk.
ATLAS provides guidance on how to mix data and train the most effective models to serve languages beyond English.
|
ATLAS: Eén schaalwet voor meertalige modellen
Het kernidee achter ATLAS is elegant én praktisch: in plaats van alleen te kijken naar Engels of één vaste taal, kijkt deze aanpak naar hoe talen elkaar beïnvloeden tijdens training. Door data uit meerdere talen slim te combineren kun je de prestaties op een specifieke doeltaal verbeteren — denk bijvoorbeeld aan Catalaans door tegelijk Spaans, Italiaans en Portugees te gebruiken.
ATLAS bestaat uit drie bouwstenen:
- Een cross-linguale transfermatrix: welke talen helpen elkaar het meest?
- Een schaalwet voor meertalige settings: hoe groeit kwaliteit als je meer talen toevoegt?
- Regels voor training vs. fine-tuning: wanneer begin je helemaal opnieuw en wanneer bouw je verder op een bestaand meertalig model?
De grootste meertalige studie tot nu toe
Om deze regels te ontdekken, voerden de onderzoekers een enorme serie experimenten uit: 774 trainingsruns met modellen van 10 miljoen tot 8 miljard parameters, gevoed met data uit meer dan 400 talen en beoordeeld in 48 talen.
This heatmap shows the cross-lingual transfer matrix, quantifying language-to-language synergies and inference. Redindicates that a language helps and blue indicates it hurts. Boxes highlight each target language’s top-5 helpers. Languages that share the same writing system (e.g., Latin script) are notably more synergistic.
Dankzij deze dataset konden ze niet alleen de positieve effecten tussen 1.400 taalkoppelingen kwantificeren, maar ook begrijpen waar modellen starten met leren en hoe dit verandert naarmate hun schaal toeneemt.
Een kaart van taalkundige synergieën
Een van de meest tastbare resultaten is de cross-linguale transfermatrix — een empirische ‘kaart’ die laat zien welke talen elkaar helpen of juist belemmeren tijdens training. Talen die dezelfde schriftvorm of familie delen (bijvoorbeeld Latijnse letters) blijken vaker positief samen te werken.
Zo blijkt bijvoorbeeld dat Engels, Frans en Spaans flinke positieve invloed hebben op veel andere talen. Maar de interacties zijn niet altijd symmetrisch: de hulp van taal A aan taal B is niet per se gelijk aan die van B aan A.
De “vloek van meertaligheid” doorgrond
Wanneer je meer talen tegelijk leert, kunnen modellen — als ze niet goed zijn ontworpen — kwaliteit verliezen. Dit fenomeen staat bekend als de vloek van meertaligheid. ATLAS maakt deze dynamiek meetbaar: om een model even goed te houden als je het aantal talen verdubbelt, moet je modelgrootte en trainingsdata op een bepaalde manier verhogen.
In de praktijk betekent dit dat je bij het verdubbelen van talen bijvoorbeeld 1,18× grotere modellen en 1,66× meer trainingsdata nodig hebt — waarbij de extra data vooral uit de nieuwe talen moet komen.
Praktische richtlijnen voor ontwikkelaars
ATLAS biedt concrete adviezen die onderzoekers en AI-engineers direct kunnen toepassen:
- Hoe kies je welke talen je tegelijkertijd wilt trainen?
- Hoe bepaal je de ideale modelgrootte en datavolume?
- Wanneer kies je voor fine-tuning van een bestaand model versus een nieuwe training?
Dat maakt ATLAS niet alleen een theoretische bijdrage, maar een bruikbaar hulpmiddel voor iedereen die AI-modellen wil bouwen die echt werken voor een wereldpubliek — en niet alleen voor Engels-sprekenden.










