De onderzoekers bij Google Research introduceren een gloednieuw leerparadigma in machinelearning: Nested Learning. Met dit concept willen ze het klassieke probleem van “catastrophic forgetting” aanpakken — het fenomeen waarbij een model, door het aanleren van nieuwe taken, zijn bekwaamheid op eerdere taken verliest. In plaats van het modelontwerp (architectuur) en het leerproces (optimalisatie) apart te behandelen, beschouwen ze beide als “genestelde” optimalisatieproblemen binnen dezelfde systemische structuur.
Introducing Nested Learning: A new ML paradigm for continual learning
|
Het probleem: Continu leren is lastig
De afgelopen tien jaar heeft machine learning enorme sprongen gemaakt, mede door krachtige neurale netwerken en grootschalige trainingsalgoritmes. Toch blijft het een uitdaging voor modellen om leeftijd na taak nieuwe kennis te verwerven zonder oude kennis te verliezen — een vermogen dat het menselijk brein dankzij neuroplasticiteit in hoge mate beheerst. Eenvoudige benaderingen — zoals het enkel bijwerken van modelparameters met nieuwe data — leiden vaak tot catastrophic forgetting.
Het paradigmaverschuiving: Nested Learning
Het kernidee van Nested Learning is dat je een ML-model niet ziet als één doorlopend leeralgoritme, maar als een stel van kleinere, onderling verbonden optimalisatieproblemen. In dit nieuwe perspectief krijgen verschillende componenten in het model elk hun eigen “context flow” en updatefrequentie. Simpel gezegd: architectuur en leerregel (optimalisatiealgoritme) worden niet langer apart beschouwd, maar als verschillende niveaus binnen één hiërarchie van updates en leerprocessen.
De technische kern: Multi-time-scale updates & continuüm geheugen
Binnen dit paradigma spelen twee belangrijke concepten een rol:
- Multi-time-scale updates: Verschillende onderdelen van het model krijgen elk een eigen updatefrequentie — sommige leren snel, andere veel trager. Dit bootst op een manier het menselijk brein na, waarin geheugencomponenten op verschillende tijdsschalen werken.
- Continuüm geheugensystemen (CMS): In plaats van een simpele indeling in “kortetermijngeheugen” en “langetermijngeheugen”, introduceert Nested Learning een spectrum van modules, elk met een eigen updateritme en geheugenfunctie.
Door deze aanpak ontstaat een rijker, adaptiever geheugenmodel voor ML-systemen — beter in staat om nieuwe informatie op te nemen zonder oude kennis op te offeren.
Bewijs uit de praktijk: De architectuur Hope
Als bewijs van concept introduceert het team de architectuur Hope (een variant op de Titans-architectuur). Hope kent meerdere genestelde leerniveaus en is uitgerust met CMS-blokken voor grotere contextvensters. In experimenten op taalmodellering, lange-contextredenering en kennisintegratie toont Hope superieure prestaties in vergelijking met standaardtransformers en andere toonaangevende modellen.
Resultaten in vogelvlucht
- Hope behaalde lagere perplexity en hogere nauwkeurigheid op diverse taalmodellering‐ en commonsense-taken dan concurrerende modellen.
- In lange-context “needle-in-a-haystack” taken presteerde Hope duidelijk beter dan eerdere modellen, wat aantoont dat de CMS-aanpak effectief is in het omgaan met uitgebreide sequenties.









