Google Research presenteert MLE-STAR, een agent die niet alleen code schrijft, maar complete ML-pijplijnen opzet, verfijnt en bekroonde resultaten neerzet.
Van proof-of-concept naar productiewaardige pijplijn
Waar eerdere ML-agents vooral leunden op wat een taalmodel “al weet”, begint MLE-STAR met iets praktischers: gericht zoeken naar de beste, taak-specifieke modellen op het web en dat als startpunt gebruiken. Daarna voert de agent gerichte verfijningen door op afzonderlijke codeblokken in de pijplijn—denk aan feature-engineering, modelselectie of ensembling—op basis van wat in experimenten het meeste verschil maakt. Het resultaat: minder gokwerk, meer systematiek.
Wat deze agent anders doet
Gerichte verfijning per codeblok. In plaats van telkens de hele oplossing om te gooien, voert MLE-STAR ablatietests uit om te bepalen welk onderdeel van de pijplijn de grootste impact heeft. Dáár richt de agent vervolgens zijn iteraties op.
Slim ensembling. In plaats van simpele “stemmen op validatiescore” voegt de agent meerdere kandidaat-oplossingen samen in één sterker geheel en verbetert dat ensemble planmatig over meerdere rondes.
Kwaliteitsbewaking ingebouwd. De agent bevat modules voor debuggen, het opsporen van datalekken (zoals onbedoeld testgegevens gebruiken in preprocessing) en het checken dat alle meegeleverde databronnen daadwerkelijk worden benut.
De oogst: Medailles op Kaggle
In evaluaties op MLE-Bench-Lite—een verzameling Kaggle-competities die typische MLE-werkzaamheden nabootst—haalde MLE-STAR medailles in 63% van de cases, waarvan 36% goud. Daarmee verdubbelde de agent ruwweg het “any medal”-percentage ten opzichte van de beste eerdere baseline (van 25,8% naar 63,6%).
Meer dan alleen “een beter model kiezen”
Een opvallend effect van de web-zoekstrategie: de agent kiest vaker recente, competitieve modelarchitecturen (zoals EfficientNet of ViT) in plaats van oudere standaardkeuzes. Bovendien laat het team zien dat een kleine menselijke ingreep—bijvoorbeeld een korte modelbeschrijving toevoegen—de agent vlot kan sturen richting splinternieuwe modellen. Het geheel blijft dus zowel autonoom als uitbreidbaar.
Open en uitbreidbaar
Google heeft de implementatie als voorbeeldagent beschikbaar gesteld in de Agent Development Kit (ADK)-repo, zodat onderzoekers en teams kunnen experimenteren met dezelfde bouwstenen.
Waarom dit ertoe doet
Voor bedrijven en teams die worstelen met eind-tot-eind ML-werk—data binnenhalen, features bouwen, trainen, valideren, submission-scripts genereren—maakt MLE-STAR het verschil tussen “een paar scripts” en “een planmatige engineeringworkflow”. Omdat de agent de zoektocht naar actuele modellen automatiseert, groeit zijn startpunt mee met de stand van de techniek—zonder dat een team elke paper handmatig hoeft bij te houden.
De onderliggende trend
MLE-STAR past in een bredere beweging: agents die niet één “grote prompt” optimaliseren, maar een reeks beslissingen plannen, uitvoeren en toetsen, met duidelijke feedbacklussen. In ML-engineering, waar experimenteren de regel is, blijkt juist die fijnmazige sturing doorslaggevend.









