Waarom langdurige AI-agenten een probleem vormen
AI-agenten worden steeds capabeler — en daarom vragen ontwikkelaars hen vaker om complexe taken uit te voeren die uren of zelfs dagen in beslag nemen. Toch stoten zulke “langdurige” agenten op een fundamenteel probleem: elke keer dat er een nieuwe sessie begint, heeft de agent geen geheugen van wat er voordien gebeurde.
Stel je een softwareproject voor waarin ingenieurs in ploegendienst werken — de nachtdienst kent niets van wat overdag gebeurde. Precies dat is wat er gebeurt met AI-agenten: zonder geheugen bij het begin van een nieuwe context-window.
Effective harnesses for long-running agentsAnthropic is an AI safety and research company that's working to build reliable, interpretable, and steerable AI systems. |
De tweeledige oplossing van Anthropic: initializer + incremental coding
Om dit probleem aan te pakken ontwikkelde Anthropic een tweedelige “harness” voor hun Claude Agent SDK — eerst een initializer-agent, daarna telkens een “coding agent”.
- Initializer-agent: bij de allereerste sessie zet deze agent de basisomgeving op — een init-script, een voortgangslogboek (claude-progress.txt), en een initiële commit in git. Daarmee ontstaat een stabiele basis voor alle toekomstige werk.
- Coding-agent: in alle daaropvolgende sessies pakt deze agent één taak tegelijk op, werkt die uit, zorgt dat de code schoon is, commit de wijzigingen, en schrijft een update in de log. Zo vermijd je dat de agent te veel tegelijk wil doen of aan halve features blijft hangen.
Waarom deze aanpak cruciaal is
Anthropic merkte dat zonder zo’n structuur zelfs topmodellen (zoals de nieuwste versies) vaak falen: ze proberen het hele project in één keer af te werken — wat leidt tot missing context, half afgebouwde features, of aan het einde van een sessie code in een instabiele staat.
Met de “initializer + incremental coding”-methode krijgen agenten een duidelijke feature-lijst, werken ze stap voor stap, testen ze grondig, en zetten ze altijd een schone, merge-klare codebasis achter. Zo vermijden ze chaos, misinterpretaties of ongestructureerde voortgang.
Resultaten én beperkingen — en wat nog openstaat
Dankzij deze structuur slaagde de agent erin om stabiel en doelgericht voortgang te boeken — zonder elke sessie opnieuw van nul te beginnen. Het is een eerste bewijs dat AI-agenten succesvol over “veel context-windows” heen kunnen werken.
Toch blijven er vragen open: is één algemene coding-agent voldoende? Of zouden gespecialiseerde sub-agenten (testen, code-opschoning, QA, etc.) betere resultaten geven op de lange termijn? Wat voor model dan het meest efficiënt is, blijft onduidelijk.
Bovendien is de demo vooralsnog gericht op full-stack web-applicaties. Of dezelfde methodiek even goed werkt voor bijvoorbeeld wetenschappelijk onderzoek, financiële modellering of andere domeinen is nog te bewijzen.
Waarom dit relevant is voor AI-bouwers en bedrijven
Voor iedereen die werkt aan AI-gedreven workflows, multi-staps automatisering of langdurige agent-taken (zoals codebases, data pipelines, content-creatie, financiële modellen) is deze aanpak een gamechanger.
- Het maakt AI-agenten betrouwbaarder en voorspelbaarder, zelfs bij langdurige taken over meerdere “sessies”.
- Het introduceert software-engineering best practices (versiebeheer, logging, incrementaliteit, testgedreven werken) in de wereld van LLM-agenten — wat hun bruikbaarheid in echte productietaak vergroot.
- Voor ondernemingen en start-ups opent dit mogelijkheden om AI in te zetten voor grootschalige, complexe workflows zonder constant menselijke supervisie.
Voor wie — net als jij — zich verdiept in de commerciële en structurele impact van AI op productie, werkprocessen en bedrijfsmodellen, is dit een belangrijke ontwikkeling: AI-agenten worden niet langer “proefballonnen”, maar potentieel betrouwbare werkpaarden.









