Wanneer AI Minesweeper bouwt: 4 codeer-agenten, vier resultaten

zondag, 28 december 2025
Ivan Jans

In een verrassend experiment vroeg technologiewebsite Ars Technica vier moderne AI-codeeragents om het klassieke spel Minesweeper opnieuw te bouwen — en de uitkomsten waren allesbehalve gelijk. Wat begon als een ogenschijnlijk eenvoudige opdracht, toonde de grote verschillen in hoe autonome AI’s kunnen programmeren en illustreert hoe uiteenlopend de stand van de kunst in AI-codering nog is.

Turns out, AI can actually build competent Minesweeper clones — Four AI coding agents put to the test reveal OpenAI's Codex as the best, while Google's Gemini CLI as the worst

Mistral and Anthropic both performed respectably well.

De uitdaging: Simpel spel, grote verwachtingen

Minesweeper is een nostalgisch Windows-spel waarin spelers veilig vakjes moeten openen zonder op een verborgen mijn te klikken. Hoewel het spel in de basis vrij eenvoudig lijkt, is het technisch gezien een uitstekende testcase voor AI-codering: het vereist logica, gebruikersinteractie en een functionele interface.

1. OpenAI’s Codex: De onbetwiste winnaar

OpenAI’s Codex kwam als populairste uit de test, met een bijna complete en speelbare webversie van Minesweeper. De code bevatte zelfs geavanceerde elementen zoals het chording-mechanisme (waarmee meerdere veilige tegels tegelijk worden onthuld) en geluidseffecten — functies die niet expliciet waren gevraagd, maar die het spel wél aantrekkelijker maakten.

2. Anthropic’s Claude Code: Snel maar net niet perfect

Anthropic’s Claude Code eindigde als tweede. Het leverde een visueel fraaie versie, met een strak ontwerp en prettige geluiden. Het ontbrak echter aan chording, waardoor het eindresultaat net niet helemaal voldeed aan de verwachtingen van de testers.

3. Mistral Vibe: Werkend, maar basaal

Mistral Vibe produceerde een functionerende Minesweeper-kloon, maar een die relatief simpel was: geen geluid, geen extra functies en een ietwat houterige besturing. Het was werkend, maar mistte de verfijning die testers hoopten te zien.

4. Google’s Gemini CLI: Geen werkend spel

In een onverwachte uitkomst slaagde Google’s Gemini CLI er niet in een speelbare versie te genereren. De agent produceerde knoppen zonder werkend speelveld, wat resulteerde in een score van 0 op 10.

Wat betekent dit voor AI codering?

De test onderstreept twee belangrijke punten:

AI kan veelzijdig programmeren — zoals Codex liet zien, kan een AI-agent volledige applicaties bouwen die klaar zijn voor gebruik zonder menselijke tussenkomst.
Er is nog ruimte voor verbetering — niet alle modellen leveren betrouwbaar resultaat, en sommige missen elementaire functies of praktische bruikbaarheid.

Experts en ontwikkelaars zien dit soort experimenten als een blik op de toekomst van AI in softwareontwikkeling: tools die programmeurs kunnen ondersteunen, maar waarschijnlijk niet volledig menselijke expertise zullen vervangen.

We asked four AI coding agents to rebuild Minesweeper—the results were explosive | Colleen Farrelly

A bit of vibe coding experiment by an engineer trying to replicate one of my favorite Windows games: Minesweeper. The results are surprising but not so surprising given my attempts at vibe coding. Often, important features don't show up in the code or some random bug shows up that clunks the final product. Engineers and product managers are definitely needed with AI, but it's interesting to see where AI coding has come this year... https://lnkd.in/ezm_gn_2

https://www.linkedin.com

Reflectie op de toekomst van AI en code

Hoewel de variatie in resultaten misschien teleurstellend lijkt, biedt dit experiment belangrijke inzichten in de evolutie van AI als codeer-assistent. Het toont een pad waarop AI steeds meer in staat zal zijn om logische en creatieve taken zelfstandig uit te voeren — maar ook de noodzaak benadrukt voor menselijke supervisie, vooral bij complexe of kritieke toepassingen.

Wanneer AI Minesweeper bouwt: 4 codeer-agenten, vier resultaten

Turns out, AI can actually build competent Minesweeper clones — Four AI coding agents put to the test reveal OpenAI's Codex as the best, while Google's Gemini CLI as the worst