Robots.txt onthuld: Wat miljoenen websites écht doen

donderdag, 07 mei 2026
Ivan Jans

Een blik achter de schermen van moderne SEO-analyse

Wat ooit een eenvoudig tekstbestand leek, groeit in 2026 uit tot een cruciaal strategisch instrument binnen zoekmachine-optimalisatie. In een recente aflevering van de podcast Search Off the Record duiken Martin Splitt en Gary Illyes diep in de wereld van robots.txt. Hun missie: begrijpen hoe miljoenen websites wereldwijd hun crawlregels definiëren en wat dat betekent voor zoekmachines én AI-bots.

Van simpele regels naar big data-inzichten

De aanleiding klinkt bijna banaal: welke robots.txt-directieven worden eigenlijk het meest gebruikt en welke worden genegeerd? Maar al snel groeit die vraag uit tot een grootschalig data-experiment.

Met behulp van HTTP Archive, een gigantische dataset van echte websites, analyseren de onderzoekers miljoenen robots.txt-bestanden. Door deze data te combineren met inzichten uit het Chrome UX Report ontstaat een uniek beeld van hoe het web zich in de praktijk gedraagt.

Het resultaat? Niet theorie, maar realiteit, op schaal.

Crawlen zoals een browser dat doet

Een opvallende keuze in hun aanpak is het gebruik van browsergebaseerde crawling. In plaats van klassieke bots bootsen ze echte gebruikers na. Dat betekent: Laden van pagina’s, uitvoeren van JavaScript en analyseren van content zoals die écht wordt ervaren.

Die aanpak levert rijkere data op, maar brengt ook uitdagingen met zich mee. Denk aan complexiteit, snelheid en, niet onbelangrijk, kosten.

BigQuery: Waar miljarden datapunten samenkomen

Om deze enorme hoeveelheid data te verwerken, maken ze gebruik van Google BigQuery. Hiermee kunnen ze queries uitvoeren op miljarden records en patronen ontdekken die anders verborgen blijven.

Maar die kracht heeft een prijs. Letterlijk. Elke query kost geld, wat betekent dat efficiënt werken essentieel is. Het is data-analyse met een budget in het achterhoofd.

De verrassende realiteit van robots.txt

Wat blijkt uit de analyse? Het web zit vol inconsistenties. Veel robots.txt-bestanden bevatten fouten, verouderde syntax of zelfs niet-ondersteunde instructies. Typfouten en misconfiguraties zijn eerder regel dan uitzondering.

Daarnaast zien de onderzoekers een duidelijke “long tail”: Een klein aantal regels wordt massaal gebruikt, terwijl duizenden varianten zelden voorkomen. Die inzichten helpen zoekmachines beter begrijpen welke regels écht relevant zijn.

SEO in het tijdperk van AI-crawlers

De implicaties reiken verder dan traditionele zoekmachines. Met de opkomst van AI-agents en bots verandert de rol van robots.txt. Het bestand wordt niet alleen een richtlijn voor Google, maar ook voor generatieve AI-systemen die het web scannen.

Dat maakt correcte configuratie belangrijker dan ooit. Eén fout kan betekenen dat content volledig genegeerd wordt, door zowel zoekmachines als AI-platformen.

Van ruwe data naar bruikbare inzichten

De kracht van deze aanpak zit niet alleen in de data, maar in de vertaling ervan naar actie. Door gebruik te maken van custom JavaScript-metrics en regex-analyses kunnen specifieke patronen en fouten automatisch worden opgespoord.

Deze inzichten zullen uiteindelijk hun weg vinden naar publicaties zoals de Web Almanac, waar ze de SEO-community helpen betere beslissingen te nemen.

Conclusie: Meten is weten op schaal

Wat begint als een technische vraag over robots.txt, eindigt als een fascinerende inkijk in hoe het web écht functioneert. Door tools als HTTP Archive en BigQuery te combineren, wordt SEO minder giswerk en meer wetenschap.

In een wereld waar AI en zoekmachines steeds slimmer worden, blijft één principe overeind: Wie zijn data begrijpt, heeft een voorsprong.

Robots.txt onthuld: Wat miljoenen websites écht doen

Een blik achter de schermen van moderne SEO-analyse