Jarenlang konden AI-bedrijven hun gang gaan. OpenAI, Google, Meta en talloze kleinere spelers struinden het internet af, op zoek naar woorden, beelden en teksten. Alles wat online stond, werd gezien als gratis bouwmateriaal voor hun taalmodellen. Niemand hield hen tegen, en zolang AI nog experimenteel aanvoelde, leek het ook niemand te deren.
Wanneer experiment commercie wordt
Maar toen ChatGPT en andere AI-toepassingen de sprong maakten van techspeeltje naar miljardenbusiness, veranderde de sfeer. Plots zagen uitgevers, schrijvers en kunstenaars hun werk opduiken in AI-systemen, zonder toestemming en zonder vergoeding. Het experiment was voorbij; de strijd om eigendom en rechten was begonnen.
The AI-Scraping Free-for-All Is Coming to an EndAI companies such as OpenAI, Google, Meta, and Anthropic have been scraping the web for years, taking content for free and often without permission. With the help of Cloudflare and Fastly and a new standard called RSL, the web is fighting back. |
De storm van protest
Uitgevers stapten naar de rechter, schrijversorganisaties klopten op de deur van politici en mediabedrijven eisten licenties. “Jullie verdienen miljarden aan ons werk,” klonk het, “en wij krijgen niets.” Wat ooit een stilzwijgende gewoonte was, werd plots een maatschappelijk en juridisch debat.
AI Giants Sued Over Unauthorized Web Scraping for Model TrainingAI giants like OpenAI, Google, and Meta have scraped vast web content without permission to train models, sparking lawsuits and backlash from creators. Publishers are deploying tools to block bots, pushing for standardized opt-outs and licensed data. This shift may end unchecked scraping, fostering a permission-based web. |
Scrapers met vermomming
Ondertussen gingen de scrapers gewoon door. Ze deden zich voor als zoekmachines of gewone gebruikers en overspoelden websites met verzoeken. Servers raakten overbelast, en zelfs beschermde content bleek kwetsbaar. Het internet voelde steeds meer als een mijn die werd leeggehaald door reuzen met onstilbare honger naar data.
![]() |
Penske Media sues Google for scraping Rolling Stone, Billboard, Variety into AI summaries - CryptopolitanPenske Media filed a lawsuit against Google on Friday in a Washington, D.C. federal court, accusing the tech company of using its articles from Rolling Stone, |
De eerste tegenbeweging
Maar nu komt er een kentering. Grote techbedrijven sluiten licentiedeals met mediagroepen. Bedrijven als Cloudflare en Fastly ontwikkelen software om scraping te detecteren en te blokkeren. En een nieuw voorstel — Really Simply Licensing (RSL) — moet het mogelijk maken dat websites zelf aangeven onder welke voorwaarden hun inhoud gebruikt mag worden, eventueel tegen betaling.
Connect, protect, and build everywhereMake employees, applications and networks faster and more secure everywhere, while reducing complexity and cost. |
Gevolgen voor iedereen
Voor websites betekent dit meer controle en eindelijk een mogelijkheid tot compensatie. Voor AI-bedrijven betekent het dat hun datastromen duurder en beperkter worden. En voor gebruikers van AI dreigt een ander effect: modellen die minder up-to-date zijn, omdat niet elke site nog toegankelijk is voor training.
Een kantelpunt
Het wilde westen van gratis scraping loopt op zijn einde. Wat ooit een vrij spel leek, verandert langzaam in een gereguleerd landschap, waarin contracten, licenties en technische barrières de toon zetten.
De tijd dat iedereen zomaar alles kon gebruiken om machines slimmer te maken, lijkt voorbij. AI zal volwassen moeten worden — en volwassenheid komt met verantwoordelijkheid en een prijskaartje.
![]() |
Big Tech Scraped Nearly 16 Million YouTube Videos to Train AI—Is Your Channel One of Them?How did AI scrape YouTube to steal information? |