IA11 mars 2026 · 15:184 min de lecturePar Paul Lefizelier

Cloudflare lance /crawl : crawler un site entier en une seule requête API

Cloudflare ajoute un endpoint /crawl à son service Browser Rendering. Développeurs et pipelines RAG peuvent désormais explorer un site complet et en extraire le contenu en HTML, Markdown ou JSON structuré via une simple requête API.

Résumer avec l'IA ChatGPT Claude Perplexity Gemini

Cloudflare lance /crawl : crawler un site entier en une seule requête API

Cloudflare vient d'enrichir son service Browser Rendering d'un nouvel endpoint /crawl, disponible dès maintenant en bêta ouverte sur les offres Workers Free et Paid. Objectif : permettre à n'importe quel développeur d'explorer un site web complet — JavaScript inclus — et d'en extraire le contenu dans le format de son choix, via une seule requête API.

Un appel API, un site entier exploré

Le principe est direct. Le développeur envoie une URL de départ à l'endpoint /crawl, et Browser Rendering prend en charge le reste : il suit les liens et les sitemaps, charge chaque page dans un navigateur réel (avec exécution du JavaScript), puis restitue le contenu en HTML, Markdown ou JSON structuré — ce dernier généré via les modèles IA embarqués de Cloudflare.

L'exploration tourne en arrière-plan. L'API retourne immédiatement un identifiant de crawl, que l'on interroge ensuite pour récupérer les résultats au fil du traitement. Plusieurs paramètres permettent d'affiner le périmètre :

Profondeur de crawl et nombre maximal de pages
Filtres par motifs d'URL pour inclure ou exclure certains chemins
Crawl incrémental pour ignorer les pages inchangées depuis la dernière exploration
Mode statique : récupération du HTML brut sans JavaScript, plus rapide pour les sites statiques
Respect des directives robots.txt, délai entre requêtes inclus

Cette annonce fait suite à Markdown for Agents, lancé il y a quelques semaines, qui convertissait automatiquement le HTML en Markdown à destination des agents IA. Le /crawl va plus loin : il automatise l'intégralité du pipeline d'ingestion de contenu.

Le cas d'usage principal : alimenter des pipelines RAG

Cloudflare cible explicitement les développeurs qui construisent des applications IA — en particulier les pipelines RAG (Retrieval-Augmented Generation), qui nécessitent d'indexer régulièrement du contenu web pour enrichir les réponses d'un modèle de langage.

Jusqu'ici, ce type de workflow imposait de configurer des outils tiers (Scrapy, Puppeteer, Playwright), de gérer des instances de navigateur, et de traiter manuellement la pagination et le JavaScript. Avec /crawl, tout ce travail est délégué à l'infrastructure Cloudflare. C'est une simplification significative pour les développeurs qui connectent des sources de contenu à leurs assistants IA via le protocole MCP ou d'autres orchestrateurs d'agents.

Les autres cas d'usage mis en avant : entraînement de modèles, surveillance de contenu à l'échelle d'un site, et veille concurrentielle automatisée.

Cloudflare, arbitre entre éditeurs et IA

Cette annonce révèle une tension au cœur de la stratégie Cloudflare. D'un côté, l'entreprise développe depuis plusieurs mois des outils de protection des éditeurs : AI Labyrinth (qui piège les crawlers IA dans des pages générées), le modèle Pay per Crawl lancé avec Stack Overflow, ou encore le blocage par défaut des crawlers IA sur les nouveaux domaines. De l'autre, elle fournit désormais aux développeurs les moyens de crawler le web à grande échelle.

Cette position d'intermédiaire central n'est pas un paradoxe : c'est un business model. En se plaçant entre les éditeurs et les systèmes IA, Cloudflare — qui propulse environ 20 % du web mondial — ambitionne de devenir l'infrastructure de référence des échanges de contenu entre humains et machines.

La question de qui contrôle l'accès au contenu web est au cœur des tensions actuelles, comme l'illustre la décision judiciaire contre l'agent Comet de Perplexity, qui a récemment posé un premier précédent sur les agents d'achat autonomes.

Le vrai angle stratégique : devenir l'AWS des agents IA

Au-delà du rôle d'arbitre entre éditeurs et IA, la trajectoire de Cloudflare dessine une ambition plus large — et largement passée sous silence : devenir l'infrastructure du web agentique.

Depuis plusieurs mois, Cloudflare empile méthodiquement les briques nécessaires à un écosystème complet pour agents IA :

Navigateurs — Browser Rendering, et maintenant /crawl
Compute — Workers, Durable Objects
Scraping et ingestion — Markdown for Agents, extraction JSON structurée
Inférence — Workers AI, avec des modèles embarqués directement sur le réseau edge
Stockage — R2, D1, Vectorize (base vectorielle pour le RAG)
Agents — Agents SDK, lancé récemment pour orchestrer des workflows autonomes sur Workers

Chaque annonce prise isolément ressemble à une fonctionnalité. Mises bout à bout, elles dessinent une plateforme complète où un agent IA peut naviguer, extraire, raisonner, stocker et agir — le tout sans quitter l'écosystème Cloudflare.

En résumé : Cloudflare ne veut pas simplement protéger le web ou faciliter le scraping. L'objectif est de devenir "l'AWS des agents IA sur internet" — la couche d'infrastructure par défaut sur laquelle tourneront les agents autonomes de demain.

Endpoint /crawl en bref

Paramètre	Fonctionnalité
`startUrl`	URL de départ du crawl
`maxDepth`	Profondeur maximale de navigation
`maxPages`	Nombre maximum de pages explorées
`outputFormat`	`html`, `markdown`, ou `json`
`incremental`	Ignore les pages inchangées
`respectRobotsTxt`	Respect des directives robots.txt
`staticMode`	HTML brut sans JavaScript

L'endpoint /crawl est disponible dès maintenant en bêta ouverte sur Workers Free et Paid. La documentation est accessible sur le portail développeur de Cloudflare.