Cloudflare lance /crawl : crawler un site entier en une seule requête API
Cloudflare ajoute un endpoint /crawl à son service Browser Rendering. Développeurs et pipelines RAG peuvent désormais explorer un site complet et en extraire le contenu en HTML, Markdown ou JSON structuré via une simple requête API.

Cloudflare vient d'enrichir son service Browser Rendering d'un nouvel endpoint /crawl, disponible dès maintenant en bêta ouverte sur les offres Workers Free et Paid. Objectif : permettre à n'importe quel développeur d'explorer un site web complet — JavaScript inclus — et d'en extraire le contenu dans le format de son choix, via une seule requête API.
Un appel API, un site entier exploré
Le principe est direct. Le développeur envoie une URL de départ à l'endpoint /crawl, et Browser Rendering prend en charge le reste : il suit les liens et les sitemaps, charge chaque page dans un navigateur réel (avec exécution du JavaScript), puis restitue le contenu en HTML, Markdown ou JSON structuré — ce dernier généré via les modèles IA embarqués de Cloudflare.
L'exploration tourne en arrière-plan. L'API retourne immédiatement un identifiant de crawl, que l'on interroge ensuite pour récupérer les résultats au fil du traitement. Plusieurs paramètres permettent d'affiner le périmètre :
- Profondeur de crawl et nombre maximal de pages
- Filtres par motifs d'URL pour inclure ou exclure certains chemins
- Crawl incrémental pour ignorer les pages inchangées depuis la dernière exploration
- Mode statique : récupération du HTML brut sans JavaScript, plus rapide pour les sites statiques
- Respect des directives robots.txt, délai entre requêtes inclus
Cette annonce fait suite à Markdown for Agents, lancé il y a quelques semaines, qui convertissait automatiquement le HTML en Markdown à destination des agents IA. Le /crawl va plus loin : il automatise l'intégralité du pipeline d'ingestion de contenu.
Le cas d'usage principal : alimenter des pipelines RAG
Cloudflare cible explicitement les développeurs qui construisent des applications IA — en particulier les pipelines RAG (Retrieval-Augmented Generation), qui nécessitent d'indexer régulièrement du contenu web pour enrichir les réponses d'un modèle de langage.
Jusqu'ici, ce type de workflow imposait de configurer des outils tiers (Scrapy, Puppeteer, Playwright), de gérer des instances de navigateur, et de traiter manuellement la pagination et le JavaScript. Avec /crawl, tout ce travail est délégué à l'infrastructure Cloudflare. C'est une simplification significative pour les développeurs qui connectent des sources de contenu à leurs assistants IA via le protocole MCP ou d'autres orchestrateurs d'agents.
Les autres cas d'usage mis en avant : entraînement de modèles, surveillance de contenu à l'échelle d'un site, et veille concurrentielle automatisée.
Cloudflare, arbitre entre éditeurs et IA
Cette annonce révèle une tension au cœur de la stratégie Cloudflare. D'un côté, l'entreprise développe depuis plusieurs mois des outils de protection des éditeurs : AI Labyrinth (qui piège les crawlers IA dans des pages générées), le modèle Pay per Crawl lancé avec Stack Overflow, ou encore le blocage par défaut des crawlers IA sur les nouveaux domaines. De l'autre, elle fournit désormais aux développeurs les moyens de crawler le web à grande échelle.
Cette position d'intermédiaire central n'est pas un paradoxe : c'est un business model. En se plaçant entre les éditeurs et les systèmes IA, Cloudflare — qui propulse environ 20 % du web mondial — ambitionne de devenir l'infrastructure de référence des échanges de contenu entre humains et machines.
La question de qui contrôle l'accès au contenu web est au cœur des tensions actuelles, comme l'illustre la décision judiciaire contre l'agent Comet de Perplexity, qui a récemment posé un premier précédent sur les agents d'achat autonomes.
Endpoint /crawl en bref
| Paramètre | Fonctionnalité |
|---|---|
startUrl | URL de départ du crawl |
maxDepth | Profondeur maximale de navigation |
maxPages | Nombre maximum de pages explorées |
outputFormat | html, markdown, ou json |
incremental | Ignore les pages inchangées |
respectRobotsTxt | Respect des directives robots.txt |
staticMode | HTML brut sans JavaScript |
L'endpoint /crawl est disponible dès maintenant en bêta ouverte sur Workers Free et Paid. La documentation est accessible sur le portail développeur de Cloudflare.


