Vous souvenez-vous de l’époque où Cloudflare était le rempart contre les robots indésirables sur le web ? Que penseriez-vous si cette même entreprise proposait maintenant un service permettant de parcourir intégralement un site ? Laissez-vous surprendre par le dernier virage de Cloudflare.
Les 3 infos à ne pas manquer
- Cloudflare a lancé un nouvel outil de crawling, nommé /crawl, intégré à son service Browser Rendering.
- Ce service peut parcourir automatiquement les sites web, en suivant les liens et en exécutant le JavaScript.
- Cloudflare met en avant l’intérêt de cet outil pour l’entraînement de modèles d’IA et la collecte de données web.
Cloudflare et son rôle historique sur le web
Depuis des années, Cloudflare s’est imposé comme un acteur majeur dans la protection des sites web contre les menaces numériques. Des millions de sites web s’appuient sur ses services pour se protéger des trafics malveillants, des robots indésirables et du scraping illégal de contenu. L’entreprise propose des outils tels que le Bot Management et le Web Application Firewall (WAF) pour garantir la sécurité en ligne.
Présentation de l’outil de crawling /crawl
Le 10 mars 2026, Cloudflare a surpris le monde de la technologie en dévoilant un outil de crawling intégré à son service Browser Rendering, nommé /crawl. En fournissant une URL, cet outil peut explorer l’ensemble d’un site web de manière automatisée, en suivant les liens et en exécutant le JavaScript. Il retourne ensuite le contenu en divers formats tels que HTML, Markdown ou JSON structuré.
Cette nouvelle fonctionnalité permet de parcourir jusqu’à 100 000 pages à une vitesse inédite. Grâce à l’utilisation de l’IA, elle permet d’extraire des données structurées et d’effectuer des crawls incrémentaux, ne revisitant que les pages récemment modifiées.
Les enjeux de l’intelligence artificielle
L’une des raisons principales de l’introduction de cet outil est l’essor de l’intelligence artificielle. Cloudflare explique que l’outil est idéal pour l’entraînement de modèles d’IA, la création de pipelines RAG et la recherche de contenu. La capacité à ingérer et structurer le web de manière régulière est devenue cruciale avec l’augmentation des besoins en données pour les grands modèles de langage.
En proposant ce service à partir de son réseau mondial, Cloudflare se positionne comme un acteur incontournable dans l’infrastructure nécessaire à l’ère de l’IA. Au lieu de développer votre propre infrastructure, vous pouvez désormais vous appuyer sur Cloudflare, qui gère déjà une grande partie du trafic mondial.
Réactions et implications pour le futur
Pour certains observateurs, ce changement de direction est vu comme une contradiction avec la mission initiale de Cloudflare. Cependant, l’entreprise assure que son outil respecte les directives robots.txt, permettant aux propriétaires de sites de garder le contrôle sur ce qui peut être indexé. En pratique, seuls les sites ayant correctement configuré leurs robots.txt sont protégés.
Cloudflare n’est pas la première entreprise à se lancer dans le domaine du crawling et de l’IA. Des acteurs comme Google et Amazon Web Services proposent déjà des solutions similaires, chacun cherchant à s’imposer dans le domaine de l’IA et du traitement de données à grande échelle.