Comment détecter les pages orphelines dans un site e-commerce à fort volume ?

Comment détecter les pages orphelines dans un site e-commerce à fort volume

Dans un site e-commerce de grande taille, certaines pages finissent par exister sans être rattachées à aucune autre par un lien interne. Ce sont les pages orphelines. Elles peuvent provenir d’anciennes opérations commerciales, de fiches produits qui ne sont plus reliées à leurs catégories, de landings issues de campagnes publicitaires passées ou encore de pages créées par l’équipe produit sans ajout dans l’arborescence.

Le problème est simple : si aucune page du site ne pointe vers elles, les robots d’indexation reviennent rarement dessus, voire jamais. Résultat : ces pages peuvent continuer d’exister dans la base de données, générer du coût serveur, parfois se positionner inutilement, ou au contraire, être complètement invisibles dans les résultats de recherche.

Pourquoi les pages orphelines apparaissent surtout sur les gros catalogues ?

Plus le catalogue est volumineux, plus les sources de création de nouvelles pages sont nombreuses. Un site e-commerce peut générer des URL via :

  • Système de filtrage et tri des catégories
  • Pages de collections temporaires
  • A/B tests
  • Landing pages SEA
  • API de flux marketplace
  • Outils d’upsell et cross-sell automatisés

Certaines de ces pages restent utiles, d’autres perdent leur rôle au fil du temps.
Lorsque ces pages ne sont plus reliées au reste du site, elles continuent pourtant d’exister dans l’index du CMS.

C’est ce qui crée le volume de pages orphelines.

Repérer les pages orphelines : la démarche correcte

Pour identifier ces pages, il faut croiser plusieurs sources de données.
Aucune source, isolée, ne suffit.

Étape 1 : Reconstituer l’univers des pages réellement présentes dans le site

On extrait :

  • L’ensemble des URL actives depuis la base CMS
    • L’ensemble des URL accessibles via le sitemap
    • L’ensemble des URL déjà explorées par Google (Search Console ou logs)

Cela constitue l’inventaire complet.

Étape 2 : Cartographier les liens internes réellement présents

Ici, on fait appel à un outil de crawl :

  • Screaming Frog
  • OnCrawl
  • Sitebulb
  • Botify (pour très gros volumes)

Ces outils parcourent le site en suivant les liens internes, comme le ferait un robot d’indexation.

Étape 3 : Comparer

On compare les URL connues du CMS avec celles découvertes par le crawl.

SourceSignification
Apparaît dans les tables CMSLa page existe
Apparaît dans les logsGoogle l’a visitée au moins une fois
Apparaît dans le sitemapLa page est déclarée comme importante
Mais n’apparaît pas dans le crawlPage orpheline

C’est la définition opérationnelle.

Les différentes catégories de pages orphelines (et pourquoi cela change la décision)

Toutes les pages isolées ne se valent pas.
On peut en distinguer trois grandes catégories.

Catégorie 1 : Les fiches produits retirées des catégories

Souvent présentes dans la base parce qu’un stock faible ou intermittent empêche leur suppression.
Si elles génèrent encore du trafic SEO ou SEA, elles doivent être reliées à des familles proches ou à un bloc de recommandation.

Catégorie 2 : Les pages créées pour des campagnes marketing temporaires

Elles peuvent être désindexées si leur rôle est terminé.

Catégorie 3 : Les pages générées automatiquement sans logique commerciale

Exemples : pages de variation de taille/couleur, archives, anciennes pages de pagination.
Ces pages doivent être redirigées ou supprimées, selon leur utilité.

Mesurer l’enjeu : les métriques à observer

Toutes les pages orphelines ne nécessitent pas une action.
On évalue leur importance selon :

IndicateurQuestion associée
Trafic SEOLa page génère-t-elle encore des visites organiques ?
Entrées directesEst-elle utilisée dans des emailings / favoris utilisateurs ?
Données de conversionA-t-elle déjà contribué à une vente ?
Stock produitL’article est-il encore vendable ?

Ces données permettent d’éviter les erreurs courantes : réintégrer des pages inutiles ou supprimer des pages qui convertissent encore.

A LIRE AUSSI Comment mesurer l’impact réel du maillage interne sur le crawl budget de Google ?

Réintégrer ou supprimer : la décision opérationnelle

Si la page est utile

Elle doit être réintégrée dans une section lisible :

  • Rattachement à une catégorie
  • Ajout à des blocs “Produits similaires”
  • Ajout sur des pages à forte exploration robotique
  • Ajout dans le fil d’Ariane

Plus la distance depuis la page d’accueil est courte, plus la visite des robots est fréquente.

Si la page n’a aucune valeur

Deux solutions selon les cas :

  • Suppression + redirection vers la catégorie la plus proche
  • Désindexation si on souhaite conserver la page en interne

[Nouveau] 4 ebooks sur le digital marketing à télécharger gratuitement

Cet article vous a plu ? Recevez nos prochains articles par mail

Inscrivez-vous à notre newsletter, et vous recevrez un mail tous les jeudis avec les derniers articles d’experts publiés.

D’autres articles sur le même thème :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *