20/04/2017 | Internet
Le crawl, c’est quoi ? Il s’agit de la visite des robots d’indexation sur une page web. Le budget crawl est défini par la taille du site à explorer. D’où, un site web qui dispose d’un nombre élevé de pages aura un budget crawl plus important qu’un site qui ne dispose que de quelques pages. Le rôle des robots d’indexation est déjà d’indexer des pages web, alors est-il nécessaire de passer du temps à optimiser son budget crawl ?
Budget crawl, une affaire de bots ?
Les robots d’indexation (Google Bot, Bing bot, etc) visitent tous les sites web. Ils cliquent sur chaque lien rencontré sur le site, enregistrent les données de chaque lien et mettent à jour leur index. Ce processus forme une boucle infinie. Cette activité permet aux moteurs de recherche d’avoir du contenu frais à proposer à leur utilisateur.
Le temps accordé par les robots d’indexation dépend de la taille du site à visiter. S’il s’agit d’un site avec des millions de pages, le budget crawl sera plus conséquent, de même pour les sites qui enregistrent de nombreuses activités quotidiennes, comme c’est le cas des sites d’actualités et des boutiques en ligne. Les sites avec moins de pages et moins d’actualité sont eux aussi visités régulièrement, mais avec une fréquence moins importante que celle des pages à fortes popularités.
Quand faut-il se soucier de son budget crawl ?
Le budget crawl concerne surtout les gros sites web. Très concrètement, si le nombre d’URL à crawler ne dépasse pas les 10.000pages indexées, on peut laisser les bots de se charger du budget crawl. Par ailleurs, les sites qui génèrent dynamiquement des URL dynamiques peuvent aussi avoir à gérer leur budget crawl.
Les paramètres pris en compte dans le budget crawl
- Le budget crawl sera plus ou moins important selon le temps de réponse du serveur et selon le nombre d’erreurs serveur rencontré par les bots.
- La nécessité de crawl est aussi un facteur déterminant. Pour un site statique, Google n’aura pas à mettre à jour régulièrement son index, il n’est donc pas important pour les bots de crawlé souvent ces sites web. Par contre, les sites très actifs sont crawlés plus souvent afin de mettre à jour les données dans l’index des moteurs de recherche.
- Le budget crawl est plus optimisé si le webmaster s’assure de donner à Google :
- Des pages de bonne qualité : donc du contenu à forte valeur ajoutée
- Un site avec moins ou pas d’erreur 404.
- Pas de pages piratées
- Pas de duplicate content.
- Pas de pages piratées.
- Pas de navigation à facettes et identifiants de sessions.
Soit, il ne faut pas gaspiller le budget crawl par des pages qui n’apportent rien aux visiteurs (les bots comme les internautes.)
Bref, la notion de budget crawl permet aux référenceur web de revenir à la base du SEO, le crawl. Même s’il ne s’agit pas du Saint Graal du SEO et que son impact sur le classement n’est pas aussi important, elle mérite quand même le détour, car le SEO se construit aux petits détails.