Un sitemap, appelé également plan de site est un fichier au format XML. Qu’est-ce qu’un sitemap et quel est son rôle ?
Qu’est-ce qu’un sitemap, à quoi sert-il ?
Un sitemap est un plan de site au format XML (Extensible Markup Language). Il se matérialise par un fichier contenant une liste enrichie des URLs internes d’un site web. Un sitemap fourni aux moteurs de recherche des informations sur la nature des URLs internes d’un site internet. Sans lui, certaines URLs ne seraient pas découvertes par les robots.
Si exemple une URL de votre votre site n’est liée par aucune autre URL, il sera alors impossible pour un robot de l’indexer sans le sitemap. Les robots d’indexation (Googlebot par exemple) ont donc besoin d’un sitemap pour découvrir toutes les URLs de votre site web.
Les robots d’exploration des moteurs de recherche comme Googlebot lisent ce fichier pour explorer plus intelligemment votre site. source : Google
Le sitemap fourni également aux moteurs de recherche des métadonnées relatives aux pages listées. Ces métadonnées renseignent les moteurs de recherche avec des informations telles que la date de sa dernière modification d’une page web, sa fréquence de mise à jour ou encore son importance dans le site internet. Les moteurs de recherche utilisent les informations contenus dans le sitemap pour optimiser le référencement de votre site internet.
Le protocole SITEMAP
Les robots d’exploration des moteurs de recherche Google, Yahoo! et Microsoft respectent le même protocole Sitemap. Un document décrivant le schéma XML est d’ailleurs disponible sur le site sitemaps.org.
Le plan Sitemap doit :
- Commencer par une balise d’ouverture et se terminer par une balise de fermeture .
- Spécifier l’espace de nom (standard de protocole) dans la balise .
- Inclure pour chaque URL une entrée en tant que balise XML parent.
- Inclure une entrée enfant pour chaque balise parent .
Toutes les autres balises sont facultatives. La prise en charge de ces balises facultatives peut varier d’un moteur de recherche à un autre. Un sitemap ne peut pas lister plus de 50 000 URL et la taille d’un fichier XML ne doit pas dépasser 10 Mo (10 485 760 octets).
Source : sitemaps.org
Les différents types d’entrées d’un sitemap
Un sitemap peut contenir des URLs :
- « classiques » (HTML, PDFs…),
- d’images,
- de vidéos.
Pourquoi le sitemap est-il important ?
Pour mieux comprendre l’importance d’un sitemap, un rapide décryptage du fonctionnement des robots d’indexation (appelés également Crawlers, Web spiders ou encore Bots) est nécessaire.
Pour découvrir et indexer les différents pages de votre site web, Googlebot (et les autres robots) procèdent de la manière suivante :
- Googlebot découvre votre site via un lien et commence par analyser le fichier Robots.txt. (si le fichier robots.txt existe, le chemin vers le sitemap doit y être préciser, exemple : Sitemap: https://www.anthedesign.fr/sitemap_index.xml),
- Le robot analyse ensuite le code source HTML de votre page web, l’enregistre et l’envoie à Google,
- Googlebot explore et repère ensuite tous les liens balisés … (internes et externes) tel qu’un utilisateur pourrait le faire en cliquant sur les liens lors de sa navigation.
Cette procédure est répétée à plusieurs reprises jusqu’à l’exploration complète de votre site internet. Une fois tous les liens explorés, il ne restera plus qu’à Google d’indexer vos pages web. Les robots revisiteront votre site à une fréquence dépendante des mises à jour de celui-ci. Plus les mises à jour de votre site seront fréquentes, plus il sera visité par les robots.
Pour conclure, l’importance de la présence d’un sitemap est lié au constat suivant : si une URL de votre site internet est inaccessible par la racine ou via ses URL descendantes, les robots ne pourront pas la trouver.
L’article vous a plu??? Profitez de notre expertise en SEO, sur www.deelynx.com ou à l’agence digitale Deelynx basée à Douala au Cameroun.