Sitemap et générateur de carte de site Web
La carte de site est appréciée des robots de moteurs de recherche en version XML et des utilisateurs, en version HTML, pour s'orienter au besoin sur le site.
Actuellement les sitemap sont étendues avec des balises image et vidéo, et même, avec un ensemble de balise qui en fait l'équivalent d'un flux RSS.
Vous pouvez générer une carte de site en juste une commande avec le script fourni ici,
et éditer le document généré à partir
du visualisateur intégré (ou n'importe quel éditeur
de texte ou XML), et ensuite télécharger le fichier directement
à la racine de votre site.
Finalement, il faudra enregistrer le fichier s'il est au format XML
ou texte. Le format XML utilisé est le standard créé
par Google et adopté par Yahoo et Live Search (Microsoft).
- Les concepts
- Comment créer une carte d'un site web?
- Pourquoi faire une carte de site?
- XML, text, HTML quel format choisir?
- Formats de sitemaps.
- Sitemap Index.
- Contenus multiples dans une même sitemap.
- Trucs, conseils importants pour les cartes de site web.
- Valider le fichier sitemap.xml
- Soumettre la carte de site.
- Le générateur de sitemap.
- Ressources.
Les concepts
Comment créer une carte d'un site web?
Avec l'interface graphique, il suffit de donner le nom de la page d'accueil et de cliquer sur le bouton "Generate".
Pourquoi faire une carte de site?
Qu'elle soit au format XML et enregistrée chez Google ou au format
HTML, le carte permet de mieux référencer un site web. En
outre, Google fournit une analyse du référencement avec
rapport sur les problèmes quand un fichier sitemap.xml est enregistré,
et des statistiques.
Il vous indique quelles recherches aboutissent à vos pages et quelles
pages n'ont pas pu être indexées.
Simple Map, l'écran
|
XML, text, HTML, quel format choisir?
Le format XML est maintenant reconnu par les principaux moteurs de recherche.
Il permet de donner des indications à Googlebot et autres robots
de recherche. Ce document XML est généré par Simple
Map selon le format est défini à l'origine par Google.
- La balise priority: elle indique quelles pages sont les plus
importantes.
- La balise lastmod: donne la date de dernière modification,
à utiliser conjointement avec la fréquence.
- La balise changefreq: indique avec que fréquence le robot
doit parser la page, de always pour un très gros site, et
des pages qui changent fréquemment, à yearly ou never
pour les documents statiques (Par exemple les spécifications officielles
de formats avec un numéro de version).
Le format texte donne uniquement la liste des URL des pages. Il est accepté par Google.
Le format HTML est destiné aux visiteurs de votre site. Il peut
afficher les liens, les titres, les descriptions et autres informations.
Il peut ne lister qu'un partie des pages.
Il est parsé par les moteurs de recherche et peut servir à
leur indiquer des pages non indexées, notamment dans le cas ou
il y a plusieurs niveaux de répertoires, les plus profonds n'étant
pas toujours pris en compte.
Le fichier texte ou HTML sont de simples liste d'URLs, mais le format XML est composé de balises correspondant à un format standard.
Formats de sitemaps
Format XML
Le conteneur est urlset et il contient une série de balises url correspondant aux pages du site.
<urlset xmlns="https://www.sitemaps.org/index.htmlschemas/sitemap/0.9">
<url>
<loc>https://www.scriptol.fr/</loc>
<lastmod>2005-01-01</lastmod>
<changefreq>monthly</changefreq>
<priority>0.8</priority>
</url>
</urlset>
Images dans les sitemaps
Pour faire indexer une image, le format est le suivant:
<url>
<loc>http://example.com/sample.html</loc>
<image:image>
<image:loc>http://example.com/image.jpg</image:loc>
</image:image>
</url>
Plus de détail sur le Centre pour Webmasters de Google.
Vidéos dans les sitemaps
Voir la FAQ des sitemaps de vidéos, par Google. (Anglais)
Sitemap de news
Pour que vos articles soient publiés sur Google News, il faut, outre l'URL contenant un ID unique, une sitemap spécifique.
Il s'agit de la sitemap standard XML avec des balises ajoutées.
En fait ces balises transforment la sitemap en fichier RSS :
- <publication> équivaut au canal. Il englobe la balise <name> et <language>.
- <access> avec pour valeur "publication", accès libre ou "registration" accès limité.
- <genre>, optionnel, sert à qualifier le type d'article.
- <publication_date>, date et heure de publication.
- <title>, titre de l'article.
- <keywords> optionnel.
- plus les balises de sitemap pour l'URL, le poids...
La sitemap ne doit contenir que les articles publiés dans les deux derniers jours.
Sitemap index
Un index est un fichier contenant une liste de sitemaps. Il permet si vous avez plusieurs sitemaps ou si la carte de site est fractionnée en plusieurs fichiers de donner leurs URL.
Inutile de créer un index pour une seule sitemap et même des sitemaps de contenus différents peuvent maintenant être combinées en une seule comme on va le voir.
Le fichier index a aussi un format XML standard.
Le conteneur est sitemapindex et il contient une série de balises sitemap.
<sitemapindex xmlns="https://www.sitemaps.org/index.htmlschemas/sitemap/0.9">
<sitemap>
<loc>http://www.example.com/sitemap1.xml</loc>
<lastmod>2004-10-01T18:23:17+00:00</lastmod>
</sitemap>
</sitemapindex>
Contenus multiples dans un même sitemap
Pour faire face à la multiplication des types de fichiers de sitemap, Google a décidé d'intégrer tous les types de contenus dans un même fichier.
Le fichier à contenu multiple ressemble à ceci:
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="https://www.sitemaps.org/index.htmlschemas/sitemap/0.9"
xmlns="https://www.sitemaps.org/index.htmlschemas/sitemap-image/1.1"
xmlns="https://www.sitemaps.org/index.htmlschemas/sitemap-video/1.1">
<url>
<loc>http://www.example.com/mapage.html</loc>
<image:image>
<image:loc>http://example.com/image.jpg</image:loc>
</image:image>
<video:video>
<video:content_loc>http://www.example.fr/mavideo.flv</video:content_loc>
<video:title>Regardez grandir le petit dernier.</video:title>
</video>
</url>
</urlset>
Donc trois types de balises dans la balise URL : loc pour une page, image et image:loc pour un fichier image, et video avec video:content_loc..
Conseils importants pour les cartes de site web
Sitemap XML
- Le format XML est reconnu au moins par Google, Yahoo and Bing.
- Les sitemaps en XML sont nécessaires si vous utilisez des liens dynamiques sur vos articles (lien en JavaScript).
- Si certaines pages ne sont pas encore indexées, donnez leur une plus haute priorité, avec l'élément "priority" du fichier XML.
- Pour retirer une page de l'indexation par les moteurs de recherche, vous devez utiliser un fichier Robots.txt ou la méta-tag "ROBOTS".
- La carte est pour le site entier. Ne créez pas une carte avec uniquement les pages non encore indexées par Google.
- L'option heure ("Time") est pour les sites gigantesques! La date seule suffit dans la plupart des cas.
- Une sitemap dont toutes les pages ont la même priorité maximale et la même fréquence de lecture, la plus élevée, à un intérêt null pour Google. Donnez aux pages la priorité la plus basse et la fréquence la plus espacée si elles sont déja indexées et inchangées.
- Pour les vidéos, une balise à été ajoutée
au protocole sitemap. Voir le tutoriel
de sitemap vidéo par Google.
Les balises vidéos se placent dans une sitemap séparée.
Sitemap HTML
- Vous pouvez créer une sitemap HTML pour les visiteurs et XML pour les moteurs de recherche.
- Placez le lien sur la carte de site HTML sur la page d'accueil.
- Quand une page est ajoutée sur le site, elle n'est pas indexée avant des semaines. Même si les robots de recherche scannent le site chaque jour, la base de donnée est actualisée pour un ensemble de sites sur une période espacée en semaines ou en mois.
Sitemap RSS
- Un fichier RSS constitue une carte de site valide pour Google, mais
pour les pages récemment ajoutées.
Sitemap index
- Un index peut contenir les URLs de 50 000 sitemaps pouvant contenir chacune 50 000 URLs de pages Web.
Valider le fichier sitemap.xml
Voilà l'adresse d'un site qui validera votre fichier sitemap XML. Il vous faut les fichiers:- sitemap.xsd, le schéma du format, est inclus dans l'archive.
- sitemap.xml, la liste des pages, sur votre site web ou local sur votre ordinateur.
Voir ressources.
Soumettre la carte de site sitemap.xml
Le fichier XML doit être placé à la racine de votre site, comme le fichier index.html ou index.php.
Selon sitemaps.org, on peut soumettre le fichier xml selon trois méthodes:
- Enregistrer la carte sur le site du moteur de recherche.
- Ajouter une ligne dans le fichier robots.txt.
- Lancer une requête au serveur par un script ou avec le navigateur.
Enregistrer la carte
Créer un compte dans l'outil pour webmaster de Google si vous n'en avez pas encore.
Google vous fournira un fichier d'identification à télécharger
sur votre site, et une fois cela fait, vous retournez encore dans votre
compte sur Google et cliquerez sur le bouton "Verify"... puis
oubliez-les une journée avant de revenir sur votre compte pour
les résultats.
Faire un ping
Vous pouvez aussi enregister la carte par un ping, voir "What do
I do after I create my Sitemap?" dans la FAQ mentionnée en
ressources plus loin.
Lorsque votre sitemap est mise à jour, vous ne devez pas l'enregistrer
de nouveau, vous pouvez en informer le moteur de recherche par un ping:
https://www.google.com/ping?sitemap=http://www.example.com/sitemap.xml
Remplacer scriptol.fr par l'URL de votre site web, et google.com par le domaine du moteur de recherche concerné: yahoo, ask, etc.
Utiliser le fichier robots.txt
Selon le blog
de Google, vous pouvez maintenant ajouter une entrée dans le
fichier robots.txt pour la carte de site, et elle sera parsée lorsque
les robots de Google et autres moteurs de recherche, rencontrent ce fichier.
La syntaxe est la suivante:
User-Agent:*
Disallow:
Sitemap: http://www.example.com/sitemap.xml
Le fichier robots.txt se place à la racine du site comme le fichier sitemap et la page d'accueil index.html ou autre.
Il est possible si l'on possède plusieurs sites, de donner dans le fichier robots.txt d'un site, l'URL des sitemaps de chacun des sites, une par ligne. Référence.
User-Agent:*
Disallow:
Sitemap: http://www.example.fr/sitemap.xml
Sitemap: http://www.example.com/sitemap.xml
Le générateur de sitemap
Comment cela fonctionne
Le programme parse récursivement le contenu d'un site web, à
partir de la page d'accueil, vers chaque page qui lui est liée,
et construit la liste de toutes les pages à référencer
par les moteurs de recherche.
Une liste d'extensions valide dans le code source définit le type
des fichiers à indéxer.
Le programme actuellement fonctionne sur une image locale du site. Il
y a une quantité de sites web qui proposent de construire la carte
de site directement sur le site hébergé.
Syntaxe:
php smap.php [options] site-url dépôt-local
Exemple:
php smap.php http://www.example.com c:\example.com
Pour voir les options, taper:
php smap.php
La liste des extensions reconnues et celle des fichiers à exclure est dans le fichier options.php. On peut exclure automatiquement des fichiers avec la meta tag:
<meta name="robots" content="noindex">
Configurer
Vous pouvez adapter le programme à votre site en modiant les variables dans le fichier options.php (ou option.sol pour le source).
- Le nom de la carte de site. On peut aussi le modifier dans smap.ini.
- La liste des extensions valides.
- La liste des fichiers à exclure.
- La liste des répertoire à exclure. Vous pouvez exclure seulement les fichiers d'un répertoire mais pas les sous-répertoire avec un astérique.
Par défaut le programme peut fonctionner avec les fichiers statiques de Wordpress. Le contenu doit alors être ajouté à la carte du site dynamique.
Obtenir le programme
- Télécharger la dernière version de Simple Map
- Télécharger la version 1.4 avec exécutables et interface graphique.
Voir le manuel de l'ancienne version (anglais).
Obtenir le code source
Le code source du script en ligne de commande est inclus dans l'archive. C'est un programme en langage Scriptol, il est clair et compact grâce aux fonctions de traitement de texte de ce langage de programmation.
Licence de Simple Map : Mozilla 1.1.
Modifications
- 2.0 - 13 octobre 2016
Programme entièrement réécrit pour construire la carte à partir du seul contenu des répertoires. Requiert une liste des fichiers à exclure (ou des meta robots ou des extensions non reconnues). - 1.7 - 1 juillet 2015
Adapté au compilateur Scriptol 2. - 1.6 - 13 juillet 2009
Corrigé une problème de compatibilité avec PHP 5 dans la fonction addLink, pour smap.sol.
La version binaire du logiciel est inchangée. - 1.5 - 14 Mars 2008
Le programme fonctionne maintenant en ligne de commande avec PHP 5.
Le problème des majuscules avec Linux est supprimé.
L'algorithme a été entièrement réécrit, le source est plus facile à lire et à modifier si besoin.
Le programme binaire n'a pas été modifié pour cette version. - 1.4 - Mai 2007
L'interface n'est pas changée, c'est toujours la version 1.3 mais le programme en ligne de commande utilisé est réécrit.
Maintenant la meta-tag "robots" est prise en compte pour éliminer les pages en "noindex" ou "none".
L'algorithme a été réécrit pour un meilleur traitement des sous-répertoires.
Le code source peut être compilé avec la dernière version du compilateur. - 1.3 - Août 2006
Le fichier smap.log quelquefois n'était pas retrouvé. Cela a été corrigé. - 1.2 - 24 Février 2006
Maintenant on peut générer plusieurs types de cartes à la fois.
Meilleur traitement des liens contenant le protocome Internet. - 1.1 - 23 Février 2006
Les balises avec une valeur vide ne sont plus ajoutées aux éléments. - 1.0 - 22 Février 2006
Distribution initiale.
Ressources
- Sitemaps.org - Site web officiel commun à Google et Bing avec la spécification complète.
- Robotstxt.org. Plus d'informations sur le fichier robots.txt.