Duplicate content et pénalités: quand et pourquoi

Google voulait démythifier la notion de pénalité pour duplicate content car les webmasters tendent à se faire des idées fausses à ce propos. En premier lieu disait-il, il n'existe pas à proprement parler de "pénalité pour contenu dupliqué".

Mais les choses ont changé depuis la Panda Update. Au contraire, la notion de contenu dupliqué s'est étendu aux sites qui ont trop de pages semblables et qui se voient alors infliger un score global négatif qui dévalorise leur positionnement dans son ensemble.

Une analyse d'un cas de contenu similaire mais non strictement recopié est donné par un employé de Google. Dans ce cas le site à eu un dépositionnement de 50 places.

Les pénalisations

Elles existent dans la pratique dans le sens ou un site ne peut être indexé ou bien classé si:

  1. Il reprend le contenu d'un site sur un autre, ou fait pointer deux domaines sur le même site.
  2. Il reprend le contenu d'un site tiers sur le sien.
  3. Il publie de nouveau un article déjà publié sans additions substantielles.
  4. Il a trop de pages qui se ressemblent.

Le duplicate accidentel

Un des cas les plus fréquents et le plus ennuyeux est lorsque deux noms de domaines pointent sur le même site. Le webmaster imagine que cela permet de ramener sur un même site des internautes qui tapent de mémoire un domaine différent, par exemple en .com et en .fr, mais pour les robots des moteurs de recherche, il s'agit de deux sites différents avec le même contenu, et ils ne peuvent être indexés tous les deux.

Le même problème peut aussi se produire s'il arrive que l'on donne accès aux robots à une URL dynamique, comme http://www.scriptol.com?x = 5 et une URL plus significative créée avec le titre du billet, mais pointant sur la même page, ce qui peut arriver avec les CMS.

Ces pages ne sont pas pénalisées, mais elle souffriront du filtrage opéré par les moteurs de recherche qui ne veulent pas avoir les mêmes pages en plusieurs exemplaires dans leur index. (Référence).

Ce qui va se passer alors se définit en trois points:

  1. Deux pages au contenu identique sont mises de coté.
  2. Une des deux est sélectionnée comme étant la meilleure URL.
    Si l'une des deux figure dans la sitemap et pas l'autre, c'est la première qui est retenue.
  3. On prend ensuite en compte les facteurs qui confirment ou non cette qualité, principalement le nombre de liens retours sur cette URL.

Comme cela a été dit par Matt Cutts dans une interview donnée à un groupe de webmasters, l'URL retenue pour l'index est celle qui est considérée comme originale et qui a le plus de backlinks.
Si deux pages contiennent la même information sans être strictement similaires, et si l'une a un lien sur l'autre, l'autre sera considérée comme la référence.

La balise canonical

Pour éviter le duplicate content légitime créer par l'auteur des pages, Google a instauré une balise à placer dans la section <head> et qui indique l'URL à prendre en compte pour une page, lorsqu'elle est accessible selon plusieurs adresses différentes.

<link rel="canonical" href="url de la page" /> 

Voir comment créer une balise canonical générique en PHP.

Conclusion

Avoir du contenu en double sur un site peut le pénaliser de nombreuses façons sans qu'il y une pénalité formellement appliquée par les moteurs de recherche. Si le duplicate n'est pas détecté, le PageRank sera dilué entre les deux pages, et s'il l'est, une seule des deux sera indexée, sans que l'on soit sûr que c'est la bonne.
Pour autant, on ne doit pas s'inquiéter si l'on s'aperçoit que l'on a du contenu accessible en double aux robots: il suffit juste de supprimer le contenu en double, ou simplement de le rendre inaccessible pour que les effets négatifs disparaissent.

Références