Evolution de l'algorithme de Google depuis l'origine

Evolutions notées ou annoncées sur l'algorithme de Google et sur ses moyens de classement des pages. Un article séparé est dédié à l'évolution des pages de résultats et de l'interface.

1 juin 2024 - Une fuite révèle l'algorithme de Google

La fuite de document interne à Google Search a révèle le fonctionnement de l'algorithme de positionnement actuel de Google, et a été publié par SearchEnglineLand. Google a confirmé l'authenticité des documents.

Une page peut être déclassée pour les raisons suivantes:

Un lien ne correspond pas à la la page ciblée.
Le comportement des utilisateurs du moteur dénote une insatisfaction envers la page (tel que retour rapide).
Des revues de produits.
La localisation.
De la pornographie.

Google retient les 20 dernières modification de liens sur chaque page.
Google Chrome est utilisé pour obtenir des information sur le comportement des utilisateurs.

Le positionnement dépend de ces critères

Les liens sur les autres pages doivent être diversifiés vers des sites différents et être pertinents avec le contenu de la page.
L'évaluation du contenu de la page selon les liens reçu et le comportement: les bons et mauvais clics (accidentels), le temps sur la page après un clic.
Le nombre de clics sur un lien dans la page de résultats (bien que ce soit dénié par Google).
L'originalité améliore la position.
Les marques sont importantes.
Google essaie de déterminer si on est l'auteur du document.
La fraicheur de l'information compte (ce n'est pas nouveau).
Le titre des pages compte.
La taille des polices de caractères est prise en compte pour l'importance du texte.
Les informations sur le domaine sont prises en compte.

On ne parle plus de Panda qui basait le positionnement sur la "popularité" d'un site, autrement dit les références au nom du site, un critère probablement largement détourné par les référenceurs. Mais il a y un critère d'autorité "SiteAuthority" qui est équivalent. Que Google se soucie de l'auteur d'un document est nouveau.
S'il veut vraiment pouvoir utiliser l'intelligence artificielle dans la recherche, Google doit sérieusement se préoccuper de la validité du contenu des pages.

12 septembre 2019 - Favoriser les sources originales dans les news

Pour les résultats concernant l'actualité, Google veut maintenant accorder moins d'importance à la popularité, et plus à l'originalité. Ainsi un site à grande audience qui reprend le contenu d'un article original, devrait maintenant passer en seconde position dans les pages de résultats. Cela concerne surtout les articles qui requièrent un travail d'investigation important.
De nouveaux critères ont été ajoutés dans les algorithmes pour favoriser ce genre d'articles parmi les résultats d'actualité. On veut que l'article qui est la source de toutes les news apparaisse en première position.

30 août 2019 - Pénalisation des sites qui prêtent des sous-domaines

Mettre à la disposition d'une autre entreprise un sous-domaine ou un sous-répertoire pour lui faire profiter de sa popularite - contre rétribution en général - est maintenant pénalisé par l'algorithme. Google à lancé un avertissement à ce sujet.
On a pu constater effectivement la baisse de trafic importante pour les sites qui profitaient de ce procédé.

24 septembre 2018 - Positionnement des images

Google annonce un changement de l'algorithme de sélection des images, qui se rapproche maintenant de celui du contenu textuel. L'autorité du site devient un facteur plus important et on prend en compte la "fraicheur" de la page (le fait qu'elle ait été mise à jour ou créée récemment) et le placement de l'image dans celle-ci.
L'autorité est liée à la pertinence: si le sujet de l'image est aussi celui du site, cette image est mieux positionnée. Le placement est considéré comme plus favorable si l'image est au centre et au début de la page.

8 mars 2017 - Mise à jour "Fred"

De nombreux sites sont pénalisés pour une contenu non naturel, spécialement s'ils ont des pages destinées à promouvoir d'autres sites commerciaux. Les critères de filtrage sont assez flous même si l'effet à été constaté largement, et marquent une tentative de déclasser des sites dont la popularité ne tient pas au contenu, comme le fait Panda.

Février 2017 - Fantôme 5

Les mises à jour Phantom ne sont pas reconnues officiellement par le moteur de recherche. On estime leurs dates à mai 2013, mai 2015, novembre 2015 et juin 2016.
Encore des critères flous dans des tentatives de promouvoir la "qualité", autrement dit la popularité avec un minimum de contenu.

10 janvier 2017 - Pour les mobiles

Cela avait été annoncé longtemps à l'avance, les sites qui font apparaître des popups et publicités interstitielles sont pénalisés.

23 septembre 2016 - Penguin est intégré à l'algorithme principal

C'est annoncé par le blog de Google destiné aux webmasters. Penguin, cet algorithme lancé en 2012 pénalise les sites qui veulent augmenter le PageRank artificiellement en créant des liens sur des sites satellites vers le site à promouvoir. Cela concerne aussi les liens en footer ou en signature.
L'algorithme était lancé périodiquement, mais maintenant il opère en temps réel à chaque passage du robot sur le site. Et il s'est aussi perfectionné. Il affecte plutôt les pages qu'un site en entier.

1 juillet 2016 - RankBrain, une part de plus en plus importante

RankBrain est un élément de l'algorithme général et sert trouver une réponse quand un recherche n'a pas de réponse évidente dans le stock de pages de l'index.
C'est un algorithme d'apprentissage par machine sur des quantités importantes de données, (Deep learning), donc un algorithme qui apprend et tient compte du comportement de l'utilisateur pour améliorer ses performances.

5 février 2016 - Un moteur de recherche tout en Deep learning

Le remplacement de Amit Singhal par John Giannandrea à la tête de Google est un symbole de l'évolution en cours du moteur de recherche. Alors que le second est un spécialiste de l'intelligence artificielle et du deep learning, l'apprentissage par l'ordinateur sur la base d'une quantité de données et d'expériences répétées, le premier était plus traditionaliste et comptait plus sur les programmeurs pour réaliser des algorithmes de classement des liens. On est habitué a voir le moteur de recherche suivre un ensemble de règles pour classer les pages et cela a fait le bonheur des spécialistes du référencement. C'est en train de disparaitre et on n'a aucune idée de ce qui se passe quand les résultats sont déterminés par le deep learning.

L'intelligence artificielle est déjà utilisée avec RankBrain pour comprendre certaines requêtes, elle représente actuellement 15 % du travail. Sous l'influence du nouveau patron, elle va peu à peu le faire tout entier. On peut y voir la fin du référencement parce que les ingénieurs de Google eux-même ne comprennent pas comment la machine sélectionne les pages.

Evolution en 2015 - Introduction de l'intelligence artificielle

Le moteur de recherche se tourne vers les mobiles et favorise les pages adaptées aux mobile pour les requêtes provenant d'un mobile. Le deep learning remplace une partie des algorithmes pour comprendre certaines requêtes et y répondre.

28 octobre 2015 - RankBrain

Cette mise à jour date de plusieurs mois et vient d'être révélée: ce serait le troisième critère de positionnement le plus important! (Après les mots-clés et les liens). On lui a donné le surnom de RankBrain, cet algorithme d'intelligence artificielle basé sur le deep learning tente d'interpréter une requête inédite afin de lui donner un sens et sélectionner les pages contenant la réponse.

21 avril 2015 - L'affichage adapté aux mobiles devient un signal

"A partir du 21 avril, nous allons étendre notre prise en compte de la compatibilité aux mobiles en un signal de positionnement".

C'est ce qu'annonce le blog Webmaster Central de Google et aussi que cela aura un grand impact sur les classements pour les recherches faites à partir d'un mobile..

Google vous iinvite à aller sur votre compte Webmaster Tools pour voir les problèmes de votre site et propose aussi un site de test.

Mars 2015 - Wikipedia moins favorisé

Depuis début 2014, l'audience de Wikipedia a cessé d'augmenter et est même en lent déclin. L'algorithme favorise moins le site qu'il ne le faisait auparavant.
Cela peut être lié au Knowledge Graph, qui depuis début 2014 fournit de plus en plus d'informations encyclopédiques et rend donc Wikipedia moins pertinent.
Voir le Wikimedia Report Card.

27 février 2015. App indexing, nouveau facteur de classement.

Faire indexer une application devient possible, voir le guide de Google.

Evolution en 2014 - Un pas de plus vers le robot professeur

Pas de grand changement dans l'algorithme mais plutôt des mises à jours des changement précédent. Le Knowledge Graph s'étoffe de plus en plus et ainsi Google se rapproche de son object lointain qui est de pouvoir répondre directement à toutes les questions que l'internaute peut lui poser.

Octobre 2014 - Pénalisation des sites copieurs

Les sites pour lesquels Google reçoit de nombreuses demande de retrait de contenu (DMCA) et dont la validité est vérifiée sont pénalisés dans les résultats. Seulement 1% des demandes sont jugées injustifiées. Sinon le lien sur le contenu est supprimé et maintenant le site entier est pénalisé.

28 août 2014 - Fin de la balise author

Les webmasters n'ont pas vraiment suivi et n'ont pas adopté massivement la balise rel=author pour mieux positionner leurs pages dans les résultats. Google a donc décidé de ne plus la prendre en compte. De même l'affichage d'informations sur l'auteur qui s'était déjà réduit avec le temps, va disparaitre complètement. En juin 2014, les photos avaient déjà disparu. Il semblerait que les liens avec photos n'obtiennent pas plus de clics que les autres.
Mais Google affirme que les autres types de données structurées resteront utilisées.

24 juillet 2014 - Pigeon update

Modification pour améliorer les recherches locales en appliquant une amplification aux signaux positifs (tels que liens retour) lorsqu'ils ont une source locale.

20 mai 2014 - Panda nouveau

Une nouvelle version de la formule mathématique Panda qui modifie le score de positionnement des sites est appliquée le 21 mai. Il semble que ce correctif soit moins dur envers les sites de taille moyenne ou petits. Cela aurait affecté 7.5% des sites en anglais (selon SearchEngineLand).

18 mai 2014 - Algorithme Payday Load

Cette modification de l'algorithme concerne les groupes de mots-clés les plus concernés par le spam, autrement dit les pages faites uniquement pour afficher des publicités. Il n'a rien à voir avec Panda ou Penguin. Il s'agit d'une mise à jour d'un algo mis en place l'été dernier (donc en 2013).

28 février 2014 - Pénalisation des sites copieurs

Google lance la chasse aux site copieurs qui sont mieux positionnés dans les résultats que les sites qu'ils copient. Apparemment, l'algorithme n'est pas capable de les identifier alors on lance un appel aux témoins (maintenant fermé).
Le site qui est le plus dénoncé pour le moment, c'est Google lui même, qui reprend des paragraphes de Wikipedia pour son knowledge graph!
En fait on voit dans les archives au 29 août 2011 que ce n'est pas la première fois que Google lance cette initiative.

Evolution en 2013: Le Web verbeux

Quelques sites importants ont été pénalisés pour achats de liens (comme Rap Genius), mais il semble que ce soit l'exception plutôt que la règle. Acheter des liens venant de sites de qualité et payer des blogueurs reste productif, sauf pour un site de taille modeste. Peut-être un effet de ce que Google appelle "détecter l'autorité d'un site"!
Par ailleurs, on voit de plus en plus de pages sur le même modèle: une information nouvelle au début, délayée dans un flot de mots pour camoufler le manque total d'originalité, suivi de quelques rappels tout aussi verbeux de ce que l'on sait déjà sur le sujet. On présume que les auteurs sont satisfaits du positionnement, aussi doit on conclure que l'algorithme est satisfait des pages verbeuses et ne tient compte que de la première partie du texte.

27 septembre 2013, Hummingbird prend son vol

C'est la fin du noir et blanc, après Panda et Pingouin, voici l'oiseau-mouche. Ce nouvel algorithme concerne à la fois le frontend et le backend: il sait traiter les questions dans leur ensemble plutôt que comme une suite de mots-clés, et il sait faire le lien avec le contenu des pages, autrement dit, retrouver dans sa base de données celles qui répondent le mieux à la question. Cet algorithme, s'il vient d'être révélé par Google, est en place depuis plusieurs semaines.

18 juillet 2013, Panda adouci

Une mise à jour de Panda qui ajoute des signaux sur l'autorité d'un site dans une niche pour empêcher que des sites utiles ne soient pénalisés.
La mise à jour mondiale prend 10 jours pour se compléter.

22 mai 2013, Pingouin 2

Alors que la précédente version de Penguin affectait la page d'accueil d'un site, la nouvelle itération concerne directement l'ensemble des pages (et non plus indirectement du fait qu'elles dépendant de la page d'accueil). Cela pénalise les sites qui ont des backlinks artificiels, généralement avec des ancres optimisées.

15 mai 2013. Le programme pour l'année à venir

Dans une vidéo (en anglais), le responsable du webspam de Google indique ce que l'on doit attendre des modifications de l'algo dans les mois à venir:

Mieux détecter l'autorité dans différentes niches grâce à de meilleurs signaux, de façon à modérer l'effet négatif de Panda.
Il est affirmé qui les sites qui sont à la limite vont bénéficier du doute et ne plus être pénalisés. Ici comme toujours, tout est question de signaux aussi ce sont les signaux qui attestent de la compétence dans un domaine qui seront améliorés. Espérons que cela ne signifie pas l'inscription dans des sites sociaux!
Des méthodes plus élaborées pour analyser les liens et enlever toute valeur à l'activité des spammeurs.
Réduction de trop nombreux liens pour les sites qui ont trop d'importance dans les SERPs.
A ce sujet, il y a un va et vient de Google avec réduction et augmentation selon les cas, qui laisse peu de crédibilité à cette intention.
Améliorer les catégories de résultats qui ont trop de spam. Donc réduire le spam.
Ne plus passer de PageRank par les publicités.
Meilleure information au webmaster quand un site est piraté.

Cette annonce confirme le poids donné aux "signaux" pour évaluer les pages. A part l'extraction des mots-clés, l'algo ignore leur contenu, ce qui est la source de tous les spams. Pour l'essentiel, la liste montre l'intention de réduire le spam, ce qui n'a rien de très nouveau et on reconnaît que Panda est approximatif.

Evolution de l'algorithme en 2012

En 2012, le référencement est devenu un champ de mines. L'idée de déclasser un site sans tenir compte du contenu apparue dans Panda en 2011 s'est étendue à Penguin en 2012. Cette fois ce sont les pages qui ont trop de backlinks artificiels qui sont pénalisées. Mais cette tendance à traiter tous les sites sur la base de manipulations hypothétique de l'algorithme se renforce. Toute action sur un site peut être assimilée à tort à une tentative de spam dès lors qu'elle ressemble à une manoeuvre pratiquée par certains spammer.
Ce n'est pas que Google soit totalement incapable de juger du contenu d'une page, il le démontre avec le graphe de connaissance. Mais il semble que cette aptitude soit réservée à son propre usage tandis que les sites tiers sont jugés uniquement à partir de signaux et de ce qui peut être interpréter comme un vote favorable ou défavorable de la part des utilisateurs.
Les itérations de Penguin sont datées du 24 février, 26 mai et 5 octobre.

17 novembre 2012. Mystérieuse mise à jour

Il n'y a pas de communication sur ce changement qui a affecté de nombreux sites, sinon qu'il ne s'agit pas d'une itération de Panda. Ma théorie est que cela concerne la prise en compte des likes sur les sites sociaux et des commentaires, mais elle est purement personnelle.
Il faut noter que le décompte des likes sur Google plus a disparu de GWT au même moment.
Les mises à jour de Panda ont eu lieu les 5 et 21 novembre.

10 octobre 2012. Les liens en footer sont un facteur de pénalisation

Les Webmaster Guidelines ont récemment évolué. Comme toujours elles précisent que les échanges et ventes de liens sont interdites, mais une nouvelle ligne apparaît:

Des liens largement distribués dans les pieds de page de sites variés.

Ces liens ne sont pas considérés comme naturels et donc violent les consignes aux webmasters.

28 septembre 2012. Nom de domaines faits de mots-clés visé

Les sites qui ont un nom de domaine choisi pour ses mots-clés, sans que le contenu soit jugé de qualité (voir Panda), sont maintenant pénalisés. Cela affecte moins de 1% des sites en anglais.

14 septembre 2012. Retour à la diversité

Après le changement du 17 novembre 2012 qui permettait à un même domaine de spammer les pages de résultats, Google fait un retour en arrière et de nouveau limite le nombre de liens sur le même domaine.

10 août 2012. Les plaintes pour violation de copyright pénalisent un site

Même si Google ne supprime pas de son index un contenu qui fait l'objet d'une plainte, il pénalise maintenant la page, lorsque un site est trop souvent l'objet de plaintes. On se demande si Scribd va être pénalisé!
Probablement pas car Google précise que de nombreux sites populaires y échapperont. Youtube notamment utilise un formulaire DMCA différent qui n'est pas pris en compte par ce critère de son algorithme: il ne peut être pénalisé.

24 avril 2012. Changement d'algo contre le spam affectant 3% des sites : Penguin update!

Et manifestement en rapport avec la suroptimisation comme annoncé, même si le terme est affiné. Un site est visé lorsqu'il accumule les signaux négatifs, comme l'échange de lien, les backlinks créés par soi-même. Même les liens internes s'ils ont les mêmes mots-clés dans l'ancre. Des liens externes non pertinents, c'est à dire sans rapport avec le texte qui l'entoure, c'est aussi un signal négatif. De même que le remplissage d'une page avec le même mot-clé, comme on le sait déjà.
Des études ont montré qu'un site est pénalisé lorsque la majorité des backlinks ne viennent pas de sites dans la même thématique et quand les ancres contiennent des mots-clés qui ne sont dans la thématique de la page qui les fait.
C'est l'ensemble des signaux négatifs qui provoque la pénalisation. Ce sont des critères qui sont pris en compte depuis toujours, on le sait, mais le nouvel algorithme effectue une analyse plus profonde et systématique pour mieux pénaliser les techniques black hat.

En fait Google a communiqué sur le changement et parle plus précisément de "black hat webspam". Ce changement a un nom d'ailleurs, c'est la penguin update (mise à jour pingouin), allusion à l'opposition entre black-hat et white-hat (ce n'est pas une plaisanterie).

En Avril également l'algorithme a été modifié pour ne plus accorder de prime de fraîcheur aux nouveaux articles quand le site est jugé de pauvre qualité.
Cela parmi d'autres changements affectant principalement la présentation des résultats.

Mars 2012. Suroptimisation bientôt pénalisée. Ancre des liens revue. L'interface graphique, critère de positionnement.

Après avoir pénalisé les sites dont l'algorithme juge le contenu pas assez différent et substanciel (ce qui se traduit la plupart du temps par favoriser les sites verbeux et faisant dans la digression), Google se prépare à franchir un nouveau pas et attaquer les sites qui poussent l'optimisation trop loin, c'est ce que vient d'annoncer Matt Cutts au SXSW.
Quelles optimisations seront pénalisées?

La présence artificielle de nombreux mots-clés, sans utilité pour le lecteur. On devrait aussi éviter les phrases répétées dans une page et dans toutes les pages.
Les échanges de liens qui apportent des backlinks sans utilité. Les annuaires demandant un lien retour, s'il en reste encore, seront visés tout comme les liens payants et échanges de liens en footer.
Trop de manipulations en général. Par exemple trop de liens en nofollow sur les sites externes, sans raison.

Tout cela était déjà contré par l'algorithme mais il semble que Google veuille améliorer la reconnaissance de ces actions et pénaliser plus durement les sites. L'effet se verra dans quelques semaines.
Certains pensent déjà que dé-optimiser un site (ignorer toutes les règles d'optimisation) pour le faire paraître plus naturel et éviter d'être pénalisé peut avoir un effet positif, cela risque de ce confirmer avec ce changement d'algo prévu. Mais Google précise qu'une bonne optimisation, faite seulement pour aider les moteurs à trouver le contenu, reste recommandée.

Google annonce que la façon d'interpréter l'ancre des liens à été modifiée. Sans précision, un critère de classification a été supprimé. L'interprétation de l'ancre en fonction de la requête a été affinée. D'autres changement concernent les synonymes, la date des fils de discussion, la fraicheur, la qualité des sites.
On apprend aussi que l'algo tient compte de l'interface et du rendu sur les mobiles pour le positionnement. On croit comprendre que la présence d'icônes, étoiles, etc... constitue un indice de qualité.

Février 2012. Après plusieurs années, la façon d'analyser des liens a changé

"Nous utilisons souvent les caractéristiques de liens pour nous aider à comprendre le sujet d'une page liée. Nous avons changé la façon dont nous évaluons les liens. En particulier nous abandonnons une méthode d'analyse des liens utilisée depuis des années."

Même si Google ne dit pas précisemment ce qui a changé dans sa façon d'évaluer les liens, cette formule implique fortement que ce que ce sont les signaux en rapport avec la pertinence du lien qui sont concernés et que l'un d'eux n'est plus pris en compte. Voici la liste de ces signaux:

L'ancre du lien, le libellé.
Le texte qui entoure le lien.
La position dans la page. Selon que le lien se trouve dans un article, en fin de page, en footer, il a un rôle différent et une relation différente avec la page liée.
Les attributs title, rel et nofollow. Le dernier faisant ignorer le lien (tout en consommant sa part de PageRank), le seul changement possible serait qu'il soit lui-même ignoré.
Le PageRank de la page qui contient le lien.
Lien social ou lien dans un article.

On pourrait se reporter aux différents brevets de Google sur l'analyse des liens pour savoir ce qui a été annulé. Chacun de ces facteurs peut être dévalué sauf un seul: un lien pertinent, dans le corps de texte.

L'annonce sur les changements en Mars contredit le fait que ce soit l'ancre du lien qui soit maintenant dévaluée. Peut-être devrai-il l'être?

Ce critère est remplaçable par d'autres signaux, le contenu de la page contenant le lien notamment.
Ce sont surtout les référenceurs qui travaillent le choix des mots dans les ancres.
On s'aperçoit souvent que les webmasters choisissent les mots-clés pour les ancres quand cela concerne leurs propres site et mettent n'importe quoi pour les autres.
Le plus correct est en fait de mettre le titre de l'article lié dans l'ancre. Mais cela n'apporte rien aux moteurs de recherche, donc autant ignorer ce critère.

19 janvier 2012. L'excès de publicité en début de page est maintenant un critère de de-positionnement

Comme on l'avait annoncé en novembre de l'année dernière, les pages qui présentent d'abord de la publicité puis du contenu ensuite, visible quand on déroule le texte, seront pénalisées.
Cela affecte 1% des recherches.
Les utilisateurs se plaignaient que pour trouver le contenu qui répond à leur requête, il faille dérouler la page et passer des publicités.
Mais comment déterminer ce qui est "above the fold", puisque cela dépend de la résolution de l'écran. Sur un mobile, selon qu'on le tient en mode portrait ou paysage, ce n'est plus pareil. On peut supposer que cela affecte les pages qui présentent deux publicités de 280 pixels de haut côte à côte. En fait Google donne une mesure statistique de ce qu'est la hauteur de page visible sans déroulement avec l'outil Browser Size. 550 pixels est une valeur acceptable.
La taille du header a-t-il un effet? Pas s'il est considéré comme faisant partie du contenu.
Le site Browsersize de Google (maintenant fermée) donnait une mesure de ce qu'est la "ligne de flottaison" d'une page web.
Annonce dans Inside Search.

Evolution de l'algorithme en 2011

2011 était un challenge pour Google car son algorithme était de plus en plus critiqué. Avec l'arrivée d'un nouveau CEO, la politique du moteur de recherche de Google à changé. En effet, Google a cessé de positionner des pages pour positionner des sites.
D'une part il y a eu Panda, un nouvel outil de classement qui pénalise un site qui a trop de pages de "qualité insuffisante", concrètement manquant de contenu ou d'originalité. Si le site possède d'autres pages de qualité, elle seront moins bien classées.
En outre on assiste au retour des liens multiples sur un même site dans les pages de résultats. On peut souvent voir les résultats monopolisés par deux sites, ce qui est plus que dommage.
L'impression que l'on a est que si Google communique beaucoup sur le développement de son algorithmes, il se borne la plupart du temps à favoriser les sites les plus importants. Ce n'est peut-être pas étranger au fait qu'il y ait 300 millions de nouveaux sites en 2011?
Combattre le spam est devenu une obsession au détriment de beaucoup de sites qui apportent l'information que l'on recherche mais ne sont pas visibles dans les SERPs.

2 décembre 2011. Détection des domaines parkés.

Et dont la page d'accueil est remplie de publicité. Un nouvel algorithme est ajouté pour les détecter et les exclure des résultats. Cela fait partie d'une dizaine de mesures annoncées pour le mois de novembre, concernant aussi la fraîcheur des contenu, le fait de favoriser les pages les plus récentes.
Novembre.

14 novembre 2011. Bonus pour les sites officiels.

Les sites relatifs à un produit, une personne, lorsqu'ils sont identifée comme étant les sites officiels (faits par la partie concernée), recevront maintenant un traitement préférentiel quand au positionnement, selon une modification de l'algorithme annoncée le 14 novembre 2011.

10 novembre 2011. Trop de publicités dans une page: maintenant un critère direct de l'algo.

Lors du PubCon 2011, Matt Cutts a précisé qu'avoir trop de publicités dans une page était en train de devenir un facteur de positionnement (négatif) direct.
Cela à toujours été un facteur indirect dans la mesure ou cela peut inciter les visiteurs à quitter le site et ainsi augmenter le taux de rebond et réduire le temps de visite. Mais cela va être maintenant pris directement en compte.
Cela confirme par ailleurs que ce n'était pas un critère de Panda.
Noter que "trop de publicité" dépend fortement de la taille de la page et aussi il a été précisé que leur placement dans la première part de page est pris en compte.

3 novembre 2011. Nouveau classement selon la fraîcheur des pages.

Une modification dans l'algorithme affecte 35% des requêtes sur le moteur de recherche. Cela concerne la nouveauté des pages, qui peut être favorisée selon le contexte de recherche.
Il s'agit des recherches relatives aux évènements récents ou sujets d'actualité, ainsi que les sujets qui reviennent régulièrement dans l'actualité (Ex: Grand Prix de F1), et ce qui est continuellement mis à jour sans être d'actualité (Ex: Un logiciel).
D'autres sujets comme par exemple les recettes de cuisine ne devraient pas être affecté par cette modification.

29 août 2011. Meilleur reconnaissance des "scrapers".

Les sites qui reprennent textuellement les pages d'autres sites pour afficher des publicités devraient être mieux identifiés. Il arrivent qu'ils soient mieux positionnés dans les pages de résultats que les originaux!
Google teste un nouvel algorithme et demande aux utilisateurs de signaler ces sites pour l'aider à le mettre au point.
Signaler un scraper
Ce n'est pas pour les atteintes au copyright ou droit d'auteur mais pour les sites qui se servent d'un outil quelconque pour reprendre des contenus et les placer dans leurs pages.

12 août 2011. Panda généralisé à toutes les langues.

Les sites en français sont maintenant affectés par cet algorithme qui vise a améliorer la sélection des pages en résultats, mais qui frappe quelquefois injustement des sites de qualité. Selon les langues, entre 6 et 9% des sites sont concernés dans chaque langue.
Panda.
Signaler un site de qualité injustement touché.

Dans le même temps, Google a changé la façon dont Analytics calcule le taux de rebond.

20 juin 2011. L'ombre de Panda.

Depuis le 15 juin, de nombreux sites voient leur audience baisser pour la plupart, augmentée pour d'autres, ce que l'on attribue à l'extension de Panda à Google.fr.
Cependant les sites importants au contenu pauvre ou dupliqué n'ont pas été affecté, et cela ne peut donc être comparé à la Panda Update, qui n'est pas une modification de l'algoritme mais un programme indépendant lancé manuellement et qui affecte un score aux sites.
Il est possible qu'une partie de ce programme ait été incorporée à l'algorithme général.

8 juin 2011. Attribut auteur.

Plusieurs balises d'attribution à placer dans le corps de la page sont reconnues par Google:

<a rel="author" href="pageauteur.html">Moi même</a>

<a rel="me" href="pageauteur.html">Moi même</a>

Cela aidera à classer les pages par auteur.
La page de profil ainsi désignée doit se trouver sur le site qui contient cet attribut.

6 juin 2011. Schema.org.

Un format pour inclure des metadonnées dans vos pages, et ainsi donner des précisions sur leur signification, est adopté par Bing, Google, Yahoo!.
Il est incompatible avec RDFa et ne peut être utilisé dans une même page sans qu'elle soit désindexée.
Ce format est basé sur la spécification Microdata du W3C, a ne pas confondre avec microformat (hRecipe, hCard) qui est un terme générique pour un format propriétaire défini pour une application particulière.
Un exemple d'utilisation (pour tous les formats) est la description d'une recette avec des données comme photo et temps de cuisson, pour permettre de produire un snippet spécial dans les pages de résultats.
Schema.org.
Rich snippet testing tool. Outil de test en ligne pour vérifier la conformité de vos pages.

11 avril 2011. L'initiative Panda généralisée au Monde.

La Panda Update contre le contenu pauvre devient générale et s'étend au Monde entier.
Mais cela ne concerne que les requêtes en langue anglaise (sur les moteurs locaux).
Google commence également à prendre en compte le fait que certains sites soients bloqué par les utilisateurs. C'est un critère de plus mais mineur.
De nouveaux sites importants comme ehow ont été touchés par la mise à jour, mais une quantité de sites moins importants avec un résultats indirecte: les liens venant de ces sites sont dévalués ce qui affecte aussi d'autres site, non directement touchés.
Panda Update. Quels critères sont appliqués par la Panda Update?

24 février 2011. Mise à jour 3 mars 2011. Important changement contre les fermes de contenu (Panda Update).

Nommée en interne "Panda" (c'est le nom d'un ingénieur), cette action a impactée 11,8% des recherches en réduisant la présence dans les résultats de pages au contenu pauvre, non original ou peu utiles. Au contraire ceux qui fournissent des articles détaillés resultant d'un recherche originale seront favorisés.

"Nous voulons encourager un écosystème sain..." dit Google.

Google précise que le changement ne provient pas de la nouvelle extension pour Chrome qui permet de bloquer des sites. Mais une comparaison avec les données recueillies montre que 84% des sites concernés figurent dans la liste des sites bloqués.
Les effets n'apparaîtrons aujourd'hui qu'aux USA. Ultérieurement, cela concernera le reste du Monde. Un des résultats sera une augmentation des revenus Adsense pour les autres sites puisque les fermes de contenu servent essentiellement à présenter des publicités.
Il reste a voir comment les fermes de contenu seront affectées, sur Alexa ou Google Trends et si ce sera un Farmer Day.
Finding more quality sites.

28 janvier 2011. Changement contre le contenu copié.

Pour lutter contre les sites qui reprennent le contenu d'autres sites ou dont le contenu n'a aucune originalité, un changement a été apporté dans l'algorithme en début de semaine, soit à partir du 24 janvier.
Cela n'affecte que 2% des requêtes mais selon Matt Cutts, c'est suffisant pour que vous puissiez constater un changement dans le positionnement (c'est le cas pour Scriptol, l'audience s'est accrue de 10%).
C'est une nouvelle amélioration affectant la longue traine. Cela peut affecter les fermes de contenu qui produisent des articles à la chaîne, forcément pas original.
Annonce par Matt Cutts.

21 janvier 2011. Nouvelle formule de classement.

Le nouvel algorithme est plus efficace pour detecter le spam dans le contenu d'une page, représenté par une répétition de mots, avec l'intention évidente d'être positionné sur ces mots.
On peut les trouver dans un article ou dans des commentaires de blog.
Voir lien ci-dessous.

21 janvier 2011. Algorithme meilleur que jamais contre le spam.

C'est ce qu'affirme Google dans une lettre qui répond aux critiques sur la qualité du moteur de recherche notamment dans la lutte contre le spam.
Google affirme qu'afficher des annonces Adsense n'empêche pas un site sans contenu utile d'être déclassé pas plus que la participation au programme Adwords.
En 2010, l'algorithme a connu deux modifications majeures pour contre les spams. On a beaucoup parlé du changement qui a affecté la longue traine au détriment des sites sans contenu.
Google s'engage à aller plus loin en 2011 et invite les webmasters à donner leur opinion. La cible est surtout les "fermes de contenu" qui fournissent des pages sans intérêt remplies de mot-clés pour se positionner dans les résultats (comme eHow, Answerbag, Associated Content).
L'algorithme sera amélioré pour reconnaître le contenu copié ou sans contenu original.
Google search and search engine spam.

Evolution de l'algorithme en 2010

Des changements importants sont survenus en 2010 dans les pages de résultats, avec notamment la recherche instantanée, la prévisualisation des sites, le filtrage par niveau de lecture et dans l'index avec la prise en compte de nouveaux formats de fichiers.
Mais pour l'algorithme de positionnement lui-même, les progrès ne sont pas aussi évidents. Les résultats de recherche sont infestés de spams, de pages vides. De très gros sites sont capables de générer des millions de liens internes ou vers des sites satellites destinés uniquement à afficher des publicités.
Des entreprises se constituent pour faire produire par une armée de dactylos du web des quantités de pages pour supporter des publicités et dont on se doute que l'originalité en est totalement absente.
Il n'est pas agréable de poser une question et de trouver pour tout résultat une page contenant la même question et pas de réponse. C'est donc dans la capacité à évaluer sémantiquement le contenu que le moteur devrait faire des progrès.

2 décembre 2010. Analyse des sentiments ajoutée à l'algorithme.

A la suite d'un article paru sur le New York Times, dénonçant le fait qu'un vendeur qui provoque l'insatisfaction de ses clients et génère de nombreuses plaintes dans les blogs et forum en tire un avantage auprès des moteurs de recherche, Google a réagit.
En effet, quand on dénonce les pratiques ou le contenu d'un site, on met des liens sur celui-ci pour fournir des exemples, et ces backlinks sont traités comme un indice de popularité par les moteurs, ce qui se traduit par une meilleur position dans les résultats!
Google à donc mis au point un algorithme d'analyse des sentiments, qui vise à reconnaître si le texte qui entoure un lien est positif ou négatif à son égard, selon les mots-clés qu'il contient afin de pénaliser les sites dont on se plaint.
Google conseille aussi l'attribut nofollow pour mettre un lien sur un site sans vouloir contribuer à son positionnement.
Being bad to your customers is bad for business.
Large-Scale Sentiment Analysis for News and Blogs. Analyse en anglais de l'algorithme.

17 novembre 2010. Les mêmes domaines sont plus représentés dans les résultats.

Alors qu'un même domaine était limité à deux liens dans les résultats, ce nombre est maintenant augmenté. Cela pourrait faire perdre du trafic aux autres sites.

5 novembre 2010. Vendredi Noir.

Depuis le 21 et 22 octobre selon les régions, une modification de l'algorithme portant sur le classement dans les résultats a affecté énormément de sites, certains perdant jusqu'à 80% de leur trafic. Le moteur de recherche Alexa, a publié des graphiques montrant des pertes énormes ou des gains équivalents pour certains sites.
Ces changements semblent définitifs. Le but des modifications semble être d'améliorer la pertinence des résultats.

31 août 2010. SVG indexé.

Le contenu SVG est maintenant indexé, qu'il soit dans un fichier à inclure ou imbriqué dans du code HTML.

20 août 2010. Internationalisation préjudiciable?

Certains webmasters ont vu leur trafic augmenter en provenance des moteurs de recherche Google autres que Google.com ou celui de leur pays.
Ainsi des américains peuvent voir arriver des visiteurs qui consultent google.fr, ce qui suppose que le moteur français inclut des sites américains dans les résultats.
Cela pourrait réduire l'audience des sites français.

8 juin 2010. Caffeine rafraîchit l'index.

Google a annoncé le 8 juin que le nouveau moteur d'indexation, Caffeine, est finalisé. Il offre un nouvel index avec des résultats 50% plus récents.
Son fonctionnement diffère de celui du précédent système qui se mettait à jour globalement, par vagues. Caffeine met l'index à jour de façon incrémentale. Les nouvelles pages peuvent être ajoutées et rendues disponible pour la recherche dès qu'elles sont découvertes.
La nouvelle architecture permet aussi d'associer une page à plusieurs pays.
Caffeine vs. précédent système.

27 mai 2010. MayDay: La longue traine évolue.

Cela a été confirmé par Mat Cutts lors de la Google I/O de mai, au mois d'avril un changement radical a été apporté à l'algorithme portant sur la longue traine, pour favoriser les contenus de qualité.

This is an algorithmic change in Google, looking for higher quality sites to surface for long tail queries. It went through vigorous testing and isn’t going to be rolled back.

Traduction: "C'est un changement algorithmique de Google, la recherche de sites de plus grande qualité qui remontent à la surface pour les requêtes sur la longue traine. Il a passé des tests rigoureux et ne va pas être remis en question."

Reppelons que la longue traine est l'ensemble des requêtes avec plusieurs mots-clés, rares chacune, mais qui toutes ensemble font l'essentiel du trafic d'un site.

Les webmasters ont donné à cette évolution le nom de MayDay. Je l'ai précédemment appelé Mardi Noir. Cela a été catastrophique pour certains sites bien établis mais au contenu insuffisant. Cela s'est passé fin avril et début mai selon les sites, même si d'autres sites ont connu une perte de trafic pour d'autres raisons.
Cela a boosté le trafic de scriptol.com et scriptol.fr.
MayDay expliqué par Matt Cutts dans une vidéo.
Cela est indépendant de Caffeine et définitif. Les webmasters doivent ajouter du contenu pour retrouver du trafic.

27 avril 2010. Mardi noir: Le positionnement change sur la longue traine.

La long tail, (longue traine) est l'ensemble des pages, nombreuses, sur un site qui on peu de visite chacune mais ensemble ont un large trafic.
Les requêtes sur plusieurs mots-clés, constituent la longue traine.
Beaucoup de sites on vu un changement de positionnement de ces pages depuis le 27 avril. Certains ont perdu jusqu'à 90% de leur trafic.
On a attribué ce changement à Cafeine, la nouvelle infrastructure de Google qui indexe plus de pages et crée plus de concurrence, mais Google a confirmé un changement de son algorithme (voir 27 mai).

14 avril 2010. Le temps réel.

MySpace, Facebook, Buzz, Twitter sont intégrés dans les résultats de recherche. Quand après affichage de la page de résultats on affiche plus d'options et que l'on clicke sur "Mise à jour" (Update), on peut voir l'activité sur les réseaux sociaux relative à la requête.
Replay accross Twitter.

Mise à jour 2011: Twitter et Facebook interdisent l'accès au robot de Google.

9 avril 2010. La vitesse est officiellement un facteur de positionnement.

Cela avait été annoncé il y a quelques mois, c'est devenu réalité: un site trop lent est maintenant déclassé dans les pages de résultat, ou tout au moins a des chances de l'être en conjonction avec les autres facteurs.

"Today we're including a new signal in our search ranking algorithms: site speed."

"Aujourd'hui nous incluons un nouveau signal dans nos algorithme de positionnement pour la recherche: la vitesse du site."

Il est possible de savoir si votre site est trop lent à partir des Outils Google pour Webmaster (Labs -> Site performance).
Using site speed in web search ranking.

Année 2009.

Selon Google, 540 améliorations ont été apportées au moteur de recherche durant l'année 2009.

15 décembre 2009. Canonical entre domaines.

La prise en compte de l'attribut rel="canonical" qui a été implémentée il y a quelques mois pour éviter le duplicate content entre pages d'un même site, vient d'être étendue aux pages identiques sur des noms de domaine différents.
Il reste préférable d'utiliser des redirections 301 quand on migre un site sur un autre domaine.
Source Google.
Pour protéger votre site contre les sites qui pourraient copier votre contenu, voir comment créer une balise canonical générique en PHP.

19 novembre 2009. La vitesse de chargement d'un site sera un facteur de positionnement en 2010.

C'est ce que vient d'annoncer Matt Cutts dans une interview.

"Historiquement, nous ne l'avons pas pris en compte dans notre positionnement de recherche, mais beacoup de gens chez Google pensent que le Web devrait être rapide.
Ceci devrait permettre une utilisation plus agréable et donc, il serait correct de dire que si vous avez un site rapide, il pourrait recevoir un petit bonus.
Si votre site est très lent, il peut y avoir des utilisateurs qui n'apprécient pas du tout.
Je pense qu'en 2010 beaucoup de gens vont se demander comment avoir un site rapide, comment devenir riche sans avoir à écrire un tas JavaScript personnel."

Ceci devrait favoriser les sites statiques et non SQL... Voir notre article, Comment construire un CMS sans base de données.
Voir aussi: Let's make the Web faster.

11 août 2009. Nouveau moteur de recherche Caffeine.

Google teste un nouveau moteur de recherche. Celui-ci se veut plus rapide et plus pertinent.

2 juillet 2009. Moins de poids pour les liens non pertinents.

Ce n'est pas confirmé officiellement par Google (qui parle peu de son algorithme de toutes façons), mais les webmasters estiment que les résultats ont changés et que les positions dans les SERPs sont perdues qui provenaient de quantités de backlinks de moindre qualités.
Par liens non pertinents, on entend:
- Les blogrolls des blogs.
- Les liens de sites sociaux.
- Les liens d'annuaires.
- Les liens en pieds de page dans les sites partenaires.
- Les liens fournis avec les templates de CMS.
En fait Google avait annoncé récemment qu'il ne tiendrait plus compte des blogrolls. On en voit sans doute le résultat. Et il ne s'agit pas juste d'une perte d'importance pour ces liens: ils ne comptent plus.

En ce qui concerne les sites sociaux (comme Delicious, Stumbleupon), au contraire, Google a déclaré dans une table ronde avec les webmasters: "Ils sont considérés comme les autres sites".

19 juin 2009. Flash et ses ressources.

Les applications flash sont indexées par le moteur de recherche et dorénavant, les ressources qu'elles utilisent, images ou textes, sont aussi indexé.
Source Webmaster Central Blog.

2 juin 2009. Confirmation sur les changement avec nofollow - Liens onclick.

L'attribut nofollow fait ignorer un lien dans une page pour les moteurs de recherche. Donc le PR est distribué entre les liens restants.
Il semble que maintenant les PR soit distribué entre tous les liens (avec ou sans nofollow) et ensuite non distribué pour les liens en nofollow.
Exemple: Vous avec 10 points de PR et 5 liens, 2 points sont attribués à chacun. Si deux liens sont en nofollow, aucun PR ne leur est passé, mais les autres ne recevront pas tous les points, il recevront seulement 6 points partagés en 3.
Les conséquences sont importantes, les liens dans les commentaires des blogs feraient perdre leur PR aux autres pages.

Citation de Matt Cutts:

Suppose you have 10 links and 5 of them are nofollowed. There’s this assumption that the other 5 links get ALL that PageRank and that may not be as true anymore.

Trad.: Supposons que vous avez 10 liens et 5 d'entre eux sont en nofollow. On suppose que les 5 autres récupèrent TOUT Le PageRank and cela peut ne plus être vrai.

Plus de détails dans l'article PageRank et nofollow.

Par ailleurs, Google prend en compte les liens assignés dans l'évènement onclick.

12 avril 2009. Recherche personnalisée.

Elle se généralise à tous les utilisateurs du moteur de recherche. Les résultats de recherche tiennent compte du comportement de l'utilisateur, s'il clique plus souvent sur les pages d'une site, ou d'un type de site, ces pages apparaîtront dans les recherches ultérieures en tête des résultats, pour lui seul. Réf: Personalized search for everyone.

4 avril 2009. Recherche locale.

Google améliore la recherche locale en se basant sur l'adresse IP, laquelle permet de retrouver le pays et la ville d'un internaute. A partir de celle-ci, Google s'efforce d'afficher des sites qui ceux eux localisés au plus près.
Pour profiter de cette option, il faut que la recherche inclut un nom de lieu, auxquel cas une carte doit s'afficher.
Source Blog Google.

26 février 2009. Noms de marques.

L'algorithme apporte plus de poids aux noms de marques et favorise donc les sites correspondants. C'est confirmé par Matt Cutts (Responsable du staff et communiquant de Google) dans une vidéo.
La vidéo. (Anglais).

25 février 2009. La balise canonical.

Une nouvelle balise indique au robot du moteur de recherche quelle URL il faut retenir quand une page est accessible avec des adresses différentes.
Le problème de duplicate content résolu.

16 juillet 2008.

Google introduit à titre expérimental un peu de Wikia dans son moteur de recherche. Les utilisateurs peuvent marquer les résultats comme bon ou indésirable.
Le moteur le prend en compte, mais pour l'utilisateur qui les a marqué uniquement. Pour l'instant...

Juillet 2008.

Google annonce qu'il a 1000 milliards d'URL de pages Web dans sa base de données.
Les pages ne sont pas toutes indexées.

Juin 2008. Nofollow pris en compte.

Les liens en nofollow ne comptent pas pour la transmission du PageRank, mais leur PR n'est pas réparti sur les liens normaux.
Donc le PR transmis aux pages liées est divisé selon le nombre de liens d'abord, ensuite il s'évapore quand aux liens en nofollow.
Source: PageRank Sculpting.

17 mai 2007. Recherche universelle

Nouvelle architecture et algorithme pour peupler les pages de résultats de contenus divers tels qu'images, vidéos, cartes, nouvelles.

19 Octobre 2005. Mise à jour Jagger (Jagger Update).

Cette mise à jour apporte plus de poids à la pertinence dans les liens. Les sites importants semblent aussi favorisés.
Le spam est combattu, surtout les techniques utilisant CSS pour camouflé du contenu pour les visiteurs.

20 mai 2005. Mise à jour Bourbon (Bourbon Update).

Une mise à jour pour pénaliser les sites avec du duplicate content, des liens sur des pages non pertinentes (sans rapport avec la page liée), liens réciproques en quantité, liens en quantité vers un site proche.
Cela a affecté de nombreux sites avec des dommages collatéraux.

2003. Mise à jour Floride (Florida Update).

Elle a bouleversé les SERPs. Un des changements essentiels et que l'algorithme fonctionne différemment selon les types de requêtes, et que les SERPs sont peuplées de résultats de types différents et complémentaires.

1998.

Mise en ligne du moteur de recherche Google.

Plus d'information

Comment Google travaille sur son algorithme! (Vidéo. Traduction française en cliquant sur cc).
L'algorithme de Google. Description de l'algorithme original.
Anatomie de Google. Schéma de l'infrastructure du moteur de recherche.