Comment Google attribue un score à une page Web
Ce document est établi à partir d'une demande de brevet faite par Google auprès du bureau des brevets américain le 26 avril 2007 (1). Il explique en détail comment est attribué à chaque page le score qui déterminera sa position dans les résultats du moteur de recherche. Tous les critères qui déterminent le positionnement d'une page sont analysés et par conséquent les raisons qui provoquent l'effet sandbox sont dévoilées.
La date du document
La date est importante pour attribuer un score. Pour déterminer la
date d'un document, plusieurs méthodes sont possibles, ce peut être
la date de l'indexation, ou la date à laquelle un lien est placé
sur la page.
Si le nombre de liens sur une page augmente plus vite que pour une page plus
ancienne, cela donnera un meilleur score, mais cela peut aussi signaler un
spamming.
Si un document est plus récent que la moyenne des pages dans un résultat,
on peut lui attribuer un meilleur score pour améliorer sa position
afin de tenir compte de sa nouveauté.
Evolution du contenu de la page
Le score n'est pas le même selon que le contenu du document est souvent
changé ou non.
Pour déterminer les changements, on peut stocker le document entier,
ou une signature qui le représente en résumé, ou une
partie jugée essentielle u document.
Le score peut être positif ou négatif selon ces changements.
Analyse des requêtes et des clics sur les résultats
On peut prendre en compte la façon dont un document est choisi parmi
les résultats d'une requête.
Si certains termes apparaissent plus fréquemment dans les requêtes
des utilisateurs, un document associé à ces termes (les contenant
ou ayant des backlinks qui les contient) aura un meilleur score.
Si un document répond souvent à des requêtes similaires,
ce document obtiendra un meilleur score.
On tiendra compte du fait que certaines requêtes se maintiennent dans
le temps tandis que les pages qui y répondent ne sont pas les mêmes
(dans les résultats sportifs par exemple). Le score décroît
si le document ne répond plus à la requête.
Dans certains domaines, comme une FAQ, la nouveauté d'un document est
importante et améliore le score.
Cependant si les utilisateurs cliquent sur le lien d'un document plus ancien
et ignorent les plus récents, ce document aura un meilleur score.
Un document qui apparaît plus souvent dans les requêtes sur un
thème, mais moins lorsque le champ se précise, aura un score
moindre (par exemple le thème peut être un sport et il se retreint
au sujet un club sportif précis).
Si un document apparaît dans des requêtes sans rapports entre
elles, cela signale un spam et le score est réduit.
Le critère des liens sur la page
L'apparition des backlinks et leur disparition est prise en compte.
Si l'apparition de nouveaux backlinks se réduit avec le temps, cela
signifie que le document devient dépassé, alors son score sera
réduit.
Tandis qu'à l'inverse si ce nombre tend à progresser il aura
un meilleur score.
Si le contenu d'un document est modifié, mais que le lien qu'il contient
sur une autre page est maintenu, cela ajoute de la valeur à ce lien
et donc augmente le score de la page liée.
La valeur des liens augmente s'ils sont "trustés", ce qui
est le cas par exemple des sites gouvernementaux.
La vitesse d'apparition de backlinks signale un spam. On suppose que les pages
d'un type donné attirent les liens selon une vitesse donnée.
Si trop de backlinks apparaissent, cela implique un échange ou achat
de liens, ou des pages d'inscription libre (telles qu'annuaires, N.D.T.) et
cela est du spam.
Le texte des ancres
La modification du texte des ancres signifie qu'il y a eu une mise à
jour du document.
Si le texte change et diffère du libellé des ancres, cela signifie
une refonte du document, et le fait qu'il ne soit plus pertinent avec les
ancres, ce qui n'est pas désirable.
On peut à partir de là déterminer la date à laquelle
un domaine change de thématique et les liens antérieurs à
la date seront ignorés.
Si le document connaît des changements mineurs, il faut conserver le
libellé des ancres, leur ancienneté est gage de pertinence.
Le trafic sur la page
Si le trafic, autrement dit le nombre de lectures d'une page décroît
de façon significative, cela signifie que le document est dépassé.
Des comparaisons sont faites sur le temps et sur les périodes pour
estimer la décroissance du trafic.
Le trafic venant des publicités est pris en compte. Si des publicités
sont placées au sujet d'autres sites à fort trafic, alors la
page aura un meilleur score qu'avec des publicités pour des sites mineurs.
Comportement des visiteurs
Le nombre de fois ou une page est choisie dans les résultats des recherches
compte, ainsi que le temps mis pour accéder à la page.
Selon que le visiteur passera plus ou moins de temps sur une page, celle-ci
sera considérée comme pertinente ou dépassée.
Si les visiteurs passent de moins en moins de temps sur une page avec le temps,
elle sera considérée comme obsolète.
Informations sur le nom de domaine
L'hébergement est pris en compte, Intranet, Internet ou réseau
de bases de données de documents.
Les domaines récents peuvent être utilisés par des spammeurs
et considérés donc comme moins légitimes.
Les données du serveur de nom, propriétaire du domaine, contacts,
adresses du serveur de nom, sont prises en compte. Les changements fréquents
sont signes de spam. Les IP et autres données utilisées pour
ces sites volatiles sont enregistrés dans une base de données
ainsi que les documents associés.
Le serveur de nom est mieux considéré s'il réfère
à des domaines différents pour des registrars différents.
Il est mauvais s'il héberge des sites porno, des sites de spams, des
domaines contenant des mots commerciaux.
Le score du document dépend du domaine et de son hébergement.
Les rangs précédents
Les précédents rangs sont pris en compte. Le nombre de positions
qu'un document gagne en un temps donné modifie son score. Cependant
si un rang reste haut alors que les positions tendent à changer avec
le temps sur un sujet, cela dénote un sujet commercial et une probabilité
de spam plus forte.
Si le nombre de sélections pour une page tend à augmenter, ou
si les sélections sont plus fréquentes, la page aura un meilleur
score.
Le moteur prend garde aux pics dans le rang des documents, synonyme d'actualité
ou de spam. Pour faire la différence, différents facteurs sont
pris en compte. Un document évoqué dans des news par exemple,
n'est pas un spam.
A l'inverse, une chute soudaine du rang d'un document indique qu'il est dépassé.
En conclusion, l'évolution du rang d'un document influe sur son score
et son rang futur.
Bookmarks
Les bookmarks et autre données de ce type influent sur le score d'un
document. Le fait d'être ajouté ou supprimé de ce type
de liste est pris en compte. Le fait que l'on accède souvent au document
dans la liste influe aussi.
La mémoire cache, les répertoires temporaires sont pris en compte,
ainsi que les cookies. Tout cela indique si un document est consulté
ou si on s'en désintéresse.
Mots uniques et ancres
La fréquence d'un mot unique ou d'une phrase dans les ancres est prise
en compte en relation avec les liens qui pointent dessus.
Si des ancres sont suspectes, notamment parcequ'il y a beaucoup de libellés
indentiques dans des documents différents, cela aura un impact sur
le score de ces documents et ceux qui ont un lien dessus.
Liens non pertinents
Les liens non pertinents entrants ou sortants sont un indicateur de spam et font baisser le score de la page.
Sujet du document
Il est utilisé pour déterminer son score.
Le thème d'un document est déterminé à partir
de mots rares, de l'URL, du sommaire, du contenu, etc.
Si le thème d'un ensemble de documents change, cela dénote un
propriétaire ou une thématique différente et toute l'information
sur le document devient périmée. Ou cela signifie que le document
est utilisé pour faire du spam.
(1) Source US Patent and Trademark Office.
Un brevet a été déposé également pour calculer le FreshRank, une note sur la fraîcheur des pages.