Au cours des derniers jours, les résultats de recherche de Google ont été la cible d’une attaque de spam incontrôlée. Plusieurs domaines sont listés pour des centaines de milliers de mots clés, suggérant que cette attaque pourrait affecter des millions de termes clés.
Le spam a d’abord été repéré par Lily Ray :
If you currently Google “craigslist used auto parts,” every single result in the top 20 is spam, minus the first two results from Craigslist.
— Lily Ray 😏 (@lilyraynyc) December 20, 2023
Détournement des algorithmes de Google
Les sites de spam semblent exploiter au moins trois failles inhérentes à la façon dont Google classe les sites. Ces failles ne sont pas nouvelles, mais leur exploitation actuelle est sans précédent.
La raison principale de l’efficacité du spam réside dans le faible niveau de concurrence des requêtes de recherche ciblées, facilitant le classement.
Il y a deux types de requêtes peu fréquentes que les spammers exploitent.
Opportunité 1. Recherche locale : Ce type de recherche est activé lors de requêtes sur des services ou horaires locaux. C’est un algorithme plus tolérant, permettant à un restaurant local sans liens externes de bien se classer.
Opportunité 2. Mots-clés de longue traîne : Ce sont des requêtes rares, peu compétitives, facilitant leur classement.
Opportunité 3. Beaucoup de sites de spam sont récents, créés 24 à 48 heures avant de se classer.
Google donne aux nouveaux sites un court laps de temps de grâce, permettant un classement temporaire pendant que son algorithme les évalue.
Plusieurs domaines ont été créés récemment, profitant de cette brève fenêtre pour se classer pour des millions de requêtes, puis disparaître.
Un employé de Google explique pourquoi de nouveaux sites se classent bien :
“Pour les nouveaux sites, nous avons peu de données, nécessitant des estimations initiales. Cela peut conduire à une visibilité initiale exagérée.”
Les liens aident Google à découvrir et classer les nouveaux sites de spam.
Bill Hartzer a montré que, bien que les liens contribuent à la découverte des sites de spam, ils ne sont pas la principale cause de leur haut classement.
Selon lui, c’est en partie la faute de Google, qui privilégie trop le contenu par rapport aux liens.
Les liens de spam permettent à Googlebot de trouver et indexer les pages de spam, même brièvement.
Les pages de spam semblent exploiter deux failles dans les algorithmes de Google, discutées plus loin.
De nombreux sites se classent pour des expressions de longue traîne et locales, facilement classables.
Les spammers profitent de la facilité de se classer pour ces phrases.
Comme Amazon utilise la longue traîne pour vendre de nombreux produits uniques, les spammers utilisent cette tactique pour le classement.
La deuxième faille exploitée est celle de la recherche locale.
L’algorithme de recherche locale diffère de celui des mots-clés non locaux, facilitant le classement.
Des expressions variées, dont certaines liées à Craigslist, sont exploitables.
Il est difficile de visualiser les pages de spam via un navigateur.
En essayant d’accéder aux sites classés, une redirection vers un autre domaine se produit.
L’adresse IP de Googlebot est vérifiée, et seuls les visiteurs avec cette IP peuvent voir le contenu destiné à Googlebot.
Pour voir le code HTML, j’ai utilisé le testeur de résultats riches de Google.
Bill Hartzer a été informé de cette méthode pour extraire le code HTML.
Le testeur affiche le HTML, que j’ai ensuite nettoyé de tout JavaScript pour voir l’apparence de la page pour Google.
Un domaine s’est classé pour plus de 300 000 mots-clés.
Bill m’a envoyé une liste de mots-clés pour un site de spam, classé pour plus de 300 000 termes.
La combinaison de mots-clés de longue traîne et locaux facilite grandement leur classement.
Pourquoi cette technique de spam est-elle efficace ?
La recherche locale utilise un algorithme distinct, plus tolérant, permettant un classement facile avec les bons mots-clés.
Un site presque entièrement en latin peut se classer pour des requêtes locales spécifiques.
Google est conscient de ce problème depuis au moins le 19 décembre, selon Danny Sullivan.
Yes, I already passed that one on to the search team. Here’s a peek. And it’s being looked at. pic.twitter.com/vJH3EisnXD
— Google SearchLiaison (@searchliaison) December 19, 2023
Google pourrait renforcer ses critères de classement pour lutter contre ce spam.
La lutte de Google contre ce type de spam est à suivre attentivement.