Martin Splitt, défenseur des développeurs chez Google, met en garde les propriétaires de sites Web contre le trafic qui semble provenir de Googlebot. De nombreuses requêtes prétendant provenir de Googlebot proviennent en réalité de scrapers tiers.
Il a partagé cela dans le dernier épisode de la série SEO Made Easy de Google, soulignant que « tous ceux qui prétendent être Googlebot ne sont pas réellement des Googlebot ».
Pourquoi est-ce important ?
Les faux robots d’exploration peuvent fausser les analyses, consommer des ressources et rendre difficile l’évaluation précise des performances de votre site.
Voici comment faire la distinction entre le trafic légitime de Googlebot et la fausse activité des robots d’exploration.
Méthodes de vérification de Googlebot
Vous pouvez distinguer le véritable trafic Googlebot des faux robots d’exploration en examinant les modèles de trafic globaux plutôt que les requêtes inhabituelles.
Le trafic réel de Googlebot a tendance à avoir une fréquence de requête, un timing et un comportement cohérents.
Si vous suspectez une fausse activité de Googlebot, Splitt vous conseille d’utiliser les outils Google suivants pour la vérifier :
Outil d’inspection d’URL (Search Console)
- La recherche d’un contenu spécifique dans le code HTML rendu confirme que Googlebot peut accéder avec succès à la page.
- Fournit une capacité de test en direct pour vérifier l’état d’accès actuel.
Test de résultats enrichis
- Agit comme une méthode de vérification alternative pour l’accès de Googlebot
- Montre comment Googlebot rend la page
- Peut être utilisé même sans accès à la Search Console
Rapport sur les statistiques d’exploration
- Affiche les données détaillées de réponse du serveur provenant spécifiquement des requêtes Googlebot vérifiées
- Aide à identifier les modèles de comportement légitime de Googlebot
Il existe une limitation clé qui mérite d’être notée : ces outils vérifient ce que le véritable Googlebot voit et fait, mais ils n’identifient pas directement les usurpateurs d’identité dans les journaux de votre serveur.
Pour vous protéger complètement contre les faux Googlebots, vous devez :
- Comparez les journaux du serveur avec les plages d’adresses IP officielles de Google
- Mettre en œuvre la vérification de la recherche DNS inversée
- Utilisez les outils ci-dessus pour établir le comportement légitime de base de Googlebot
Surveillance des réponses du serveur
Splitt a également souligné l’importance de surveiller les réponses du serveur aux demandes d’exploration, en particulier :
- Erreurs de la série 500
- Récupérer les erreurs
- Délais d’attente
- Problèmes DNS
Ces problèmes peuvent avoir un impact significatif sur l’efficacité de l’exploration et la visibilité de la recherche pour les sites Web plus volumineux hébergeant des millions de pages.
Splitt dit :
« Faites attention aux réponses que votre serveur a envoyées à Googlebot, en particulier un nombre élevé de réponses 500, des erreurs de récupération, des délais d’attente, des problèmes DNS et d’autres choses. »
Il a noté que même si certaines erreurs sont transitoires, les problèmes persistants « pourraient nécessiter une enquête plus approfondie ».
Splitt a suggéré d’utiliser l’analyse des journaux du serveur pour établir un diagnostic plus sophistiqué, bien qu’il ait reconnu que ce n’était « pas une chose basique à faire ».
Il a toutefois souligné sa valeur, notant que « consulter les journaux de votre serveur Web… est un moyen puissant de mieux comprendre ce qui se passe sur votre serveur ».
Impact potentiel
Au-delà de la sécurité, le faux trafic Googlebot peut avoir un impact sur les performances du site Web et les efforts de référencement.
Splitt a souligné que l’accessibilité du site Web dans un navigateur ne garantit pas l’accès de Googlebot, citant divers obstacles potentiels, notamment :
- Restrictions du fichier robots.txt
- Configurations du pare-feu
- Systèmes de protection contre les robots
- Problèmes de routage réseau
A retenir
Le faux trafic de Googlebot peut être ennuyeux, mais Splitt dit que vous ne devriez pas trop vous inquiéter des cas rares.
Supposons que l’activité d’un robot d’exploration fictif devienne un problème ou utilise trop de puissance de serveur. Dans ce cas, vous pouvez prendre des mesures telles que limiter le taux de requêtes, bloquer des adresses IP spécifiques ou utiliser de meilleures méthodes de détection des robots.









