Google Search Central a lancé une nouvelle série intitulée « Crawling December » pour fournir un aperçu de la manière dont Googlebot explore et indexe les pages Web.
Google publiera chaque semaine ce mois-ci un nouvel article explorant divers aspects du processus d’exploration qui ne sont pas souvent abordés mais qui peuvent avoir un impact significatif sur l’exploration du site Web.
Le premier article de la série couvre les bases de l’exploration et met en lumière des détails essentiels mais moins connus sur la façon dont Googlebot gère les ressources des pages et gère les budgets d’exploration.
Notions de base sur le crawling
Les sites Web d’aujourd’hui sont complexes en raison de JavaScript et de CSS avancés, ce qui les rend plus difficiles à explorer que les anciennes pages HTML uniquement. Googlebot fonctionne comme un navigateur Web, mais selon un calendrier différent.
Lorsque Googlebot visite une page Web, il télécharge d’abord le code HTML de l’URL principale, qui peut contenir des liens vers JavaScript, CSS, des images et des vidéos. Ensuite, le service de rendu Web de Google (WRS) utilise Googlebot pour télécharger ces ressources afin de créer la page affichée finale.
Voici les étapes dans l’ordre :
- Téléchargement HTML initial
- Traitement par le service de rendu Web
- Récupération de ressources
- Construction de la page finale
Gestion du budget d’exploration
L’exploration de ressources supplémentaires peut réduire le budget d’exploration du site Web principal. Pour y parvenir, Google indique que « WRS essaie de mettre en cache chaque ressource (JavaScript et CSS) utilisée dans les pages qu’il affiche ».
Il est important de noter que le cache WRS dure jusqu’à 30 jours et n’est pas influencé par les règles de mise en cache HTTP définies par les développeurs.
Cette stratégie de mise en cache permet d’économiser le budget d’exploration d’un site.
Recommandations
Cet article donne aux propriétaires de sites des conseils sur la façon d’optimiser leur budget d’exploration :
- Réduire l’utilisation des ressources : utilisez moins de ressources pour créer une bonne expérience utilisateur. Cela permet d’économiser le budget d’exploration lors du rendu d’une page.
- Héberger les ressources séparément : placez les ressources sur un nom d’hôte différent, comme un CDN ou un sous-domaine. Cela peut vous aider à déplacer la charge du budget d’exploration loin de votre site principal.
- Utilisez judicieusement les paramètres de contournement du cache : soyez prudent avec les paramètres de contournement du cache. La modification des URL des ressources peut amener Google à les revérifier, même si le contenu est le même. Cela peut gaspiller votre budget d’exploration.
Google prévient également que le blocage de l’exploration des ressources avec robots.txt peut être risqué.
Si Google ne peut pas accéder à une ressource nécessaire au rendu, il peut avoir du mal à obtenir le contenu de la page et à le classer correctement.
Outils de surveillance
L’équipe de Search Central affirme que la meilleure façon de voir quelles ressources Googlebot explore est de vérifier les journaux d’accès bruts d’un site.
Vous pouvez identifier Googlebot par son adresse IP en utilisant les plages publiées dans la documentation destinée aux développeurs de Google .
Pourquoi c’est important
Cet article clarifie trois points clés qui ont un impact sur la manière dont Google trouve et traite le contenu de votre site :
- La gestion des ressources affecte directement votre budget d’exploration, donc l’hébergement de scripts et de styles sur des CDN peut contribuer à le préserver.
- Google met en cache les ressources pendant 30 jours, quels que soient vos paramètres de cache HTTP, ce qui permet de préserver votre budget d’exploration.
- Le blocage des ressources critiques dans le fichier robots.txt peut avoir des conséquences néfastes en empêchant Google de restituer correctement vos pages.
La compréhension de ces mécanismes aide les référenceurs et les développeurs à prendre de meilleures décisions concernant l’hébergement et l’accessibilité des ressources – des choix qui ont un impact direct sur la capacité de Google à explorer et indexer leurs sites.









