Referencement

Google : hébergez vos ressources sur différents noms d’hôte pour économiser du budget crawl

4 décembre 2024
19 h 30 min
Google : hébergez vos ressources sur différents noms d’hôte pour économiser du budget crawl

Google Search Central a lancé une nouvelle série intitulée « Crawling December » pour fournir un aperçu de la manière dont Googlebot explore et indexe les pages Web.

Google publiera chaque semaine ce mois-ci un nouvel article explorant divers aspects du processus d’exploration qui ne sont pas souvent abordés mais qui peuvent avoir un impact significatif sur l’exploration du site Web.

Le premier article de la série couvre les bases de l’exploration et met en lumière des détails essentiels mais moins connus sur la façon dont Googlebot gère les ressources des pages et gère les budgets d’exploration.

Notions de base sur le crawling

Les sites Web d’aujourd’hui sont complexes en raison de JavaScript et de CSS avancés, ce qui les rend plus difficiles à explorer que les anciennes pages HTML uniquement. Googlebot fonctionne comme un navigateur Web, mais selon un calendrier différent.

Lorsque Googlebot visite une page Web, il télécharge d’abord le code HTML de l’URL principale, qui peut contenir des liens vers JavaScript, CSS, des images et des vidéos. Ensuite, le service de rendu Web de Google (WRS) utilise Googlebot pour télécharger ces ressources afin de créer la page affichée finale.

Lire aussi

GEO : pourquoi être premier sur Google ne suffit plus face aux IA

GEO : pourquoi être premier sur Google ne suffit plus face aux IA

Voici les étapes dans l’ordre :

  1. Téléchargement HTML initial
  2. Traitement par le service de rendu Web
  3. Récupération de ressources
  4. Construction de la page finale

Gestion du budget d’exploration

L’exploration de ressources supplémentaires peut réduire le budget d’exploration du site Web principal. Pour y parvenir, Google indique que « WRS essaie de mettre en cache chaque ressource (JavaScript et CSS) utilisée dans les pages qu’il affiche ».

Il est important de noter que le cache WRS dure jusqu’à 30 jours et n’est pas influencé par les règles de mise en cache HTTP définies par les développeurs.

Cette stratégie de mise en cache permet d’économiser le budget d’exploration d’un site.

Recommandations

Cet article donne aux propriétaires de sites des conseils sur la façon d’optimiser leur budget d’exploration :

  1. Réduire l’utilisation des ressources : utilisez moins de ressources pour créer une bonne expérience utilisateur. Cela permet d’économiser le budget d’exploration lors du rendu d’une page.
  2. Héberger les ressources séparément : placez les ressources sur un nom d’hôte différent, comme un CDN ou un sous-domaine. Cela peut vous aider à déplacer la charge du budget d’exploration loin de votre site principal.
  3. Utilisez judicieusement les paramètres de contournement du cache : soyez prudent avec les paramètres de contournement du cache. La modification des URL des ressources peut amener Google à les revérifier, même si le contenu est le même. Cela peut gaspiller votre budget d’exploration.

Google prévient également que le blocage de l’exploration des ressources avec robots.txt peut être risqué.

Si Google ne peut pas accéder à une ressource nécessaire au rendu, il peut avoir du mal à obtenir le contenu de la page et à le classer correctement.

Outils de surveillance

L’équipe de Search Central affirme que la meilleure façon de voir quelles ressources Googlebot explore est de vérifier les journaux d’accès bruts d’un site.

Vous pouvez identifier Googlebot par son adresse IP en utilisant les plages publiées dans la documentation destinée aux développeurs de Google .

Pourquoi c’est important

Cet article clarifie trois points clés qui ont un impact sur la manière dont Google trouve et traite le contenu de votre site :

  • La gestion des ressources affecte directement votre budget d’exploration, donc l’hébergement de scripts et de styles sur des CDN peut contribuer à le préserver.
  • Google met en cache les ressources pendant 30 jours, quels que soient vos paramètres de cache HTTP, ce qui permet de préserver votre budget d’exploration.
  • Le blocage des ressources critiques dans le fichier robots.txt peut avoir des conséquences néfastes en empêchant Google de restituer correctement vos pages.

La compréhension de ces mécanismes aide les référenceurs et les développeurs à prendre de meilleures décisions concernant l’hébergement et l’accessibilité des ressources – des choix qui ont un impact direct sur la capacité de Google à explorer et indexer leurs sites.

Source : https://www.searchenginejournal.com/google-host-resources-on-different-hostname-to-save-crawl-budget/534317/

Tu veux faire tripler tes leads et tes conversions ? Je t’offre un pack PDF ultra-actionnable (gratuit) :

✔ Checklist prête à l’emploi
✔ Prompts IA à copier-coller
✔ Outils gratuits pour générer des leads sans pub

Avatar de l'auteur

À propos de Gabriel

Spécialisé dans le référencement naturel SEO et l'acquisition de trafic depuis 2008. Je vous accompagne dans la création de site internet et le développement de votre visibilité (SEO, SEA) pour augmenter votre chiffre d'affaires sur internet.

Sur le même sujet

GEO : pourquoi être premier sur Google ne suffit plus face aux IA

GEO : pourquoi être premier sur Google ne suffit plus face aux IA