Suivez-nous sur Google News pour ne rien rater de l'actu SEO
Ajouter Simplewebsite.fr à Google News

L’indexation, un processus par lequel Google et autres moteurs de recherche rassemblent et conservent des informations sur les sites web, se réalise grâce aux crawlers. Ces derniers scrutent constamment le web pour déceler de nouvelles pages ou mises à jour de contenus à intégrer dans leurs bases de données.

Implication

L’écriture, la conception et la structuration d’un site web influencent directement son indexation. Selon la technologie employée pour composer et afficher le contenu, les robots d’indexation y accèderont plus ou moins aisément.

Voici des conseils techniques pour améliorer le code global du site, y compris les éléments cruciaux dans l’en-tête, le link building, la gestion SEO d’Ajax, la gestion du sitemap et les paginations.

Doctype

Il est conseillé d’utiliser le standard HTML5 pour tous les documents HTML.

<!doctype html>

Charset :

Vérifiez que les pages web utilisent correctement l’encodage UTF-8.

<meta charset="utf-8">

Canonical

Incluez des balises canoniques dans la section <head> de chaque page HTML.

<head>

<link rel="canonical" href="l'URL">

</head>

<body>

<!– Tout autre contenu –>

</body>

</html>

Href lang 

Ajoutez des balises href lang pour chaque version linguistique disponible dans la section <head> des pages HTML.

<!doctype html>

<html lang="fr">

<head>

<meta charset="utf-8">

<title>Titre de la page</title>

<link rel="canonical" href="l'URL">

<link rel="alternate" hreflang="en" href="<https://url> en anglais">

<link rel="alternate" hreflang="fr" href="<https://url> en français">

</head>

<body>

<!– Tout autre contenu –>

</body>

</html>

Externaliser le CSS et Js

Assurez-vous que les fichiers CSS et JS volumineux sont externalisés (Article ▶here) et inclus dans les balises <head> et </head>.

Exemple js : <script src="/js/example.js"></script>

Exemple css : <link rel="stylesheet" href="/css/example.css">

Méta titres et descriptions 

Doivent figurer sur toutes les pages HTML.

<!doctype html>

<html lang="fr">

<head>

<meta name="description" content="Contenu de la balise description">

<Title>Contenu de la balise title</Title>

</head>

<body>

<!– Tout autre contenu –>

</body>

</html>

URLs

Nous conseillons à nos clients de créer une page 404 personnalisée :

  • La page 404 doit s’intégrer à l’UX du site et proposer des liens vers les principales catégories et la page d’accueil.
  • Elle doit signaler que l’URL demandée n’existe plus.
  • Si un outil de recherche est disponible, incluez une fonction de recherche.

Gestion des liens

Uncrawlable Links

Pour le SEO, il est judicieux d’utiliser des liens non extractibles quand la destination est essentielle pour les utilisateurs et les objectifs UX. Ils servent, par exemple, dans la gestion des versions linguistiques et certains menus déroulants.

Exemple <span class="language-switcher__link">fr</span>

Exemple <span class="btn__text">Contactez-nous</span>

Liens texte et image:

Écriture d’un lien textuel :

<a href="https://URL">Texte ici</a>

L’ancre d’une image utilise l’attribut alt=.

Pour une image, l’attribut alt ne doit pas être vide.

<a href="https://URL">Texte ici</a>

<img alt="description de l'image" src="/templates/images/image1.jpg">

</a>

Les liens nofollow

Introduits en 2005, ils étaient initialement ignorés par les robots d’indexation.

Il y avait une distinction claire entre liens “follow” et “nofollow”, servant de directive pour Google :

  • Si follow/dofollow > le robot suit le lien
  • Si nofollow > le robot ne suit pas le lien.

<a href="https://URL" rel="nofollow">Texte du lien</a>

Depuis 2020, ce ne sont plus des directives mais des indications. Google peut suivre les liens en nofollow s’ils jugent le lien pertinent, sans fournir de détails supplémentaires.

Raisons d’utiliser les liens en nofollow 

Contenu généré par les utilisateurs (UGC) : comme les commentaires

Recommandations de Google

<a href="https://URL" rel="ugc">Texte du lien</a>

Utilisation de nofollow pour ne pas transmettre une partie de notre autorité PageRank à des sites externes.

Règles relatives aux liens internes

Les liens internes sont cruciaux pour les robots et les utilisateurs. Ils facilitent l’exploration et l’indexation correcte du site par les robots ; pour les utilisateurs, ils permettent une navigation aisée.

L’objectif est de maximiser la durée et la fluidité de la session utilisateur.

Les liens internes aident aussi à diffuser le PageRank. Ils permettent au “jus seo” de circuler à travers le site.

Ils doivent être structurés intelligemment, en tenant compte de la structure du site. Comme dit Laurent Bourelly (SEO Rockstar, fondateur du concept de cocon sémantique) : “Qui est lié à quoi et pourquoi ?”

Règles pour les pages institutionnelles

Ces pages incluent :

  • Mentions légales
  • CGV, CGU
  • Pages /cart /panier
  • Pages d’identification

Pour ces pages à impact commercial indirect, il n’est pas conseillé d’utiliser les attributs nofollow.

Il est préférable de limiter les liens vers ces pages avec un lien unique :

  • depuis l’URL
  • depuis le plan du site

Sitemap.xml

Qu’est-ce qu’un sitemap XML ?

C’est une liste d’URLs au format xml avec diverses informations :

  • URL
  • fréquence de mise à jour
  • priorité d’indexation
  • URL des images

Ces informations aident les moteurs de recherche à explorer plus efficacement le site web.

🚨 Conditions :

  • Vérifier que toutes les URL sont explorables : PAS DE 404, 410, 503
  • S’assurer qu’il y a des pages “Noindex”. La page doit être indexable
  • Pas de pages bloquées par le fichier robots.txt
  • Pas de pages redirigées : 301, 302. Toutes les pages doivent avoir un code 200
  • Toutes les pages doivent être en “self canonical”. L’URL dans l’élément canonique doit être celle de la page elle-même.

<link rel="canonical" href="https://URL de la page"/>

Le fichier peut contenir jusqu’à 50 000 URL. Taille maximale : 50 Mo.

Soumission du fichier 

Pour une accessibilité aisée par les moteurs de recherche, soumettez votre sitemap.xml à Google Search Console et Bing Webmaster tools.
Indiquez l’URL de votre sitemap dans le dossier racine de votre site web, par exemple : https://www.domain.com/sitemap.xml

Robots.txt

Une vidéo informative de 10 minutes sur ce fichier :

Robots.txt et SEO. Vidéo SEO Abondance

Qu’est-ce qu’un fichier robots.txt ?

Ce document sert à interdire l’accès à certaines parties de votre site aux robots d’indexation.

Il se trouve à la racine du site web :

  • User-agent: *
  • Disallow: /dossier/
  • Disallow: /user/
  • Disallow: /index/
  • Disallow: /connexion/
  • Disallow: /*.pdf$
  • Disallow: /search/
  • Disallow: /user/register/
  • Disallow: /user/password/
  • Disallow: /user/login/
  • Disallow: /user/logout/
  • Disallow: /admin/
  • Sitemap: <https://www.inter-invest.fr/sitemap.xml>;
  • Disallow : / indique une interdiction de crawler
  • Par exemple, toutes les pages avec /connexion/ dans l’exemple ci-dessus sont interdites d’indexation par les crawlers.
  • Disallow : /*.pdf$ signifie que toutes les URL se terminant par .pdf sont interdites.

Soumission du fichier

Testez votre fichier robots.txt avec Google Search Console.

Les URL bloquées par robots.txt ne signifient pas que vos pages ne seront pas indexées sur Google. Elles empêchent simplement le crawl, pas l’indexation.

Dans la même catégorie :

Rejoignez-nous

Ne ratez aucune actu

Recevez votre dose journalière de SEO.