
1. Analyse des logs pour comprendre le comportement des robots
Pourquoi c’est important :
Les moteurs de recherche disposent d’un budget limité pour explorer votre site (appelé crawl budget). L’analyse des logs vous permet de :
- Identifier les pages fréquemment explorées par Googlebot.
- Repérer les pages peu ou pas explorées.
- Détecter les erreurs d’exploration (ex. : 404, 500).
Étapes de l’analyse :
- Collecter les fichiers logs :
Obtenez vos logs depuis votre serveur (Apache, Nginx, ou via une plateforme comme AWS). Ces fichiers contiennent des informations comme l’adresse IP, l’URL visitée, l’agent utilisateur (User-Agent), et la date/heure d’accès.
Exemple de log brut (Apache) :
66.249.66.1 – – [22/Dec/2024:12:34:56 +0000] « GET /produits/chaussures HTTP/1.1 » 200 1234 « – » « Googlebot »
- Utiliser un outil d’analyse :
Chargez les logs dans un outil comme Screaming Frog Log File Analyzer, Splunk, ou ELK Stack (Elasticsearch, Logstash, Kibana) pour les analyser. - Interpréter les données :
- Pages explorées fréquemment : Ces pages sont prioritaires pour les moteurs de recherche. Vérifiez si elles sont optimisées (contenu, vitesse).
- Pages ignorées ou rarement explorées : Ces pages peuvent être jugées inutiles ou difficiles d’accès. Analysez pourquoi elles ne sont pas explorées.
Exemples concrets :
Problème 1 : Googlebot explore des pages inutiles (facettes de filtres inutiles).
- Exemple :
Dans un site e-commerce, les logs montrent que Googlebot explore des URLs comme : - /produits?couleur=rouge&taille=40&tri=prix-desc
Ces pages génèrent une duplication inutile et gaspillent le budget crawl.
- Solution :
Bloquez ces pages via le fichier robots.txt : - User-agent: Googlebot
- Disallow: /produits?*
Utilisez des balises noindex sur ces facettes dynamiques si elles sont déjà indexées.
Problème 2 : Pages importantes peu explorées.
- Exemple :
Les logs révèlent que des pages clés, comme votre landing page de catégorie, ne sont explorées qu’une fois par mois. - /categories/vetements 2024-12-01 Googlebot
- Solution :
- Améliorez les liens internes pour diriger Googlebot vers ces pages.
- Ajoutez ces pages au sitemap XML et soumettez-les via Google Search Console.