2014

31/Oct

Gabriel Dabi-Schwebel 2 min

Robot d’indexation : crawler, bot et spider

A quoi servent les robots d’indexation ?

Dans le cadre du SEO, comment les moteurs de recherches font-ils pour indexer les pages des sites web ? Comme les êtres humains : ils se rendent sur les pages, les lisent, et suivent les liens hypertextes, ce qui leur permet, de fil en aiguille, de visiter des milliers, des millions puis des milliards de pages web. La différence avec nous ? Ils ont une mémoire infinie, et lisent un texte de 2000 mots en quelques millisecondes. Leur « lecture » consiste à collecter les informations des pages sous forme de métadonnées, puis à les stocker dans une base de données. C’est cette base de données qui sera ensuite consultée pour chaque recherche effectuée par un internaute sur un moteur.

Crawler, crawling, spider et bot

La mission qui consiste à visiter sans relâche et de manière automatisée les pages du web s’appelle le crawling. Elle est réalisée par un crawler, appelé aussi spider ou bot. Tous ces termes désignent en fait le même logiciel : le robot d’indexation.

Comprendre les bots, c’est comprendre le SEO

On comprend mieux pourquoi la structure d’une page html et les liens ont une importance déterminante en SEO. Mettre les bonnes informations au bon endroit, par exemple le titre d’une page dans une balise <title>, ou un résumé dans le <meta> description, permet aux crawlers de remonter facilement les données dans leur base. S’assurer que les nouvelles pages sont systématiquement liées à plusieurs autres pages déjà indexées permettra aux bots de les découvrir plus rapidement lors de leur passage, et donc de faire indexer ces pages dans les moteurs de recherche.

Fréquence de passage des crawlers

En fonction de la fréquence de mise à jour d’un site web, les robots d’indexation vont venir plus ou moins régulièrement sur les pages pour remettre à jour l’index du moteur de recherche pour lequel ils travaillent.

Comment savoir si un robot a visité un site ?

La plupart des outils de web analytics filtrent le trafic issu des robots. Il est cependant possible de savoir quelles pages visitent les bots et leur fréquence de passage en consultant, par exemple, les logs serveurs, ou en utilisant un outil statistique en mode non filtré. Les spiders « honnêtes » indiquent généralement leur identité sous la forme d’un user-agent. Pour Bing, il s’agira par exemple de :"Mozilla/5.0 (compatible; bingbot/2.0;+https://www.bing.com/bingbot.htm"

Spambot : le côté obscur des crawler

Tous les bots ne sont pas utiles et bienveillants. Les spambots visitent les sites pour collecter des adresses e-mails se trouvant sur les pages web ou faire du scraping de contenus automatisé. Ces derniers laissent rarement leur carte de visite, comme ici :

Exemple de fichier log contenant la trace d’un spambot.

Pour aller plus loin, nous vous invitons à découvrir notre agence SEO et à télécharger notre livre blanc « Placez le Search Engine Marketing au cœur de votre Stratégie d’Acquisition »

Posté par Gabriel Dabi-Schwebel

Entrepreneur et ingénieur de formation, j'aide les dirigeants de PME/ETI à accélérer leur croissa lire la suite...

Contact SEO :

Gabriel Dabi-Schwebel

gds@1min30.com
06 73 55 17 36

« Flash (site web)

Site portail (ou portail web) »

Robot d’indexation : crawler, bot et spider

A quoi servent les robots d’indexation ?

Crawler, crawling, spider et bot

Comprendre les bots, c’est comprendre le SEO

Fréquence de passage des crawlers

Comment savoir si un robot a visité un site ?

Spambot : le côté obscur des crawler

Posté par Gabriel Dabi-Schwebel

Contact SEO :

Gabriel Dabi-Schwebel

Commenter

Laisser un commentaire Annuler la réponse.

Dépassez les objectifs de votre investissement HubSpot !
Rejoignez notre communauté et donnez-vous les moyens de réussir

Robot d’indexation : crawler, bot et spider

A quoi servent les robots d’indexation ?

Crawler, crawling, spider et bot

Comprendre les bots, c’est comprendre le SEO

Fréquence de passage des crawlers

Comment savoir si un robot a visité un site ?

Spambot : le côté obscur des crawler

Posté par Gabriel Dabi-Schwebel

Contact SEO :

Gabriel Dabi-Schwebel

Partagez l'article

Suivre l'agence 1min30

Commenter

Laisser un commentaire Annuler la réponse.