2014
14/Avr

Moteur de recherche

Définition

Un moteur de recherche est un programme informatique qui renvoie une liste de résultats à partir d’une requête de l’utilisateur.Un moteur de recherche est constitué de deux éléments principaux :

  1. Une base de données, qui contient un ensemble d’informations sur les contenus.
  2. Un algorithme, chargé de classer les résultats de manière pertinente selon la requête utilisateur.

Application au web

Moteur de recherche

Exemple : moteur de recherche dans le domaine du web.

Dans le domaine du web, les moteurs de recherche affichent une liste de pages susceptibles de correspondre à une recherche effectuée par l’utilisateur. Tout l’enjeu d’un bon moteur de recherche est de proposer les résultats les plus pertinents possibles.

Autres utilisations

Les moteurs de recherche ne se limitent pas au domaine du web. D’une manière générale, ils sont présents dans de nombreux systèmes de base de données. Lorsque vous recherchez un livre à la bibliothèque, vous pouvez utiliser le moteur de recherche de cette dernière pour savoir si l’ouvrage est disponible, en effectuant par exemple une recherche sur son titre.

Fonctionnement des moteurs de recherche web

Le crawling

Comment un moteur de recherche web peut-il connaître l’ensemble des sites web du monde ?Il y a deux méthodes pour que Google ou Bing découvre un site web : soit les utilisateurs les en informent via un formulaire de soumission ou un outil comme Google Webmastertools, soit ils le découvrent en visitant une autre page qui fait un lien vers elle.C’est le rôle des crawlers, des petits programmes informatiques qui visitent en permanence les pages des sites web du monde entier et suivent les liens qui s’y trouvent pour découvrir de nouveaux contenus. Ce sont ces mêmes “bots” qui reviennent régulièrement sur les pages pour mettre à jour l’index.

L’indexation

Lorsque les bots visitent des pages web, ils fournissent des informations sur ces pages à une base de données. On dit alors que les pages sont dans l’index, c’est à dire qu’elles sont présentes dans la base de données du moteur de recherche.Ce dernier ne stocke pas l’ensemble de la page, mais seulement les informations nécessaires à leur classement, à leur présentation et à leur localisation (url). Ils peuvent utiliser pour cela le contenu des balises meta fournies par les sites web eux-même, mais une analyse de la page dont personne ne connaît réellement le fonctionnement détaillé est également effectuée et synthétisé sous la forme de méta-données.Notez cependant que le fait de stocker des informations sur des centaines de millions de pages à travers le monde nécessite des infrastructures gigantesques. Les machines stockant ces informations se situent dans des bâtiments appelés datacenter. Ces bâtiments sont répartis à travers le monde.

Le classement (ranking)

Une fois les contenus indexés dans une base de données, il faut les classer, et donc répondre à la question : lequel apparaîtra en premier dans la liste des résultats ? Ce classement est le résultat d’un calcul effectué par un algorithme à partir de critères qui peuvent varier d’un fournisseur à l’autre.Les premiers moteurs de recherche comptaient tout simplement les occurrences d’un mot dans une page. Ainsi, la première page affichée pour le mot clef “voiture” était la page contenant le plus de fois le mot “voiture”. Cette époque est totalement révolue, mais elle donne un exemple simple d’un algorithme de moteur de recherche.Aujourd’hui, même si personne ne connaît les détails des algorithmes, on sait que Google attribue beaucoup d’importance aux liens entrants de qualité, alors que Bing donne plus de poids à l’analyse du contenu. Le comportement de l’utilisateur est également pris en compte, avec l’analyse du taux de retour est du CTR. Le niveau de langage et la thématique d’une page et d’un site sont évalués à l’aide d’une méthode appelée analyse sémantique latente.De nombreuses sociétés de services se sont spécialisées dans l’amélioration des positions des sites web dans les pages de résultats des moteurs de recherche. Cette spécialité s’appelle le SEO (Search Engine Optimization).

La recherche

En bout de chaîne, le moteur de recherche doit afficher des résultats à partir de la recherche de l’utilisateur sur une page appelée SERP. Là encore, une opération qui peut paraître banale nécessite une puissance de calcul importante : comment afficher ces résultats quasiment instantanément, sachant que la recherche s’effectue parmi des centaines de millions de pages indexées ? En terme technologique, on parle alors de big data.

Modèle économique

Une question qui est souvent posée par les non-professionnels du web est : comment les moteurs de recherche gagnent-ils de l’argent ? Par la publicité, tout simplement ! Dans les résultats proposés, certains sont marqués comme “Liens publicitaires” ou “Liens sponsorisés“. Dans Google, ils apparaissent sur fond jaune. Chaque clic sur ces liens sont facturés à des annonceurs. Ces millions de clics quotidiens génèrent des revenus considérables.

Gabriel Dabi-Schwebel

Posté par

Ingénieur de formation, j'ai accompagné notamment pour Alcatel, TF1, SFR et Lagardère Active le lanc





Commenter

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée.

Abonnez-vous à notre excellente newsletter

Do NOT follow this link or you will be banned from the site!