Comprendre les moteurs de recherche

Dans le vaste monde de l’Internet, un moteur de recherche est, comme son nom l’indique, un outil automatique qui permet de rechercher des ressources sur le web. Le web dispose actuellement d’une multitude de ressources (contenus, des documents, des photos, des vidéos et toutes sortes d’informations utiles). L’application permet alors de trouver rapidement les ressources spécifiques selon vos recherches, en tapant seulement votre requête. Le moteur affichera ensuite les résultats qui y concordent.

Crawler et de crawler le web

Pour ce faire, le moteur de recherche utilise un crawler qui va crawler le web. Le crawler (en anglais) aussi appelé Spider, est un robot. Il s’agit plus précisément d’un logiciel automatique qui va effectuer les recherches lancées sur le moteur, dans le web. Le robot va crawler le web, c’est-à-dire qu’il va parcourir et explorer le web, scanner au maximum les différents sites et pages, filtrer les informations, analyser puis classés les éléments selon un système d’index.

Le fait de crawler le web signifie également indexer les pages web selon leurs contenus. Le crawler se base notamment sur la pertinence et la qualité des contenus pour les indexer.

Les étapes de fonctionnement d’un moteur de recherche

La collecte

La première phase du processus de fonctionnement des crawlers consiste à parcourir sans relâche le web. Comme le robot va très vite, il télécharge au passage tous les sites, les pages HTML, les liens hypertextes et tous les liens qu’ils trouvent. Étant donné que c’est un robot, il scanne tous les sites sans exception même les pages qui ne sont pas très pertinentes. Il est toutefois possible de réguler le robot grâce à un fichier spécial, règles de robots, qui indiquent ce que les robots peuvent ou ne peuvent pas collecter.

Le stockage

Lorsque les crawlers collectent les informations, documents, ou toutes les ressources pendant la phase de collecte, ils les stockent ensuite sur des disques durs. Le stockage se fait de façon aléatoire. Les robots stockent tout, même la date de dernière visite d’un site, ce qui lui permettra par la suite de revisiter cette même page.

L’extraction

La phase d’extraction permet au robot d’avoir accès au contenu de la page. Les robots recueillent en général les textes, les mots-clés, les URL, les auteurs, les liens hypertextes. Ils ne peuvent en revanche pas visualiser les images, les vidéos, les sons et les mises en pages. À la différence d’un humain, le robot ne peut pas voir une image et peut complètement l’ignorer.

L’indexation

Dans la phase d’indexation, les robots vont classer les mots et les textes, en vue de faciliter la recherche pour les algorithmes du moteur de recherche. Pour ce faire, le crawler va identifier tous les mots sur une page et note à quelle ligne de la page et à quelle page URL apparait ces mots. Ainsi lorsqu’un humain tape par exemple le mot sur le moteur de recherche, le robot a déjà indexé toutes les pages URL où apparaissent ces mots. Et certains mots appelés « stop-words » ne sont plus indexés. Il s’agit des pronoms, des articles, etc.

Comprendre index principal et un index supplémentaire

Lorsque les robots indexent les pages URL, ils les classent en fonction de la qualité de leurs contenus. En général, tout ce qui est jugé intéressant et qui pourrait générer des visites des internautes est classé dans l’index principal ou index primaire. Ce sont les pages qui sont présentées en premier sur les résultats de recherche. En revanche, tout ce qui est susceptible de ne pas intéresser les internautes, toutes les pages URL qui présentent des contenus non pertinents seront placées dans l’index complémentaire. Ce qui génère moins de visites sur le site web.

Pour améliorer la position d’une page dans la phase d’indexation, il est possible d’opter pour des méthodes de référencement afin d’avoir une meilleure position dans l’index primaire des moteurs de recherche.

Le TF/ IDF// par exemple est une approche qui permet d’augmenter la pertinence d’un contenu. Il se base sur l’utilisation fréquente d’un mot-clé ou d’un terme qui va donner du poids au contenu, sans être trop lourd. Il est aussi possible d’utiliser la technique de Lemmatisation qui consiste à réécrire les mots pour faire simple (pas de pluriels ni de conjugaison). Pour permettre aux algorithmes de comprendre les mots, il est aussi possible de transformer les mots en vecteurs afin d’en comprendre le sens, grâce à l’approche Word2Vec.

Le classement sur les moteurs de recherche

Par points

Les algorithmes vont analyser les contenus récupérés par les crawlers. Cela leur permet de déterminer si la page est indexée et où elle sera indexée, si la page présente des contenus dupliqués, si le site est très lent à charger ou s’il est plus facile à ouvrir. (Les pages lentes consomment beaucoup de ressources aux algorithmes et n’offrent pas la meilleure expérience de navigation pour les internautes). C’est en fonction de ces points que le robot va classer une page URL.

Par pertinence

Est-ce que le contenu de la page offre des résultats pertinents qui correspondent vraiment aux attentes des internautes ? Est-ce que la sémantique utilisée dans le contenu est pertinente ? Est- ce que les champs lexicaux de la page traitent vraiment de la thématique abordée ? Par exemple, si la page parle de dentiste, les champs lexicaux doivent donc être autour des dents, denture, prothèse dentaire, etc. La richesse de la sémantique est un point fort pour bénéficier d’un contenu pertinent.

Les algorithmes peuvent également se baser sur l’historique d’un mot ou d’une page URL pour vérifier sa pertinence. Si le mot a été tapé plusieurs fois au cours de la journée ou de la semaine, cela peut dire qu’il est pertinent.

La recherche elle-même

Pour vous permettre d’effectuer une recherche, les moteurs proposent une barre de recherche où vous allez faire la requête. Ils peuvent aussi vous proposer des options pour faciliter votre recherche ou encore pour accéder rapidement aux ressources. Ils vous proposent par exemple de corriger les fautes de frappe, les orthographes, ou vous suggèrent des mots très proches de votre requête.

L’intention de recherche au cœur du futur algorithme

Une fois que vous lancez la recherche, les algorithmes du moteur de recherche vont analyser votre demande. Ils vont parcourir les pages indexées afin de vous offrir les résultats les plus pertinents. Au passage, ils éliminent tous les stops et trient les pages pour ensuite vous présenter les résultats. Le moteur de recherche Google propose par exemple les résultats, par pertinence. C’est la façon la plus classique.

L’indexation des documents

Il est également possible que le moteur de recherche indexe des documents par exemple, des fichiers Word, PDF, des fichiers Excel ou PowerPoint, etc. cela permet aux algorithmes d’avoir un vaste champ de recherche en vue de présenter tous les résultats possibles, dans la mesure où ceux-ci répondent à votre requête.

Mieux connaitre Google

Page Rank

Le PageRank est l’algorithme utilisé par Google afin de faire l’analyse des différentes pages URL. Il sert notamment à faire le classement, à noter la popularité d’un site. Le PageRank consiste à un score de 1 à 10. Plus le site a un score de PageRank élevé, plus il est pertinent pour les robots d’indexation. Pour avoir un bon score, il faut faire du netlinking.

Google Images

Google Images est une application du moteur de recherche qui vous permet d’avoir des résultats en image de votre requête. Elle vous renvoie sur des liens qui contiennent des images en rapport avec vos recherches. Ainsi, vous pouvez consulter et télécharger ces images.

Résultats publicitaires

Les résultats publicitaires affichés par Google sont les pages dont les liens sont sponsorisés. Ainsi, ils peuvent apparaitre dans les premiers résultats de recherches (SERP).

Données structurées

Les données structurées, aussi connues sous le nom de schéma de balisage, sont en quelque sorte des outils qui vont permettre aux robots de comprendre le contenu de votre site. Ainsi, ils pourraient les juger pertinents et les classer dans l’index primaire.

Décortiquons une page de résultat

La page de résultat de Google comprend :

  • La zone de pub qui contient des liens pour les publicités
  • La zone locale, qui renvoie vers les pages locales, les commerces ou entreprises locales
  • La zone actu vers la recherche universelle et affiche plusieurs ressources (actualités, livres, cartes, etc.)
  • La featured snippet (appelés extraits en vedette) à droite c’est la page web jugée par les algorithmes la plus pertinente par rapport à votre requête.
  • Les recherches associées, ils se trouvent en bas, vous proposent différentes pages URL qui peuvent avoir, un rapport, de façon directe ou indirecte aux résultats de votre recherche.

Les opérateurs de recherche

Google propose des opérateurs pour faciliter les recherches. Les opérateurs permettent d’avoir des résultats précis, clairs et surtout rapides.

Les opérateurs booléens : ce sont les plus utilisées, ils comprennent des ponctuations, des guillemets, le signe moins, deux nombres séparés par deux points, le terme AND ou encore l’astérisque, l’opérateur or ou l’opérateur (…). Ils permettent d’affiner les recherches.

Les opérateurs avancés ou spécifiques comprennent les opérateurs : site, before, after, file-type, cache, related, define, allintext, intext, allintitle, intitle, allinurl, inurl qui permet aussi de spécifier les résultats de recherche en fonction de la requête. Ceux-ci sont moins utilisés.

Les opérateurs avancés ou spécifiques comprennent les opérateurs : site, before, after, file-type, cache, related, define, allintext, intext, allintitle, intitle, allinurl, inurl qui permet aussi de spécifier les résultats de recherche en fonction de la requête. Ceux-ci sont moins utilisés.

CONVERSION : en quoi comprendre Google peut m’aider à maitriser le SEO Blackhat ?

Pour que votre page URL soit vue par des milliers d’internautes, il est important de bien le positionner sur les moteurs de recherche à travers le SEO. Cela permet de vous démarquer de votre concurrent et de vendre vos produits. En matière de SEO, il existe ce qu’on appelle le SEO Blackhat qui est une pratique juste pour optimiser les liens et les contenus de votre site internet afin de le faire grimper dans les résultats de recherche.

Mieux connaître le fonctionnement de Google vous permettra donc de savoir les astuces, les tips nécessaires pour mieux positionner votre site dans la page de recherche. Cela vous permettra aussi de déterminer quelle méthode de référencement naturel opter et dans quelle position se place votre page URL en vue d’avoir le maximum de visibilité par les internautes.

La publicité comme modèle de rémunération

Outre le référencement SEO que vous pouvez faire sur Google, la création de publicité est aussi bénéfique pour votre site. Les campagnes Adwords vous permettent d’avoir plus de visibilités sur Google. Les liens sponsorisés apparaissent notamment sur les trois premières positions sur la page de résultats Google. Pourtant, créer une publicité est facile et peut s’adapter à votre budget. Les résultats vous permettent d’avoir plus de visibilités et certainement plus de ventes sur votre site.

Vue légale d’un moteur de recherche

Un moteur de recherche doit fournir le maximum d’informations loyales, claires et nettes. Les règlementations sur les moteurs de recherche et le référencement naturel insistent à ce que les moteurs de recherche ou les opérateurs et services de plateforme de référencement informent les internautes sur les classements des résultats qu’ils opèrent, ainsi que de l’influence de ce classement. Toutefois, ce n’est pas toujours le cas, certains moteurs de recherche ne sont pas pour autant objectifs.

L’objectivité d’un moteur de recherche

Lorsque les robots d’indexation parcourent le web, il peut avoir accès à toutes les informations sur votre page URL, y compris le nom, l’adresse IP, les documents à votre identité. Il est donc possible que votre confidentialité soit compromise. C’est pourquoi de nouvelles règlementations pour la confidentialité des données ont été mises en place. Il concerne le traitement et la circulation des informations personnelles sur le web. La RGPD oblige à ce que toutes les entités qui manipulent des informations ou données personnelles doivent avoir une autorisation et doivent expliquer la légitimité de leur action. Les internautes ont le droit de retirer les données personnelles en cas d’atteinte à la vie privée.

Pour éviter de retrouver ses données personnelles sur le web, il existe le moteur de recherche français Qwant qui ne trace pas les internautes. Il ne filtre pas le contenu des recherches comme les robots d’indexation sur les autres moteurs de recherche. Les résultats de recherche sont affichés sur une seule et unique page. Les images, les pubs, les contenus, les liens sont affichés sur la même page.

Comportement des internautes sur Google

Environ 60% des internautes ne consultent que la première page des résultats affichés par Google. Si vous espérez donc être consulté par les utilisateurs, il est important de se placer sur cette page. Sur cette première page, la plupart des internautes défilent les résultats et s’arrêtent sur les contenus qu’ils trouvent intéressants. 

Les zones chaudes

Une analyse basée sur l’eye-tracking (méthode qui permet de détecter les mouvements des yeux et de ce qui les attire), a permis de comprendre que les internautes regardent les pages qui se trouvent dans les trois premières positions. Ce sont les zones chaudes où sont concentrés les regards des internautes. Ces zones forment un triangle que l’on appelle « Triangle d’or ». C’est la zone qui bénéficie de la visibilité maximale.

1 page et le reste du monde

La première page de résultats de recherche sur Google comprend les meilleurs résultats, c’est-à-dire les contenus les plus pertinents et par conséquent, ceux qui vont être les plus visibles sur le web. Les autres pages (à partir de la 2e page) comprennent ce qui est moins pertinent. Généralement, les internautes ne vont au-delà de la première page.

Taux de conversion

Si vous souhaitez donc avoir de la visibilité, il est important de se placer sur ces positions. Cette analyse a également permis de comprendre le taux de conversion suivant :

  • 100% de visibilité si vous êtes en 1er, 2e ou 3e position.
  • 85% de visibilité pour la 4e position
  • 60% de visibilité pour la 5e position
  • 50% de visibilité pour la 6e et 7e position
  • 30% de visibilité pour la 8e et 9e position
  • Et 20% de visibilité si vous êtes en 10e position

Pourquoi aller ailleurs que sur Google ?

Google n’est pas le seul moteur de recherche, bien qu’il soit le plus populaire et le plus accessible. Pourtant, il existe d’autres moteurs de recherche qui peuvent être également pertinents. L’objectivité des Googlebots (robots de Google) et des algorithmes Google a été mise en cause ces derniers temps. Pour cause, plusieurs sites ont été déclassés sans raison. En plus de cela, le système de classement par pertinence ne serait plus objectif selon les internautes. Par ailleurs, Google et ses algorithmes peuvent avoir accès à des données personnelles, ce qui peut corrompre la confidentialité de vos données.

FORMATION SEO

Rejoindre ma formation

Retour haut de page