Apprendre le  Référencement
::: Définitions    ::: Comment faire ?     :::  Les outils de recherche     :::  Evolution    ::: Ressources
L'optimisation avancée  

 

::: Contact

::: Page accueil

 

 

 

 
Comment fonctionne un robot ?

Qu'est ce qu'un moteur de recherche ? qu'est ce qu'un robot ?

Tout d'abord, vous devez comprendre ce qu'un moteur de recherche cherche réellement. Quand un visiteur potentiel fait une recherche dans un moteur de recherche, tel que Google ou Yahoo!, il ne recherche pas sur le Web, mais il vérifie une base de données (un index) compilée par ce moteur de recherche. Cette base de données comprend le texte et les liens des pages Web qui ont été visitées par le robot du moteur de recherche.

Comment une base de données d'un moteur de recherche est compilée ?

Les moteurs de recherche compilent ces bases de données automatiquement en utilisant des programmes logiciels "robots", appellés aussi "araignées" (spiders). Ces programmes automatiques visitent des pages sur le World Wide Web, en commençant à un certain emplacement souvent arbitraire et en suivant les liens qu'il y trouve ou qui lui sont soumis. Quand un propriétaire de site Web "soumet" une page à un moteur de recherche, dans la plupart des cas elle fournit au robot du moteur de recherche un point de départ pour leur voyage automatique. Démarrant à partir de cet emplacement, le robot suit alors des liens et "découvre" ainsi d'autres pages dans votre site Web ou visite d'autres sites auxquels votre site est joint. (c'est comme ça, d'ailleurs, que les moteurs de recherche peuvent trouver les différentes pages ou les sites entiers qui ne leur ont jamais été soumis (s'il y a un lien d'un site à un autre, les chances sont bonnes que par la suite un robot de moteur de recherche aille trouver ce lien et le suive.)

Qu'est ce qu'un robot peut lire ?

Les robots lisent le texte dans le code HTML des pages qu'il trouve sur le web. Malgré des efforts récents par Google de lire le contenu textuel de fichiers Flash, pour lequel il est encore trop tôt de dire s'il apporte des résultats probants, les moteurs de recherche n'arrivent le plus souvent pas à lire ce type de fichier.

Quoique les robots visitent les pages comme les visiteurs humains, ce qu'elles peuvent faire avec ce qu'elles "voient" est tout à fait différent. Quand un visiteur humain emploie un navigateur pour visualiser un page Web, ce visiteur peut lire le texte sur la page, regarder les images, films, jeux, écouter des bruits, soumettre de l'information dans des formulaires, suivre des hyperliens, et nombre d'autres tâches. Le visiteur humain agit vraiment avec le site. Le robot d'un moteur de recherche, lui, peut seulement faire quelques unes de ces choses. C'est cette différence qui explique l'exclusion de certaines pages (dynamiques, avec du Flash,...) de la base de données d'un moteur de recherche.

Qu'est-ce qu'un robot fait ?

Les robots de moteurs de recherche arrivent à "lire" du texte, et ils peuvent suivre des liens simples du type:

< a href="mapage.html">Ma Page</a >

ou la légère variation :

< a href="mapage.html><img src="monimage.gif"></a >

Les robots ne peuvent pas visualiser un film instantané, ils ne peuvent pas compléter un formulaire, et ils ne peuvent pas cliquer sur des boutons. Quelque soit la qualité du contenu de votre site, si un visiteur doit y accéder à partir d'un menu déroulant, un mot de passe ou un formulaire avant d'y accéder, aucun robot ne pourra visiter ces pages.


Articles au sujet des techniques et des difficultés de l'indexation des documents sur le Web :
Les techniques évoluées d’indexation dans les moteurs de recherche par Philippe Yonnet sur le Forum Webmaster Hub :
Première partie - les méthodes traditionnelles : Le problème de la fraîcheur des index.

Deuxième partie - les techniques évoluées d’indexation dans les moteurs de recherche : Les techniques de crawl sur index "ouverts".


Haut de page

Pour voir son site indexé dans un moteur de recherche il faut que son robot visite vos pages.

Deux moyens principaux pour attirer un robot sur vos pages (on parle ici pour Google):

1/ Vous soumettez votre URL dans la rubrique "ajouter votre site" du moteur de recherche, il s'agit là de la voie de soumission la plus courante, mais qui peut n'avoir comme résultat que le fait que la page soumise sera indexé dans l'index du moteur, sans pour autant qu'elle s'affiche dans les pages de résultats lorsque vous lancez des requêtes sur vos mots clés.

Voilà qu'entre alors en jeu le vaste chantier de l'optimisation des pages, des liens et des noms de pages et de dossiers du site. Mais ça n'est pas tout. Il y a ce qu'on appelle la popularité d'un site qu'un moteur de recherche peut mesurer grace à un indice que Google par exemple appelle le "Pagerank". De quoi s'agit-il ? On le verra à partir du deuxième moyen pour indexer vos pages.

2/ Vous utilisez une stratégie d'entrée indirecte en commençant par demander un lien à partir d'une page qui a un PageRank important, qui est donc déjà indexé dans le moteur de recherche et qui est mis à jour très régulièrement.

Quand un site est mis à jour régulièrement, les robots de Google visitent la page parfois même quotidiennement pour vérifier son contenu. Si on obtient sur la page modifiée tous les jours et indexé par Google quotidiennement, un lien (simple ) vers le site qu'on souhaite indexer, Google suivra le lien et visitera la page en question et le site qui va avec en quelques jours.

Haut de page

Qu'est ce que le PageRank ?

Voici un extrait de ce qu'en dit Google lui-même :

L'élément fondamental de notre logiciel est PageRank, un système de classement des pages Web mis au point par les fondateurs de Google (Larry Page et Sergey Brin) à l'université de Stanford. Et pendant que plusieurs dizaines d'ingénieurs et de spécialistes consacrent leurs journées à améliorer les différents aspects de Google, PageRank reste la pierre angulaire de nos outils de recherche.

PageRank
PageRank est un champion de la démocratie : il profite des innombrables liens du Web pour évaluer le contenu des pages Web -- et leur pertinence vis-à-vis des requêtes exprimées. Le principe de PageRank est simple : tout lien pointant de la page A à la page B est considéré comme un vote de la page A en faveur de la page B. Toutefois, Google ne limite pas son évaluation au nombre de « votes » (liens) reçus par la page ; il procède également à une analyse de la page qui contient le lien. Les liens présents dans des pages jugées importantes par Google ont plus de « poids », et contribuent ainsi à « élire » d'autres pages.

Les sites qui se distinguent par leur qualité sont affectés d'une valeur PageRank plus élevée, et Google en tient compte lors de chaque recherche. Bien entendu, les pages jugées « importantes » par Google vont vous laisser indifférent si elles ne répondent pas à vos requêtes... Aussi, pour retrouver les pages qui correspondent au mieux à votre requête, Google complète l'évaluation PageRank par des mécanismes évolués de correspondance de texte. Google ne se contente pas de compter le nombre d'occurrences d'un terme de recherche dans une page : il examine différents aspects du contenu de cette page (et du contenu des pages liées à celle-ci) afin de déterminer si elle correspond à votre requête.

Extrait de la page : http://www.google.com/intl/fr/why_use.html

Voici un article en français qui donne une idée de l'influence des structures des sites sur le PageRank de ses pages :

L’algorithme du PageRank expliqué sur le site Webmaster HUB :
http://www.webmaster-hub.com/publication/article16.html

N'hésitez pas à cliquer sur le lien "calculatrice de Page Rank" sur la deuxième page d'explication, elle vous permettra de simuler vos calculs de PageRank vous même.


 

 


Définitions  Comment faire ?  Les outils de recherche   Evolution ?  Ressources
Page accueil

Dernière modification : octobre 2008