Apprendre le  Référencement
::: Définitions    ::: Comment faire ?     :::  Les outils de recherche     :::  Evolution    ::: Ressources
Comment faire ?     

 

::: Contact

::: Page accueil

 

 

 

 
Optimisation : Le fichier robot.txt

Le fichier robots.txt qui doit être stocké à la racine de votre site sert à signaler aux moteurs de recherche quels sont les fichiers et dossiers que vous ne souhaitez pas qu’il indexe, inversement ceux que vous n'aurez pas mentionné seront indexés.
Pour qu’un dossier sensible ne soit pas visité par les robots des moteurs de recherche (de plus en plus puissants), écrivez à son attention un petit fichier texte que vous placerez à la racine de votre site (www.monsite.com/robots.txt) .

Nommé impérativement robots.txt, il s'écrit de la façon suivante :

User-agent :*
Disallow :/nom_du_fichier_sensible.html
Disallow :/dossier_sensible/

Ou encore :

User-agent: *
Disallow: /cgi-bin/
Disallow: /dossier1/
Disallow: /dossier2/
Disallow: /fichier1.html
Disallow: /dossier1/fichier1.html

Dans cet exemple :

  • Il n'y a qu'un seul fichier robots.txt, toujours écrit en minuscules.
  • User-agent: * signifie que l'accès est accordé à tous les moteurs (tous les spiders), quels qu'ils soient.
  • L'accès est refusé au robot dans les répertoires /cgi-bin/, /dossier1/ et /dossier2/, et aux fichiers /fichier1.html et /dossier1/fichier1.html .
  • Chaque répertoire à exclure de l'aspiration du spider doit faire l'objet d'une ligne.
  • La commande Disallow: permet d'indiquer que "tout ce qui commence par" l'expression indiquée ne doit pas être indexé.
    Ainsi :
    Disallow: /fichier entraînera que les fichiers suivants ne seront pas indexés :
    http://www.monsite.com/fichier/index.html, ou encore :
    http://www.monsite.com/fichier.html

    Disallow: /fichier/ n'indexera pas http://www.monsite.com/fichier/index.html, mais ne s'appliquera pas à l'adresse http://www.monsite.com/fichier.html

Ce qu'il faut savoir également sur le protocol d'exclusion des robots :

  • Le fichier robots.txt ne doit pas contenir de lignes vierges (blanches).
  • Il pèse moins de 1 Ko
  • Un retour chariot est nécessaire en fin de ligne de commande.
  • L'étoile (*) n'est acceptée que dans le champ User-agent.
  • Il n'existe pas de champ correspondant à la permission, de type Allow:.
  • Le champ de description (User-agent, Disallow) peut être indifféremment saisi en minuscules ou en majuscules.
  • Si par contre vous désirez interdire l'accès à tout votre site, votre fichier /robots.txt devra ressembler à ceci :

    User-agent: *
    Disallow: /

  • Le cas des pages de cadres (frames) : il est conseillé de mettre vos pages de cadres (frameset) dans un répertoire /cadres/ qui sera visité par les moteurs et mettez les pages intérieures des cadres (pages qui composent la frameset) dans un autre répertoire /pages/ par exemple.

    Le fichier robots.txt sera alors :
    # robots.txt pour le site http://www.monsite.com

    User-agent: *
    Disallow: /pages/

  • Pour laisser accès à tous les robots, soit vous n'insérez pas de fichier robots.txt, soit vous en insérez un vide, soit vous indiquez :

    User-agent: *
    Disallow:

Pour en savoir plus : http://www.robotstxt.org/ (en Anglais). Vous y trouverez un descriptif des différentes techniques, une rubrique FAQ, une liste des robots les plus connus, un groupe de discussion...

Cette technique du robots.txt n'est pas la seule , vous pouvez obtenir le même résultat en utilisant la balise méta suivante :

<metaname="robots" content="noindex, follow"> n'indexe pas la page, suit les liens
<metaname="robots" content="noindex, nofollow"> n'indexe pas la page, ne suit pas les liens
<metaname="robots" content="index, follow"> indexe la page, suit les liens
<metaname="robots" content="index, nofollow"> indexe la page, ne suit pas les liens.

Inconvénient de cette technique : il faut le faire sur toutes les pages... ce qui est fastidieux pour les gros sites.

Module suivant : Optimisation - Le référencement multilangues

Haut de page

 

 

 


Définitions  Comment faire ?  Les outils de recherche   Evolution ?  Ressources
Page accueil

Dernière modification : octobre 2008