Le fichier robots.txt qui doit être
stocké à la racine de votre site sert à
signaler aux moteurs de recherche quels sont les fichiers
et dossiers que vous ne souhaitez pas qu’il indexe,
inversement ceux que vous n'aurez pas mentionné
seront indexés.
Pour qu’un dossier sensible ne soit pas visité
par les robots des moteurs de recherche (de plus en plus
puissants), écrivez à son attention un petit
fichier texte que vous placerez à
la racine de votre site (www.monsite.com/robots.txt) .
Nommé impérativement robots.txt,
il s'écrit de la façon suivante :
User-agent :*
Disallow :/nom_du_fichier_sensible.html
Disallow :/dossier_sensible/
Ou encore :
User-agent: *
Disallow: /cgi-bin/
Disallow: /dossier1/
Disallow: /dossier2/
Disallow: /fichier1.html
Disallow: /dossier1/fichier1.html
Dans cet exemple :
- Il n'y a qu'un seul fichier robots.txt, toujours écrit
en minuscules.
- User-agent: * signifie que l'accès est accordé
à tous les moteurs (tous les spiders), quels qu'ils
soient.
- L'accès est refusé au robot dans les répertoires
/cgi-bin/, /dossier1/ et /dossier2/, et aux fichiers /fichier1.html
et /dossier1/fichier1.html .
- Chaque répertoire à exclure de l'aspiration
du spider doit faire l'objet d'une ligne.
- La commande Disallow: permet d'indiquer que "tout
ce qui commence par" l'expression indiquée
ne doit pas être indexé.
Ainsi :
Disallow: /fichier entraînera que les fichiers suivants
ne seront pas indexés :
http://www.monsite.com/fichier/index.html, ou encore :
http://www.monsite.com/fichier.html
Disallow: /fichier/ n'indexera pas http://www.monsite.com/fichier/index.html,
mais ne s'appliquera pas à l'adresse http://www.monsite.com/fichier.html
Ce qu'il faut savoir également sur le protocol
d'exclusion des robots :
- Le fichier robots.txt ne doit pas contenir de lignes
vierges (blanches).
- Il pèse moins de 1 Ko
- Un retour chariot est nécessaire en fin de ligne
de commande.
- L'étoile (*) n'est acceptée que dans
le champ User-agent.
- Il n'existe pas de champ correspondant à la
permission, de type Allow:.
- Le champ de description (User-agent, Disallow) peut
être indifféremment saisi en minuscules ou
en majuscules.
- Si par contre vous désirez interdire l'accès
à tout votre site, votre fichier /robots.txt devra
ressembler à ceci :
User-agent: *
Disallow: /
- Le cas des pages de cadres (frames) : il est conseillé
de mettre vos pages de cadres (frameset) dans un répertoire
/cadres/ qui sera visité par les moteurs et mettez
les pages intérieures des cadres (pages qui composent
la frameset) dans un autre répertoire /pages/ par
exemple.
Le fichier robots.txt sera alors :
# robots.txt pour le site http://www.monsite.com
User-agent: *
Disallow: /pages/
- Pour laisser accès à tous les robots,
soit vous n'insérez pas de fichier robots.txt,
soit vous en insérez un vide, soit vous indiquez
:
User-agent: *
Disallow:
Pour en savoir plus : http://www.robotstxt.org/
(en Anglais). Vous y trouverez un descriptif des différentes
techniques, une rubrique FAQ, une liste des robots les plus
connus, un groupe de discussion...
Cette technique du robots.txt n'est pas la seule
, vous pouvez obtenir le même résultat en utilisant
la balise méta suivante :
<metaname="robots" content="noindex,
follow"> n'indexe pas la page, suit les liens
<metaname="robots" content="noindex, nofollow">
n'indexe pas la page, ne suit pas les liens
<metaname="robots" content="index, follow">
indexe la page, suit les liens
<metaname="robots" content="index, nofollow">
indexe la page, ne suit pas les liens.
Inconvénient de cette technique : il faut le faire
sur toutes les pages... ce qui est fastidieux pour les gros
sites.
Module suivant : Optimisation
- Le référencement multilangues
Haut de
page