Les robots des grands moteurs de recherche répondent à la norme RES .
Cette norme préconise la création d'un fichier robots.txt placé à la racine du serveur et impose aux robots de chercher en tout premier lieu si ce fichier existe.
Les robots
parcourent
le Web de liens en liens à la recherche de nouveaux sites à indexer.
Il se peut donc qu'un robot trouve une de vos pages que vous ne souhaitez pas voir apparaître sur le net.
Le fichier robots.txt comme l'élément meta name="robots" permet de donner des instructions aux robots.
Pour créer un fichier robots.txt, il vous faudra un éditeur de texte banal (le bloc-note de windows fera l'affaire).
La première commande à créer est User-agent qui permet de cibler les robots concernés.
User-agent suivi d'une astérisque (*) s'adressera à tous les robots.
User-agent peut accepter le nom d'un spider.
Exemple pour tous les robots
User-agent: *
Exemple pour le robot de Google
User-agent:GoogleBot
La seconde commande est disallow qui indique aux robots les fichiers qui lui sont interdits.
Pour interdire l'accés de votre fichier admin à tous les robots
User-agent: *
Disallow:/admin/
Il ne peut y avoir qu'un seul fichier sur votre site, il doit impérativement être positionner à la racine
Vous pouvez donner des ordres différents suivant les robots, pour cela vous les mentionnerez à la suite
User-agent: VoilaBot
Disallow:/admin/
User-agent: Archive.org
Disallow:/rep/
User-agent: HotBot
Disallow:/forum/
#exemple de commantaires dans un fichier
Nous sommes en droit de nous demander pourquoi utiliser un fichier robots.txt plutôt que l'élément meta name="robots" ?
La réponse est vraiment trés simple, le fichier robot.txt ne s'adresse qu'aux spiders, ce sont les seuls à le consulter. En analysant les Logs de ce fichier, vous serez qui vous rend souvent visite ;)