Le fichier robots.txt
Le fichier robots.txt, une fois placé à la racine de votre site, permet de contrôler la manière dont les robots des moteurs de recherche naviguent sur votre site.
Configuration simple
Interdire l'indexation de l'ensemble votre site
Pour que votre site n'apparaisse pas dans les moteurs de recherche, disposez le fichier robots.txt suivant à la racine du site :
User-agent: *
Disallow: /
Ces lignes se lisent comme suit :
- User-agent: *
- Cette ligne spécifie que les lignes qui suivent sont applicables à l'ensemble des moteurs de recherche. La signification de User-agent est expliquée plus loin dans cette page.
- Disallow: /
- Cette ligne interdit l'indexation des URL commençant par / par les moteurs de recherche. C'est à dire, l'indexation de tout le contenu du dossier ou est situé le fichier robots.txt.
Interdire l'indexation de certaines parties de votre site
Il est possible d'interdire l'indexation de seuls certains dossiers de votre site. Créez le fichier robots.txt suivant à la racine du site :
User-agent: *
Disallow: /private
Disallow: /intranet
Ces lignes se lisent comme suit :
- User-agent: *
- Comme dans l'exemple précédent, cette ligne spécifie que les lignes qui suivent sont applicables à l'ensemble des moteurs de recherche.
- Disallow: /private
- Cette ligne interdit l'indexation du dossier private et de son contenu.
- Disallow: /intranet
- Cette ligne interdit l'indexation du dossier intranet et de son contenu.
Configuration avancée
Le nom des robots
La règle User-agent permet de créer des règles spécifiques à certain robots. Les 3 robots les plus connus en France sont les suivants :
- Googlebot/2.1
- Il s'agit du robot de Google. Ce robot est l'un des plus complexes, mais aussi celui qui donne les résultats les plus pertinants.
- Yahoo! Slurp
- Il s'agit du robot de Yahoo!. Il est assez proche de celui de Google.
- msnbot/1.0
- Il s'agit du robot de MSN. Ce robot est l'un des plus rapide à indéxer les nouveaux sites. Personellement je le considère comme bien moins subtile que ceux de Yahoo! et Google.
Certain sites, tel que robotstxt.org, proposent une liste des robots d'indexation connus. Vous pouvez aussi connaître les robots qui s'interesse à votre site en analysant les fichiers logs de votre serveur HTTP (grâce à Webalizer par exemple).
Applications
Pour qu'un site ne soit indexé que par Google, MSN et Yahoo, utilisez le fichier robots.txt suivant :
User-agent: Googlebot/2.1
Disallow:
User-agent: Yahoo! Slurp
Disallow:
User-agent: msnbot/1.0
Disallow:
User-agent: *
Disallow: /
- User-agent: Googlebot/2.1
- Cette ligne spécifie que les règles suivantes ne s'appliqueront qu'au robot dont le nom ( ou user agent) est Googlebot/2.1. Tous les autres robots ne sont pas concernés par cette règle.
- Disallow:
- Cette ligne autorise l'indexation de l'ensemble du contenu du dossier ou se trouve le fichier robots.txt.