Vous êtes ici : Accueil / Développement / Référencement et SEO / Le fichier robots.txt

Le fichier robots.txt

Par Pierre-Yves Landuré Dernière modification 24/08/2011 03:39

Le fichier robots.txt, une fois placé à la racine de votre site, permet de contrôler la manière dont les robots des moteurs de recherche naviguent sur votre site.

Configuration simple

Interdire l'indexation de l'ensemble votre site

Pour que votre site n'apparaisse pas dans les moteurs de recherche, disposez le fichier robots.txt suivant à la racine du site :

User-agent: *
Disallow: /

Ces lignes se lisent comme suit :

User-agent: *
Cette ligne spécifie que les lignes qui suivent sont applicables à l'ensemble des moteurs de recherche. La signification de User-agent est expliquée plus loin dans cette page.
Disallow: /
Cette ligne interdit l'indexation des URL commençant par / par les moteurs de recherche. C'est à dire, l'indexation de tout le contenu du dossier ou est situé le fichier robots.txt.

Interdire l'indexation de certaines parties de votre site

Il est possible d'interdire l'indexation de seuls certains dossiers de votre site. Créez le fichier robots.txt suivant à la racine du site :

User-agent: *
Disallow: /private
Disallow: /intranet

Ces lignes se lisent comme suit :

User-agent: *
Comme dans l'exemple précédent, cette ligne spécifie que les lignes qui suivent sont applicables à l'ensemble des moteurs de recherche.
Disallow: /private
Cette ligne interdit l'indexation du dossier private et de son contenu.
Disallow: /intranet
Cette ligne interdit l'indexation du dossier intranet et de son contenu.

Configuration avancée

Le nom des robots

La règle User-agent permet de créer des règles spécifiques à certain robots. Les 3 robots les plus connus en France sont les suivants :

Googlebot/2.1
Il s'agit du robot de Google. Ce robot est l'un des plus complexes, mais aussi celui qui donne les résultats les plus pertinants.
Yahoo! Slurp
Il s'agit du robot de Yahoo!. Il est assez proche de celui de Google.
msnbot/1.0
Il s'agit du robot de MSN. Ce robot est l'un des plus rapide à indéxer les nouveaux sites. Personellement je le considère comme bien moins subtile que ceux de Yahoo! et Google.

Certain sites, tel que robotstxt.org, proposent une liste des robots d'indexation connus. Vous pouvez aussi connaître les robots qui s'interesse à votre site en analysant les fichiers logs de votre serveur HTTP (grâce à Webalizer par exemple).

Applications

Pour qu'un site ne soit indexé que par Google, MSN et Yahoo, utilisez le fichier robots.txt suivant :

User-agent: Googlebot/2.1
Disallow:

User-agent: Yahoo! Slurp
Disallow:

User-agent: msnbot/1.0
Disallow:

User-agent: *
Disallow: /
User-agent: Googlebot/2.1
Cette ligne spécifie que les règles suivantes ne s'appliqueront qu'au robot dont le nom ( ou user agent) est Googlebot/2.1. Tous les autres robots ne sont pas concernés par cette règle.
Disallow:
Cette ligne autorise l'indexation de l'ensemble du contenu du dossier ou se trouve le fichier robots.txt.

Liens utiles