********************************************************************** RESOODOC - WEB / MOTEUR DE RECHERCHE / ROBOTS.TXT v.2004-12-02 ---------------------------------------------------------------------- http://www.resoo.org/resoodoc/txt/fichier_robots.txt ---------------------------------------------------------------------- robots.txt : Un fichier à placer à la racine de votre site, indiquant aux moteurs de recherche les zones du site à exclure de leur exploration. ---------------------------------------------------------------------- 1 - Présentation : ------------------ Sur cette page on parle de robots, de moteurs de recherche, d'agent, d'indexation, ... pour une définition de ces termes, reportez-vous à la rubrique 5 (F.A.Q.) Lorsqu'un moteur de recherche visite un site pour en indexer les pages, le premier document qu'il devrait prendre en considération est le fichier: /robots.txt Ce fichier est supposé se trouver à la racine du site. Le robot du moteur de recherche est supposé lire dans ce fichier des informations sur les zones du site à exclure de sa visite. La présence d'un fichier "robots.txt" vide est considérée de la même façon que son absence totale : le moteur de recherche considèrera qu'il est le bienvenu sur l'intégralité du site. ---------------------------------------------------------------------- 2 - Syntaxe du fichier robots.txt : ----------------------------------- Il s'agit d'un fichier texte dont seront ignorées : - les lignes vides - les lignes débutant par une "#" (considérées comme commentaire) - les lignes ne correspondant pas à la syntaxe spécifique Seront pris en considération les groupes de lignes separés entre eux par des lignes vides et se présentant sous la forme: User-agent: un_nom Disallow : un_répertoire_ou_un_fichier un_nom = le nom caractéristique du robot, le caractère "*" peut être utilisé pour signifier "tous". un_répertoire_ou_un_fichier = l'adresse absolue sur le site du répertoire (ou du fichier) que le robot est "invité" à NE PAS visiter ou parcourir. plusieurs ligne "Disallow" peuvent être utilisés pour chaque User-agent. ---------------------------------------------------------------------- 3 - Exemples complets de fichiers robots.txt : ---------------------------------------------- Pour autoriser tout le site à tous les robots (identique à créer un fichier robots.txt vide) : # exemple 1 User-agent: * Disallow: Pour exclure tout le site pour tous les robots : # exemple 2 User-agent: * Disallow: / Pour exclure une zone spécifique (ici deux répertoires et un fichier) pour tous les robots : # exemple 3 User-agent: * Disallow: /cgi-bin/ Disallow: /admin/ Disallow: /contact.html Pour seulement exclure un robot en particulier (ici InfoSeek) : # exemple 4 User-agent: infoseeksidewinder Disallow: / Pour tout autoriser pour un robot (ici Google), tout autoriser sauf le répertoire /cgi-bin pour un autre (ici InfoSeek), et exclure tous les autres robots : # exemple 5 User-agent: googlebot Disallow: User-agent: infoseeksidewinder Disallow: /cgi-bin/ User-agent: * Disallow: / note : dans l'exemple 3, il est utilisé une demande "Disallow" portant sur un fichier. Ce n'est pas forcément une bonne idée dans la mesure où le fichier contenant cette demande (robots.txt) est librement lisible, et fournit donc le nom du fichier "sensible" (ce qui n'est pas toujours souhaitable). Il vaut toujours mieux placer ces fichiers dans un répertoire dont le serveur http n'autorise pas l'indexage, puis spécifier ce répertoire en "disallow" dans le fichier robots.txt. ---------------------------------------------------------------------- 4 - Conseils: ------------- La demande d'exclusion formulée dans le fichier robots.txt n'a rien de contraignant. Les robots bien élevés la respecteront, pas les autres. Si vous avez un fichiers contenant des informations confidentielles, un bon conseil serait de ne pas le mettre sur un site web du tout. Le nom de fichier robots.txt doit être en minuscule. Le fichier doit se trouver à la racine du site, par exemple pour le site resoo.com, l'adresse du fichier ne peut être que: - http://www.resoo.com/robots.txt Pour les répertoires utilisateurs, un fichiers tel que : - http://www.resoo.com/resoosite/robots.txt [->incorrect!] ne sera pas pris en compte. Les exclusions concernant les répertoires utilisateurs doivent être: - soit spécifiées dans le fichier unique robots.txt à la racine du site, - soit signifiées aux robots à l'aide du META TAG "Robots" des fichiers html, par exemple: pour plus d'informations sur les META TAG, reportez vous à la fiche : - http://www.resoo.com/resoodoc/txt/meta-balises.txt ---------------------------------------------------------------------- 5 - F.A.Q. : ------------ Moteur de recherche : site dédié à la recherche d'information sur internet. De façon générale la recherche s'effectue par une interrogation de la base de données propre à chaque moteur. Les moteurs de recherche peuvent avoir un thème ou un mode de questionnement qui les caractérise, et donc une manière différente de référencer les sites qu'ils proposent comme réponse. (pour info: http://cui.unige.ch/meta-index.html) Indexation : pour intégrer un site à sa base de données, un moteur de recherche fait visiter le site en question par un robot qui recherche pour lui les informations utiles et caractéristique du site. Selon le thème du site (en accord ou pas avec la politique du moteur de recherche) ces renseignements seront alors intégré à la base de données du moteur. Robot : un type programme dont le fonctionnement est automatique, sans contrôle humain. Un robot peut ainsi parcourir la totalité d'un site en suivant systématiquement tous les liens présents sur chaque page. Par ces même liens il peut aussi bien sûr sauter d'un site à un autre. User-agent : lorsque vous vous connectez à un site internet, le navigateur que vous utilisez se présente au site par son nom (mozilla, netscape, internet explorer,..) comme étant votre "agent". Le site peut alors tirer profit de ce renseignement "user-agent" (l'agent de l'utilisateur) qui, entre autres, donne des informations sur la langue de l'utilisateur, le système d'explotation de sa machine, la version du logiciel, etc. Il en est de même des robots des moteurs de recherche qui peuvent ainsi être repérés et traités de différente manière. (par exemple le moteur de recherche Google s'identifie par "googlebot", celui d'InfoSeek par "infoseeksidewinder", etc.) ---------------------------------------------------------------------- 6 - Autres: ----------- Comment est-on visité par le robot d'un moteur de recherche ? En règle générale, il faut se faire connaître du moteur de recherche : - se rendre sur sa page d'accueil - cliquer sur le lien généralement nommé "S'inscrire" ou "Ajouter un site" Il en existe encore quelques uns qui proposent une inscription gratuite.(Boycotter tous les autres est salutaire pour l'internet!) Par exemple pour Google : - http://www.google.com/addurl.html Ou encore utiliser un service de référencement groupé, par exemple: - http://www.submitexpress.com/submit.html Mais si le référencement d'un site passe souvent pour une manoeuvre laborieuse, à l'inverse ne vous estimez pas à l'abri d'un référencement sans en avoir fait la demande. Il suffit que l'adresse de votre site figure dans les liens d'un autre site, ou en référence d'un message posté sur un quelconque forum par exemple. ---------------------------------------------------------------------- [ pascal blain - pascal@resoo.org - http://www.resoo.org/resoodoc/ ] ______________________________________________________________________