**********************************************************************
RESOODOC - WEB / MOTEUR DE RECHERCHE / ROBOTS.TXT
v.2004-12-02
----------------------------------------------------------------------
http://www.resoo.org/resoodoc/txt/fichier_robots.txt
----------------------------------------------------------------------

  robots.txt : Un fichier à placer à la racine de votre site,
  indiquant aux moteurs de recherche les zones du site à exclure de
  leur exploration.


----------------------------------------------------------------------
1 - Présentation :
------------------

  Sur cette page on parle de robots, de moteurs de recherche, d'agent,
  d'indexation, ... pour une définition de ces termes, reportez-vous
  à la rubrique 5 (F.A.Q.)

  Lorsqu'un moteur de recherche visite un site pour en indexer les
  pages, le premier document qu'il devrait prendre en considération
  est le fichier:
    /robots.txt
  Ce fichier est supposé se trouver à la racine du site.
  Le robot du moteur de recherche est supposé lire dans ce fichier
  des informations sur les zones du site à exclure de sa visite.

  La présence d'un fichier "robots.txt" vide est considérée de la
  même façon que son absence totale : le moteur de recherche
  considèrera qu'il est le bienvenu sur l'intégralité du site.


----------------------------------------------------------------------
2 - Syntaxe du fichier robots.txt :
-----------------------------------

  Il s'agit d'un fichier texte dont seront ignorées :
  - les lignes vides
  - les lignes débutant par une "#" (considérées comme commentaire)
  - les lignes ne correspondant pas à la syntaxe spécifique

  Seront pris en considération les groupes de lignes separés
  entre eux par des lignes vides et se présentant sous la forme:

User-agent: un_nom
Disallow : un_répertoire_ou_un_fichier

  un_nom = le nom caractéristique du robot, le caractère "*" peut
  être utilisé pour signifier "tous".

  un_répertoire_ou_un_fichier = l'adresse absolue sur le site du
  répertoire (ou du fichier) que le robot est "invité" à NE PAS
  visiter ou parcourir.

  plusieurs ligne "Disallow" peuvent être utilisés pour chaque
  User-agent.


----------------------------------------------------------------------
3 - Exemples complets de fichiers robots.txt :
----------------------------------------------

  Pour autoriser tout le site à tous les robots (identique à créer
  un fichier robots.txt vide) :

# exemple 1
User-agent: *
Disallow:


  Pour exclure tout le site pour tous les robots :

# exemple 2
User-agent: *
Disallow: /


  Pour exclure une zone spécifique (ici deux répertoires et un
  fichier) pour tous les robots :

# exemple 3
User-agent: *
Disallow: /cgi-bin/
Disallow: /admin/
Disallow: /contact.html


  Pour seulement exclure un robot en particulier (ici InfoSeek) :

# exemple 4
User-agent: infoseeksidewinder
Disallow: /


  Pour tout autoriser pour un robot (ici Google), tout autoriser
  sauf le répertoire /cgi-bin pour un autre (ici InfoSeek), et
  exclure tous les autres robots :

# exemple 5
User-agent: googlebot
Disallow:

User-agent: infoseeksidewinder
Disallow: /cgi-bin/

User-agent: *
Disallow: /


  note : dans l'exemple 3, il est utilisé une demande "Disallow"
  portant sur un fichier. Ce n'est pas forcément une bonne idée dans
  la mesure où le fichier contenant cette demande (robots.txt) est
  librement lisible, et fournit donc le nom du fichier "sensible"
  (ce qui n'est pas toujours souhaitable).
  Il vaut toujours mieux placer ces fichiers dans un répertoire dont
  le serveur http n'autorise pas l'indexage, puis spécifier ce
  répertoire en "disallow" dans le fichier robots.txt.


----------------------------------------------------------------------
4 - Conseils:
-------------

  La demande d'exclusion formulée dans le fichier robots.txt n'a rien
  de contraignant. Les robots bien élevés la respecteront, pas les
  autres.

  Si vous avez un fichiers contenant des informations confidentielles, 
  un bon conseil serait de ne pas le mettre sur un site web du tout.

  Le nom de fichier robots.txt doit être en minuscule.

  Le fichier doit se trouver à la racine du site, par exemple pour le
  site resoo.com, l'adresse du fichier ne peut être que:
  -  http://www.resoo.com/robots.txt
  Pour les répertoires utilisateurs, un fichiers tel que :
  -  http://www.resoo.com/resoosite/robots.txt [->incorrect!]
  ne sera pas pris en compte.

  Les exclusions concernant les répertoires utilisateurs doivent être:
    - soit spécifiées dans le fichier unique robots.txt à la racine
      du site,
    - soit signifiées aux robots à l'aide du META TAG "Robots" des
      fichiers html, par exemple:
      <META NAME="Robots" CONTENT="Noindex, Nofollow">
  pour plus d'informations sur les META TAG, reportez vous à la
  fiche :
  -  http://www.resoo.com/resoodoc/txt/meta-balises.txt


----------------------------------------------------------------------
5 - F.A.Q. :
------------

  Moteur de recherche : site dédié à la recherche d'information sur
    internet.
    De façon générale la recherche s'effectue par une interrogation
    de la base de données propre à chaque moteur. Les moteurs de
    recherche peuvent avoir un thème ou un mode de questionnement
    qui les caractérise, et donc une manière différente de référencer
    les sites qu'ils proposent comme réponse.
    (pour info: http://cui.unige.ch/meta-index.html)

  Indexation : pour intégrer un site à sa base de données, un moteur
    de recherche fait visiter le site en question par un robot qui
    recherche pour lui les informations utiles et caractéristique du
    site. Selon le thème du site (en accord ou pas avec la politique
    du moteur de recherche) ces renseignements seront alors intégré à
    la base de données du moteur.

  Robot : un type programme dont le fonctionnement est automatique,
    sans contrôle humain. Un robot peut ainsi parcourir la totalité
    d'un site en suivant systématiquement tous les liens présents sur
    chaque page. Par ces même liens il peut aussi bien sûr sauter
    d'un site à un autre.

  User-agent : lorsque vous vous connectez à un site internet, le
    navigateur que vous utilisez se présente au site par son nom
    (mozilla, netscape, internet explorer,..) comme étant votre
    "agent". Le site peut alors tirer profit de ce renseignement
    "user-agent" (l'agent de l'utilisateur) qui, entre autres, donne
    des informations sur la langue de l'utilisateur, le système
    d'explotation de sa machine, la version du logiciel, etc.
    Il en est de même des robots des moteurs de recherche qui peuvent
    ainsi être repérés et traités de différente manière.
    (par exemple le moteur de recherche Google s'identifie par
    "googlebot", celui d'InfoSeek par "infoseeksidewinder", etc.)


----------------------------------------------------------------------
6 - Autres:
-----------

  Comment est-on visité par le robot d'un moteur de recherche ?

  En règle générale, il faut se faire connaître du moteur de
  recherche :
    - se rendre sur sa page d'accueil
    - cliquer sur le lien généralement nommé "S'inscrire"
      ou "Ajouter un site"
  Il en existe encore quelques uns qui proposent une inscription
  gratuite.(Boycotter tous les autres est salutaire pour l'internet!)

  Par exemple pour Google :
  -  http://www.google.com/addurl.html

  Ou encore utiliser un service de référencement groupé, par exemple:
  -  http://www.submitexpress.com/submit.html

  Mais si le référencement d'un site passe souvent pour une manoeuvre
  laborieuse, à l'inverse ne vous estimez pas à l'abri d'un
  référencement sans en avoir fait la demande. Il suffit que
  l'adresse de votre site figure dans les liens d'un autre site,
  ou en référence d'un message posté sur un quelconque forum par
  exemple.


----------------------------------------------------------------------
 [ pascal blain - pascal@resoo.org - http://www.resoo.org/resoodoc/ ]
______________________________________________________________________