Workshop Internet-Präsenz

Die Datei robots.txt

  1. Was sind Robots? Einfluss auf deren Arbeitsweise
  2. Aufbau der Datei robots.txt
  3. Wichtiger Hinweis zu Fehler-Log-Dateien
  4. Referenzen

Was sind Robots? Einfluss auf deren Arbeitsweise

Suchmaschinen benutzen Robots (auch Spider genannt, das sind automatisch ablaufende Programme), um das Internet nach Dokumenten zu durchsuchen und zu indizieren. Dabei nutzen sie die vorhanden Hyperlinks, um weitere Seiten aufzufinden.

Nicht immer ist es aber erwünscht oder sinnvoll, alle aufgefundenen Seiten zu indizieren; einige Seiten besitzen selbst keinen (nennenswerten) Inhalt oder sind nur im Zusammenhang mit anderen Seiten von Bedeutung (z.B. Frames). Oder die besuchten Seiten haben nur eine kurze Lebensdauer (z.B. News-Dienste), sind nur für einen kleinen Personenkreis bestimmt oder sind (noch) nicht für die Nutzung im Internet bestimmt (noch nicht freigegebene Seiten, Skripten, Formatvorlagen, Log-Dateien).

Um dies eine Suchmaschine mitzuteilen, gibt es zwei Wege:

  1. Die Meta-Anweisung <meta name="robots" content="befugnisse" />, die bereits im Rahmen der Beschreibungssprache HTML behandelt wurde, und
  2. die Nutzung der Datei robots.txt.

Fast alle Suchmaschinen suchen nach der Datei und halten sich auch an die in dieser Datei festgeschriebenen Regeln.

Aufbau der Datei robots.txt

Die Datei muss sich im Wurzelverzeichnis einer Domäne befinden, denn nur dort wird sie gesucht, muss den Dateinamen robots.txt besitzen und darf somit nur einmal pro Domäne vorhanden sein.

robots.txt ist eine einfache Textdatei, die Sie mit jedem Texteditor erstellen können. Bitte achten Sie auf die Schreibung der Kennwörter: diese sind bis auf den Anfangsbuchstaben klein zu schreiben!.

Die Datei besteht im Wesentlichen aus drei verschiedenen Eintragstypen. Achten Sie darauf, dass alle Kennwörter (User-agent:, Disallow:, Allow:) mit einem Doppelpunkt abgeschlossen werden:

  1. User-agent: Hier tragen Sie den Namen eines Robots ein, für den die nachfolgenden Regeln gelten sollen. Z.B. ArchitextSpider für den Robot des Suchdienstes Excite, Googlebot für den Suchdienst Google oder Scooter für den Suchdienst AltaVista. Wenn Sie Regeln für alle Suchdienste schreiben, so formulieren Sie ein Sternchen "*".
  2. Disallow: Hier tragen Sie immer ein Verzeichnis oder eine Datei ein, die nicht indiziert bzw. durchsucht werden sollen.
  3. Allow: Hier tragen Sie immer ein Verzeichnis oder eine Datei ein, die indiziert bzw. durchsucht werden dürfen. Allerdings kann man als Regel annehmen, dass alles, was nicht verboten ist, erlaubt ist, so dass die Angabe Allow: eigentlich notwendig ist.

Dateien oder Verzeichnisse bzw. Verzeichnispfade müssen immer mit einem Schrägstrich beginnen, der das Domänenwurzelverzeichnis kennzeichnet. Wenn Sie eine komplette Site benennen wollen, so schreiben Sie einfach nur einen Schrägstrich.

Wildcards wie "*" oder "?" werden häufig nicht akzeptiert. Hier hilft nur etwas Schreiberei.

Beispiel:

User-agent: *
Disallow: /styles/
Disallow: /js/
Disallow: /intern/logs/
Disallow: /verboten.htm

Regeln, die für verschiedene Robots geschrieben wurden, sind jeweils durch eine Leerzeile zu trennen.

Wenn Sie das Einsammeln von E-Mail-Adressen verhindern wollen, so schreiben Sie eine Regel für den Robot-Typ EmailCollector.

Beispiel:

User-agent: EmailCollector
Disallow: /

User-agent: *
Disallow: /styles/
Disallow: /js/
Disallow: /intern/logs/
Disallow: /verboten.htm

Wichtiger Hinweis zu Fehler-Log-Dateien

Jeder Dokumentzugriff auf eine nicht existierende Datei wird im Fehler-Log des Server-Programms notiert. Um nicht unverhältnismäßig viele Fehler-Log-Einträge zu produzieren, die letztlich die Auswertung der Log-Datei erschweren, sollte in jedem Fall im Domänenwurzelverzeichnis eine robots.txt-Datei angelegt werden, auch wenn sie im einfachsten Fall leer ist.

Referenzen

Unter www.robotstxt.org/wc/active/html/ finden Sie eine umfangreiche Datenbank von Internet-Robots.

Unter www.sxw.org.uk/computing/robots/check.html finden Sie ein nützliches Werkzeug zum Syntax-Check Ihrer robots.txt-Datei.