ist ein Protokoll, das Anweisungen für Robots bereitstellt.
Dazu wurde vereinbart, dass Robots zuerst die im Root-Verzeichnis abgelegte Datei robots.txt untersuchen und die darin enthaltenen Verhaltensanweisungen respektieren. Dies wird von „freundlichen” Crawlern eingehalten.
Das allgemeine Format der einzelnen Zeilen ist <Anweisung>:<optionaleleerstelle><Wert><optionaleleerstelle> (Beispiel: User-agent: *). Die folgende Aufstellung gibt einen Überblick der vorhandenen Anweisungen:
| Anweisung | Anwendung |
|---|---|
| User-agent |
* für alle Robots oder die Bezeichnung eines Robots |
| Disallow | Ein Verzeichnispfad, deren Inhalt einschließlich der Unter-Verzeichnisse nicht durchsucht werden soll |
Die folgende Aufstellung gibt einen Überblick der vorhandenen Anweisungen, die nur von bestimmten Robots beachtet werden:
| Anweisung | Anwendung | Robots |
|---|---|---|
| $ | Zeichen für Zeilenende | Googlebot, MSNBot, Yahoo! Slurp |
| ? | URL mit Fragezeichen | Googlebot |
| Allow | Ein Verzeichnispfad, deren Inhalt einschließlich der Unter-Verzeichnisse durchsucht werden darf | AskJeeves, Googlebot, MSNBot, Yahoo! Slurp |
| Crawl-delay | Sekunden, die zwischen den Aufruf von Seiten gewartet werden soll | MSNBot, Yahoo! Slurp |
| Sitemap | Pfad zur Datei, die eine Sitemap enthält, die dem Sitemap Protocol entspricht | AskJeeves, Googlebot, MSNBot, Yahoo! Slurp |
Die Bezeichnungen der Robots können u. a. in der Robots Database (1) bei The Web Robots Pages eingesehen werden.
Weiterführende Links
{A Standard for Robot Exclusion - The Web Robots Pages
- http://www.robotstxt.org/orig.html}
{robotstxt.org
- http://www.robotstxt.org/}
{Official Google Blog: The Robots Exclusion Protocol
- http://googleblog.blogspot.com/2007/02/robots-exclusion-protocol.html}
(1){Robots Database} @ Robotstxt.org
