ist ein Protokoll, das Anweisungen für Robots bereitstellt.
Dazu wurde vereinbart, dass Robots zuerst die im Root-Verzeichnis abgelegte Datei robots.txt untersuchen und die darin enthaltenen Verhaltensanweisungen respektieren. Dies wird von „freundlichen” Crawlern eingehalten.
Das allgemeine Format der einzelnen Zeilen ist <Anweisung>:<optionaleleerstelle><Wert><optionaleleerstelle>
(Beispiel: User-agent: *
). Die folgende Aufstellung gibt einen Überblick der vorhandenen Anweisungen:
Anweisung | Anwendung |
---|---|
User-agent |
* für alle Robots oder die Bezeichnung eines Robots |
Disallow | Ein Verzeichnispfad, deren Inhalt einschließlich der Unter-Verzeichnisse nicht durchsucht werden soll |
Die folgende Aufstellung gibt einen Überblick der vorhandenen Anweisungen, die nur von bestimmten Robots beachtet werden:
Anweisung | Anwendung | Robots |
---|---|---|
$ | Zeichen für Zeilenende | Googlebot, MSNBot, Yahoo! Slurp |
? | URL mit Fragezeichen | Googlebot |
Allow | Ein Verzeichnispfad, deren Inhalt einschließlich der Unter-Verzeichnisse durchsucht werden darf | AskJeeves, Googlebot, MSNBot, Yahoo! Slurp |
Crawl-delay | Sekunden, die zwischen den Aufruf von Seiten gewartet werden soll | MSNBot, Yahoo! Slurp |
Sitemap | Pfad zur Datei, die eine Sitemap enthält, die dem Sitemap Protocol entspricht | AskJeeves, Googlebot, MSNBot, Yahoo! Slurp |
Die Bezeichnungen der Robots können u. a. in der Robots Database (1) bei The Web Robots Pages eingesehen werden.
Weiterführende Links
{A Standard for Robot Exclusion - The Web Robots Pages
- http://www.robotstxt.org/orig.html}
{robotstxt.org
- http://www.robotstxt.org/}
{Official Google Blog: The Robots Exclusion Protocol
- http://googleblog.blogspot.com/2007/02/robots-exclusion-protocol.html}
(1){Robots Database} @ Robotstxt.org