Ein kleines! Lexikon des Internet Werbung

Ein kleines! Lexikon des Internet


Erklärung | Weiterführende Links | Finden | Navigation | Interessante Begriffe

Ansichten: Bildschirm   Druck   ohne

Robots Exclusion Protocol

REP

auch: Robots Exclusion Standard

ist ein Protokoll, das Anweisungen für Robots bereitstellt.
Dazu wurde vereinbart, dass Robots zuerst die im Root-Verzeichnis abgelegte Datei robots.txt untersuchen und die darin enthaltenen Verhaltensanweisungen respektieren. Dies wird von „freundlichen” Crawlern eingehalten.

Das allgemeine Format der einzelnen Zeilen ist <Anweisung>:<optionaleleerstelle><Wert><optionaleleerstelle> (Beispiel: User-agent: *). Die folgende Aufstellung gibt einen Überblick der vorhandenen Anweisungen:

Anweisung Anwendung
User-agent * für alle Robots
oder die Bezeichnung eines Robots
Disallow Ein Verzeichnispfad, deren Inhalt einschließlich der Unter-Verzeichnisse nicht durchsucht werden soll

Die folgende Aufstellung gibt einen Überblick der vorhandenen Anweisungen, die nur von bestimmten Robots beachtet werden:

Anweisung Anwendung Robots
$ Zeichen für Zeilenende Googlebot, MSNBot, Yahoo! Slurp
? URL mit Fragezeichen Googlebot
Allow Ein Verzeichnispfad, deren Inhalt einschließlich der Unter-Verzeichnisse durchsucht werden darf AskJeeves, Googlebot, MSNBot, Yahoo! Slurp
Crawl-delay Sekunden, die zwischen den Aufruf von Seiten gewartet werden soll MSNBot, Yahoo! Slurp
Sitemap Pfad zur Datei, die eine Sitemap enthält, die dem Sitemap Protocol entspricht AskJeeves, Googlebot, MSNBot, Yahoo! Slurp

Die Bezeichnungen der Robots können u. a. in der Robots Database (1) bei The Web Robots Pages eingesehen werden.

Weiterführende Links

{A Standard for Robot Exclusion - The Web Robots Pages
- http://www.robotstxt.org/orig.html
}
{robotstxt.org
- http://www.robotstxt.org/
}
{Official Google Blog: The Robots Exclusion Protocol
- http://googleblog.blogspot.com/2007/02/robots-exclusion-protocol.html
}
 (1){Robots Database} @ Robotstxt.org