REP, Robots Exclusion Protocol, Robots Exclusion Standard | Definition

ist ein Protokoll, das Anweisungen für Robots bereitstellt.
Dazu wurde vereinbart, dass Robots zuerst die im Root-Verzeichnis abgelegte Datei robots.txt untersuchen und die darin enthaltenen Verhaltensanweisungen respektieren. Dies wird von „freundlichen” Crawlern eingehalten.

Das allgemeine Format der einzelnen Zeilen ist <Anweisung>:<optionaleleerstelle><Wert><optionaleleerstelle> (Beispiel: User-agent: *). Die folgende Aufstellung gibt einen Überblick der vorhandenen Anweisungen:

Anweisung	Anwendung
User-agent	* für alle Robots oder die Bezeichnung eines Robots
Disallow	Ein Verzeichnispfad, deren Inhalt einschließlich der Unter-Verzeichnisse nicht durchsucht werden soll

Die folgende Aufstellung gibt einen Überblick der vorhandenen Anweisungen, die nur von bestimmten Robots beachtet werden:

Anweisung	Anwendung	Robots
$	Zeichen für Zeilenende	Googlebot, MSNBot, Yahoo! Slurp
?	URL mit Fragezeichen	Googlebot
Allow	Ein Verzeichnispfad, deren Inhalt einschließlich der Unter-Verzeichnisse durchsucht werden darf	AskJeeves, Googlebot, MSNBot, Yahoo! Slurp
Crawl-delay	Sekunden, die zwischen den Aufruf von Seiten gewartet werden soll	MSNBot, Yahoo! Slurp
Sitemap	Pfad zur Datei, die eine Sitemap enthält, die dem Sitemap Protocol entspricht	AskJeeves, Googlebot, MSNBot, Yahoo! Slurp

Die Bezeichnungen der Robots können u. a. in der Robots Database (1) bei The Web Robots Pages eingesehen werden.

Weiterführende Links

{A Standard for Robot Exclusion - The Web Robots Pages
- http://www.robotstxt.org/orig.html}
{robotstxt.org
- http://www.robotstxt.org/}
{Official Google Blog: The Robots Exclusion Protocol
- http://googleblog.blogspot.com/2007/02/robots-exclusion-protocol.html}
(1){Robots Database} @ Robotstxt.org

Ein kleines! Lexikon des Internet

Robots Exclusion Protocol

REP

auch: Robots Exclusion Standard

Weiterführende Links

Finden!

Navigation!

Interessante Begriffe!