imported>Heebi: Omatauglichkeit

2026-03-17T08:13:23Z

Omatauglichkeit

Neue Seite

Der '''Robots Exclusion Standard''' (auch bekannt als '''{{Monospace|robots.txt}}''') ist ein [[Dateiformat]] mit [[Namenskonvention]] für [[Webserver]], um [[Bot]]s mitzuteilen, ob und inwieweit sie willkommen oder unerwünscht sind.

Umgesetzt wird das durch eine Textdatei namens <code>robots.txt</code> im [[Stammverzeichnis]] der [[Website]]. [[Webcrawler]] sollen zuerst eine Datei dieses Namens abzurufen versuchen und, sofern das gelingt, die darin niedergeschriebenen Grenzen achten. Ein zwingendes Verbot der Indizierung wird durch den Einsatz von robots.txt nicht erreicht.<ref>{{Internetquelle |url=https://support.google.com/webmasters/answer/6062608?hl=de |titel=Informationen zur robots.txt-Datei – Hilfe für Search Console |werk=support.google.com |sprache=de-DE |abruf=2018-08-22}}</ref> Der Standard ist rein hinweisend und auf die Mitarbeit des Webcrawlers angewiesen. Seriöse Webcrawler, die die [[Anweisung (Programmierung)|Anweisungen]] befolgen, werden als „freundliche“ Webcrawler bezeichnet. Ein Ausgrenzen bestimmter Teile einer Website durch das Protokoll garantiert keine Geheimhaltung. Dazu wären weitere Mechanismen notwendig, wie eine [[HTTP-Authentifizierung]] oder eine [[Access Control List]] (ACL). Manche Suchmaschinen zeigen die vom Webcrawler gefundenen und zu sperrenden [[Uniform Resource Locator|URLs]] trotzdem in den Suchergebnisseiten an, jedoch ohne Seitenbeschreibung.

Der ''Robots Exclusion Standard'' geht auf einen Vorschlag des Entwicklers von [[ALIWEB]] im Februar 1994 zurück.<ref>{{Internetquelle |autor=Jo Bagel |url=https://www.heise.de/news/robots-txt-30-Jahre-Hausregeln-fuer-Websites-9636693.html |titel=robots.txt – 30 Jahre Hausregeln für Websites |werk=[[heise online]] |datum=2024-02-25 |abruf=2024-02-26}}</ref> Anfang Juni 2008 bekannten sich Google,<ref>[https://developers.google.com/search/blog/2008/06/improving-on-robots-exclusion-protocol?hl=de ''Verbesserungen des Robots-Exclusion-Protokolls''.] Google-Blog Webmaster Zentrale, 10. Juni 2008.</ref> Microsoft und Yahoo zu einigen Gemeinsamkeiten.<ref>[https://searchengineland.com/everything-you-wanted-to-know-about-blocking-search-engines-14193 ''Everything You Wanted To Know About Blocking Search Engines''.] searchengineland.com, 12. Juni 2008.</ref> Mit <nowiki>RFC 9309</nowiki><ref>{{RFC-Internet |RFC=9309 |Titel=Robots Exclusion Protocol |Datum=2022-09}}</ref> von 2022 wurde der ''Robots Exclusion Standard'' erweitert und als [[Internetstandard]] vorgeschlagen.

2025 wurde mit [[Really Simple Licensing]] (RSL) ein technisch weiterentwickelter Nachfolger vorgestellt.

== Aufbau ==

Die Datei ''robots.txt'' ist eine [[Textdatei]] in einem einfachen, auch maschinenlesbaren Format. Jede Zeile besteht aus zwei Feldern, die durch einen Doppelpunkt getrennt werden.

<syntaxhighlight lang="text">
User-agent: Sidewinder
Disallow: /
</syntaxhighlight>

Die erste Zeile beschreibt den Webcrawler (hier: <code>[[User Agent|User-agent]]</code>), an den sich die darauf folgenden Regeln richten. Es darf beliebig viele solcher Blöcke geben. Webcrawler lesen die Datei von oben nach unten und halten an, wenn sich ein Block auf sie bezieht. Für jede [[Uniform Resource Locator|URL]], die ausgeschlossen ist, existiert eine eigene Zeile mit dem <code>Disallow</code>-Befehl. Leerzeilen sind nur oberhalb von <code>User-agent</code>-Zeilen erlaubt. Sie trennen die Blöcke voneinander. Einzeilige, mit einem [[Rautezeichen]] (#) beginnende Kommentare sind an jeder Stelle möglich. Sie dienen der Übersichtlichkeit und werden vom Webcrawler ignoriert.

{| class="wikitable"
|- class="hintergrundfarbe6"
! Anweisung
! Beschreibung
! Beispiel
! Funktion
|-
|<code>User-agent:</code>
|Spezifizierung des Webcrawlers
|<code>User-agent: Sidewinder</code>
|Gilt nur für den Webcrawler namens „Sidewinder“.
|-
|
|
|<code>User-agent: *</code>
|[[Wildcard (Informatik)|Wildcard]] für User-Agent; gilt für alle Webcrawler.
|-
|<code>Disallow:</code>
|Auslesen nicht gestatten
|<code>Disallow:</code>
|Kein Ausschluss; die komplette Website darf durchsucht werden.
|-
|
|
|<code>Disallow: /</code>
|Die komplette Website darf nicht durchsucht werden.
|-
|
|
|<code>Disallow: /Temp/</code><br /><code>Disallow: /default.html</code>
|Das Verzeichnis „Temp“ und die Datei „default.html“ dürfen nicht durchsucht werden.
|-
|
|
|<code>Disallow: /default</code>
|Alle Dateien und Verzeichnisse, die mit „default“ beginnen, werden nicht durchsucht z. B. „default.html“, „default.php“, „default-page.html“, „defaultfolder/“, und so weiter. Ein Verbot von „default.html“ verbietet also auch z. B. „default.html.php“ oder „default.html/“, auch wenn diese Konstellation eher selten vorkommen dürfte.
|-
|
|
|<code>Disallow: /c</code>
|Alle Dateien und Verzeichnisse, die mit „c“ beginnen, werden nicht durchsucht. Wenn man möchte, dass das Subverzeichnis <code>/c/</code> nicht gecrawlt werden soll, ist zwingend ein abschließender Schrägstrich anzugeben (<code>/c/</code>); ansonsten werden URLs, die mit dem Buchstaben „c“ beginnen, nicht durchsucht.
|-
|<code>$</code>
|[[Regulärer Ausdruck#Weitere Zeichen|Zeilenende-Anker]] (nur [[Googlebot]], [[Yahoo!]] Slurp, [[Live Search|msnbot]])
|<code style="white-space:nowrap">Disallow: /*.pdf$</code>
|Alle [[Portable Document Format|PDF]]-Dateien werden ignoriert.
|-
|<code>?</code>
|[[Uniform Resource Locator|URLs]] mit '?' behandeln (nur [[Googlebot]])
|<code>Disallow: /*?</code>
|Alle URLs, die ein Fragezeichen enthalten, werden ignoriert.
|-
|
|
|<code>Allow: /*?$</code>
|Alle URLs, die mit einem Fragezeichen enden, werden erlaubt.
|-
|<code>Allow:</code>
|Auslesen erlauben (nur [[Ask.com]], [[Googlebot]], [[Yahoo!]] Slurp, [[Microsoft Bing|bingbot]])
|<code>Disallow: /</code><br /><code>Allow: /public/</code>
|Nur das Verzeichnis „public“ darf durchsucht werden, der Rest nicht.
|-
|<code>Crawl-delay:</code>
|Auslesegeschwindigkeit (nur bingbot, Yahoo! Slurp, [bis 22. Feb. 2018 auch [[Yandex]]<ref>{{Internetquelle |url=https://yandex.com/support/webmaster/controlling-robot/robots-txt.html#crawl-delay |titel=Using robots.txt |hrsg=Yandex |sprache=en |abruf=2021-02-19}}</ref><ref>{{Internetquelle |url=https://yandex.com/support/webmaster/robot-workings/crawl-delay.html |titel=The Crawl-delay directive |hrsg=Yandex |sprache=en |abruf=2021-02-19}}</ref>])
|<code>Crawl-delay: 42</code>
|Nur alle 42 Sekunden darf eine neue Seite zum Auslesen aufgerufen werden.
|-
|<code>Sitemap:</code>
|URL der [[Sitemaps|Sitemap]] (nur Googlebot, Yahoo! Slurp, bingbot, Ask.com)
|<code><nowiki>Sitemap: http://example.com/sitemap.xml</nowiki></code>
|Die [[Sitemaps|Sitemap]] gemäß dem Sitemap-Protokoll liegt unter der angegebenen Adresse.
|}

=== Beispiele ===
<syntaxhighlight lang="text">
# robots.txt für example.com
# Diese Webcrawler schließe ich aus
User-agent: Sidewinder
Disallow: /

User-agent: Microsoft.URL.Control
Disallow: /

# Diese Verzeichnisse/Dateien sollen nicht
# durchsucht werden
User-agent: *
Disallow: /default.html
Disallow: /Temp/ # diese Inhalte werden von Suchmaschinen nicht neu erfasst; ob bereits zuvor erfasste Inhalte entfernt werden, ist undefiniert
Disallow: /Privat/Familie/Geburtstage.html # Nicht geheim, sollen aber nicht von Suchmaschinen gecrawlt werden.
</syntaxhighlight>

Mit den folgenden Befehlen wird allen Webcrawlern das Abrufen der kompletten Website erlaubt.
<syntaxhighlight lang="text">
User-agent: *
Disallow:
</syntaxhighlight>

Mit den folgenden Befehlen wird allen Webcrawlern das Abrufen der kompletten Website verboten. Die [[Indexierung]] des Inhalts in der Suchmaschine ist dadurch ausgeschlossen, nicht jedoch die Darstellung der [[URL]] sowie von Informationen, die nicht von der Seite, sondern aus externen Quellen stammen. Dies gilt auch, wenn die Indexierung auf einzelnen Seiten selbst wieder erlaubt wird, da Webcrawler die Seite gar nicht erst aufrufen.<ref>[https://developers.google.com/webmasters/control-crawl-index/docs/robots_meta_tag?hl=de#crawling-mit-indexierungs-bereitstellungsanweisungen-kombinieren ''Spezifikationen für Robots-Meta-Tags und X-Robots-Tag-HTTP-Header''.] [[Google LLC|Google]]</ref>
<syntaxhighlight lang="text">
User-agent: *
Disallow: /
</syntaxhighlight>

'''Weiteres Beispiel:'''
: [https://de.wikipedia.org/robots.txt ''robots.txt'' der deutschsprachigen Wikipedia]

=== Undokumentiere Anweisungen ===
Direktiven wie crawl-delay, [[nofollow]], und noindex waren lange Zeit undokumentiert, wurden aber von Websites in der robots.txt verwendet und von Google berücksichtigt. Ende 2019 hat Google angekündigt, diese undokumentierten Anweisungen künftig nicht mehr zu nutzen.<ref>{{Internetquelle |url=https://webmasters.googleblog.com/2019/07/a-note-on-unsupported-rules-in-robotstxt.html |titel=A note on unsupported rules in robots.txt |werk=Official Google Webmaster Central Blog |sprache=en |abruf=2020-10-02}}</ref>

=== Test-Werkzeug ===
Google stellt einen robots.txt-Tester zur Verfügung, um festzustellen, ob durch die robots.txt-Datei bestimmte URLs einer Website für die Web-Crawler von Google blockiert werden.<ref>{{Internetquelle |url=https://support.google.com/webmasters/answer/6062598?hl=de |titel=robots.txt-Datei mit dem robots.txt-Tester testen - Search Console-Hilfe |abruf=2022-06-09}}</ref>

== Alternativen ==

=== Metainformationen ===
Das [[Indexierung|Indexieren]] durch Webcrawler kann man auch durch [[Meta-Element]]e im [[Hypertext Markup Language|HTML]]-Quelltext einer Webseite ablehnen.<ref>[http://www.w3.org/TR/html4/appendix/notes.html#h-B.4.1.2 ''Robots and the META element''.] [[World Wide Web Consortium|W3C]] Recommendation</ref> Auch Meta-Elemente sind rein hinweisend, benötigen die Mitarbeit „freundlicher“ Webcrawler und garantieren keine Geheimhaltung. Soll der Suchroboter die Webseite nicht in den Index der Suchmaschine aufnehmen (noindex) oder den [[Hyperlink]]s der Seite nicht folgen (nofollow), kann das in einem Meta-Element wie folgt notiert werden:
<syntaxhighlight lang="html" style="border: none; margin-left: 2em;">
<meta name="robots" content="noindex,nofollow" />
</syntaxhighlight>
In HTML-Dokumenten, für die beides erlaubt sein soll, kann die Angabe entweder weggelassen oder explizit notiert werden:
<syntaxhighlight lang="html" style="border: none; margin-left: 2em;">
<meta name="robots" content="all" />
</syntaxhighlight>

Die Syntax ist kaum offiziell standardisiert, sondern gründet auf übliche Praxis und Akzeptanz durch die Crawler-Entwickler.
{| class="wikitable"
|+ Bekannte Schlüsselwörter
|- class="hintergrundfarbe8"
! Ermutigung !! Untersagung !! Erhoffte Wirkung
|-
| <code>all</code> || – || Maximale Aufmerksamkeit schenken
|-
| <code>index</code> || <code>noindex</code> || Diese Seite (nicht) aufnehmen
|-
| <code>follow</code> || <code>nofollow</code> || In der Seite enthaltenen Verlinkungen (nicht) folgen
|-
| <code>archive</code> || <code>noarchive</code> || Seite in die [[Web-Archivierung]] (nicht) aufnehmen oder sogar ggf. vorhandene archivierte Versionen eliminieren
|-
| – || <code>noopd</code> || [[Open Directory Project|OPD]] (dmoz): Statt des OPD-Eintrags die Metadaten der aktuellen Seite verwenden.<ref>{{Webarchiv |url=https://www.xovi.de/wiki/NOOPD |text=''Was ist NOOPD?'' |wayback=20160415131435}}, xovi.de</ref> Zukunft wegen vorläufiger Einstellung des Dienstes ungewiss.
|-
| – || <code>noydir</code> || [[Yahoo (Webportal)|Yahoo]] ([[AltaVista]]): Statt eines vorhandenen Yahoo-Eintrags die Metadaten der aktuellen Seite verwenden.<ref>{{Webarchiv |url=http://www.meta-tags.de/yahoo_und_meta_name_slurp |text=''Was ist die Metatag “slurp” (Meta Name slurp noydir)'' |wayback=20200928044239}}, meta-tags.de</ref> Obsolet, da Suchmaschine 2013 eingestellt.
|}

Statt allgemein an alle Bots zu adressieren:
<syntaxhighlight lang="html" style="border: none; margin-left: 2em;">
<meta name="robots" content="noindex,nofollow" />
</syntaxhighlight>
kann auch versucht werden, bestimmte Bots zu lenken:
<syntaxhighlight lang="html" style="border: none; margin-left: 2em;">
<meta name="bingbot" content="nofollow" /> 
<meta name="GoogleBot" content="noindex" /> 
<meta name="Slurp" content="noydir" /> 
</syntaxhighlight>

== humans.txt ==
Die Datei ''robots.txt'' stellt „Robotern“ (in Form von Software/Webcrawler) zusätzliche Informationen über eine Website zur Verfügung. In Anlehnung hieran hat [[Google Suche|Google]] 2011 die Datei ''humans.txt'' eingeführt, die menschlichen Besuchern der Website zusätzliche Hintergrundinformationen bieten soll.<ref>{{Internetquelle |url=http://www.googlewatchblog.de/2011/05/google-fuehrt-die-humans-txt-ein/ |titel=Google führt die humans.txt ein |werk=GWB |datum=2011-05-07 |abruf=2016-08-02}}</ref> Diese Datei wird seitdem auch von anderen Websites verwendet, um z. B. die Programmierer der Website namentlich zu nennen oder die eingesetzte Software zu beschreiben.<ref>{{Internetquelle |url=http://humanstxt.org/de |titel=Wir sind Menschen, nicht Maschinen. |werk=humanstxt.org |abruf=2016-08-02}}</ref> Google selbst nutzt die Datei für eine kurze Selbstdarstellung und Verweise auf Arbeitsplätze im Unternehmen.<ref>{{Internetquelle |url=https://www.google.com/humans.txt |titel=humans.txt von google.com |hrsg=[[Google LLC|Google]] |abruf=2016-08-02}}</ref>

== Siehe auch ==
* [[.htaccess]]

== Literatur ==
* Ian Peacock: ''Showing Robots the Door, What is Robots Exclusion Protocol?'' In: ''Ariadne'', May 1998, Issue 15, [http://www.ariadne.ac.uk/issue15/robots/ Webversion].

== Weblinks ==
* [http://www.robotstxt.org/ The Web Robots Pages] (englisch)
* [https://developers.google.com/search/reference/robots_txt Offizielle Robots.txt Spezifikation von Google.com] (englisch)
* [https://support.google.com/webmasters/answer/7424835?hl=de&ref_topic=6061961 Robots – Häufig gestellte Fragen (FAQs) - Hilfe für Search Console]
* {{Webarchiv |url=http://info.webcrawler.com/mak/projects/robots/norobots.html |text=A Standard for Robot Exclusion |wayback=19990117080302}} Defactostandardtext von 1999 (englisch)

== Einzelnachweise ==
<references responsive />

[[Kategorie:World Wide Web]]
[[Kategorie:Internet-Anwendungsprotokoll]]
[[Kategorie:Offenes Format]]
[[Kategorie:IT-Standard]]
[[Kategorie:Suchmaschinenoptimierung]]

Robots Exclusion Standard - Versionsgeschichte

imported>Heebi: Omatauglichkeit