imported>SchlurcherBot: Bot: http → https

2026-04-14T11:01:40Z

Bot: http → https

Neue Seite

{{Dieser Artikel|behandelt Webseitenanalyse-Programme, für die gleichnamige Suchmaschine siehe [[WebCrawler]].}}
[[Datei:Schicksale jüdischer Hofer - Kräftebasiertes Verzeichnisbaumdiagramm 20230611 001 FIX.svg|mini|alternativtext=Das Foto zeigt einen Graphen eines Webcrawls einer kleineren Webseite|Visualisierung eines Webcrawls einer kleinen Webseite]]
Ein '''Webcrawler''' (auch ''Spider'', ''Searchbot'' oder ''Robot'') ist ein [[Computerprogramm]], das automatisch das [[World Wide Web]] durchsucht und [[Webseite]]n analysiert. Webcrawler werden vor allem von [[Suchmaschine]]n zur [[Indexierung]] von Webseiten eingesetzt. Weitere Anwendungen sind das [[Maschinelles Lernen|maschinelle Lernen]] sowie das Sammeln von [[Web-Feed]]s, [[E-Mail-Harvester|E-Mail-Adressen]] oder von anderen Informationen.

Webcrawler sind eine spezielle Art von [[Bot]]s, also Computerprogrammen, die weitgehend automatisch sich wiederholenden Aufgaben nachgehen.

== Geschichte ==
Der erste Webcrawler war 1993 der [[World Wide Web Wanderer]], der das Wachstum des Internets messen sollte. 1994 startete mit ''[[WebCrawler]]'' die erste öffentlich erreichbare WWW-Suchmaschine mit Volltextindex. Von dieser stammt auch der Name ''Webcrawler'' für solche Programme. Da die Anzahl der Suchmaschinen rasant wuchs, gibt es heute eine Vielzahl von unterschiedlichen Webcrawlern. Diese erzeugten nach einer Schätzung von 2002 bis zu 40 % des gesamten Internet-Datenverkehrs.<ref>X. Yuan, M. H. MacGregor, J. Harms: [http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.125.359&rep=rep1&type=pdf ''An efficient scheme to remove crawler traffic from the Internet.''] Computer Communications and Networks, 2002. Proceedings. Eleventh International Conference on Communications and Networks</ref> 2023 betrug der Anteil aller Bots inklusive Webcrawlern geschätzte 66 %.<ref>{{Internetquelle |url=https://de.barracuda.com/reports/spear-phishing-trends-2023 |titel=2023 Spear-Phishing Trends |werk= |hrsg=Barracuda |abruf=2025-10-30}}
</ref>

== Technik ==
[[Datei:WebCrawlerArchitecture.svg|mini|hochkant=1.5|Struktur von Webcrawlern]]
Wie beim [[Internetsurfen]] gelangt ein Webcrawler über [[Hyperlink]]s von einer Webseite zu weiteren [[Uniform Resource Locator|URLs]]. Dabei werden alle aufgefundenen Adressen gespeichert und der Reihe nach besucht. Die neu gefundenen Hyperlinks werden zur Liste aller URLs hinzugefügt. Auf diese Weise können theoretisch alle verlinkten und nicht für Webcrawler gesperrten Seiten des WWW gefunden werden. In der Praxis wird jedoch oft eine Auswahl getroffen, der Prozess irgendwann beendet und von vorne begonnen. Je nach Aufgabe des Webcrawlers wird der Inhalt der gefundenen Webseiten beispielsweise mittels [[Indexierung]] ausgewertet und gespeichert, um ein späteres Suchen in den so gesammelten Daten zu ermöglichen.

== Ausschluss von Webcrawlern ==

Mit Hilfe des [[Robots Exclusion Standard]]s kann ein Webseitenbetreiber in der Datei <span style="font-family:monospace;">robots.txt</span> und in bestimmten [[Meta-Tag]]s im [[Hypertext Markup Language|HTML]]-Header einem Webcrawler mitteilen, welche Seiten er indexieren soll und welche nicht, sofern sich der Webcrawler an das Protokoll hält. Zur Bekämpfung unerwünschter Webcrawler gibt es auch spezielle Webseiten, sogenannte [[Teergrube (Informationstechnik)|Teergruben]], die den Webcrawlern falsche Informationen liefern und diese zusätzlich stark ausbremsen.

== Probleme ==
Ein Großteil des gesamten Internets wird von Webcrawlern und damit auch von öffentlichen Suchmaschinen nicht erfasst, da viele Inhalte nicht über einfache Links, sondern beispielsweise nur über [[Suchmaske]]n und zugangsbeschränkte [[Portal (Informatik)|Portale]] erreichbar sind. Man spricht bei diesen Bereichen auch vom „[[Deep Web]]“. Außerdem stellt die ständige Veränderung des Webs sowie die Manipulation der Inhalte ([[Cloaking]]) ein Problem dar.

== Arten ==
Thematisch fokussierte Webcrawler werden als ''focused crawlers'' bzw. ''fokussierte Webcrawler'' bezeichnet. Die Fokussierung der Web-Suche wird einerseits durch die Klassifizierung einer Webseite an sich und die Klassifizierung der einzelnen Hyperlinks realisiert. Dadurch findet der fokussierte Crawler den ''besten Weg'' durch das Web und indexiert nur (für ein Thema bzw. eine Domäne) relevante Bereiche des Webs. Hürden bei der praktischen Umsetzung derartiger Webcrawler sind vor allem nicht-verlinkte Teilbereiche und das Training der Klassifizierer.<ref>Sotiris Batsakis, Euripides G. M. Petrakis, Evangelos Milios: [https://www.intelligence.tuc.gr/~petrakis/publications/BaPeMi09.pdf ''Improving the Performance of Focused Web Crawlers.''] 9. April 2012. (englisch)</ref>

Webcrawler werden auch zum [[Data-Mining]] und zur Untersuchung des Internets ([[Webometrie]]) eingesetzt und müssen nicht zwangsläufig auf das WWW beschränkt sein.

Eine Sonderform der Webcrawler sind [[E-Mail-Harvester]] („Harvester“ für „Erntemaschine“). Diese Bezeichnung wird für Software verwendet, die das Internet (WWW, [[Usenet]] usw.) nach E-Mail-Adressen absucht und diese „erntet“. So werden elektronische Adressen gesammelt und können danach vermarktet werden. Die Folge sind i. d. R., vor allem aber bei [[E-Mail-Harvester|Spambots]], Werbe-E-Mails ([[Spam]]). Daher wird von der früher gängigen Praxis, auf [[Webseite]]n E-Mail-Adressen als Kontaktmöglichkeit per ''mailto:''-[[Hyperlink|Link]] anzugeben, immer häufiger Abstand genommen; manchmal wird versucht, die Adressen durch den Einschub von [[Leerzeichen]] oder Wörtern für die Bots unlesbar zu machen. So wird ''a@example.com'' zu ''a (at) example (dot) com''. Die meisten Bots können solche Adressen allerdings erkennen. Eine ebenfalls beliebte Methode ist, die E-Mail-Adresse in eine Grafik einzubetten. Die E-Mail-Adresse ist dadurch nicht als [[Zeichenkette]] im [[Quelltext]] der Webseite vorhanden und somit für den Bot nicht als Textinformation auffindbar. Das hat für den Benutzer jedoch den Nachteil, dass er die E-Mail-Adresse nicht durch „Anklicken“ bedienerfreundlich in sein [[E-Mail-Programm]] zum Versand übernehmen kann, sondern die Adresse abschreiben muss. Viel gravierender ist jedoch, dass die Seite damit nicht mehr [[Barrierefreies Internet|barrierefrei]] ist und sehbehinderte Menschen genauso wie Bots ausgegrenzt werden.

Ein weiterer Verwendungszweck von Webcrawlern ist das Auffinden von urheberrechtlich geschützten Inhalten im Internet.

Webcrawler können auch zur Analyse einer Website eingesetzt werden. Dabei wird die Website von einem Startpunkt (typischerweise der Homepage) aus durchlaufen und folgt den vorhandenen Links. Nützlich ist das für Website-Betreiber und [[Suchmaschinenoptimierung|Suchmaschinenoptimierer]], um einen Eindruck davon zu erhalten, wie die Crawling-Bots der Suchmaschinen sich durch diese Website bewegen und auf welche Probleme sie dabei stoßen.

== Siehe auch ==
* [[HTTrack Website Copier]]
* [[Wrapper (Informationsextraktion)]]
* [[Spider trap]], Web-Struktur, die unerwünschte Webcrawler erkennen und optional an der Erfassung der Inhalte einer Website hindern soll

== Einzelnachweise ==
<references />

== Weblinks ==
* [https://www.robotstxt.org/db.html The Web Robots Pages] (englisch)

{{Normdaten|TYP=s|GND=4796298-7}}

[[Kategorie:World Wide Web]]
[[Kategorie:Usenet]]
[[Kategorie:Download-Manager]]

Webcrawler - Versionsgeschichte

imported>SchlurcherBot: Bot: http → https