imported>Serols: Änderungen von 178.227.102.182 (Diskussion) rückgängig gemacht (HG) (3.4.13)

2025-05-28T14:24:03Z

Änderungen von 178.227.102.182 (Diskussion) rückgängig gemacht (HG) (3.4.13)

Neue Seite

{{Dieser Artikel|behandelt einen Teil des öffentlich zugänglichen Webs.
* Zu einem sehr kleinen Teil davon, einem verschlüsselt betriebenen [[Peer-to-Peer]]-[[Overlay-Netz]], das nicht mit üblichen Webbrowsern zugänglich ist, siehe [[Darknet]].}}
{{Überarbeiten}}
Das '''Deep Web''' (auch ''Hidden Web'' oder ''Invisible Web'') bzw. '''Verstecktes Web''' bezeichnet den Teil des [[World Wide Web]]s, der bei einer [[Recherche]] über normale [[Suchmaschine]]n ''nicht'' auffindbar ist. Im Gegensatz zum Deep Web werden die über Suchmaschinen zugänglichen [[Webseite]]n ''Clear Web, Visible Web (Sichtbares Web)'' oder [[Surface Web]] (Oberflächenweb) genannt. Das Deep Web besteht zu großen Teilen aus themenspezifischen [[Datenbank]]en ([[Fachdatenbank]]en) und Webseiten. Zusammengefasst handelt es sich um Inhalte, die nicht frei zugänglich sind, und/oder Inhalte, die nicht von Suchmaschinen indiziert werden oder die nicht indiziert werden sollen.

== Arten des Deep Web ==
Nach Sherman & Price (2001)<ref>{{Literatur |Autor=Gary Price |Titel=The Invisible Web: uncovering information sources search engines can’t see |Verlag=CyberAge Books |Ort=Medford, N.J. |Datum=2001 |ISBN=0-910965-51-X |Sprache=en}}</ref> werden fünf Typen des Invisible Webs unterschieden:

# „Opaque Web“ (undurchsichtiges Web)
# „Private Web“ (privates Web)
# „Proprietary Web“ (Eigentümer-Web)
# „Invisible Web“ (unsichtbares Web)
# „Truly invisible Web“ (tatsächlich unsichtbares Web).

=== Opaque Web ===
Das '''Opaque Web''' (engl. ''opaque'' zu dt.: ''undurchsichtig'') sind Webseiten, die indiziert werden könnten, zurzeit aber aus Gründen der technischen Leistungsfähigkeit oder Aufwand-Nutzen-Relation nicht indexiert werden (Suchtiefe, Besuchsfrequenz).

Suchmaschinen berücksichtigen, insbesondere bei umfangreichen Websites, häufig nicht alle Verzeichnisebenen und Unterseiten. Beim Erfassen von Webseiten steuern [[Webcrawler]] über Links zu den folgenden Webseiten. Webcrawler sind nicht in der Lage, eigenständig zu navigieren. Sie können sich sogar in komplexen [[Verzeichnisstruktur]]en verirren und haben dann Schwierigkeiten beim Erfassen von Seiten (Durchsuchen von Texten, Bildern, Links und anderen relevanten Daten zur Indexierung) oder bei der Rückkehr zur Startseite. Aus diesem Grund oder aufgrund von erschöpftem Crawling-Budget<ref>{{Internetquelle |url=https://developers.google.com/search/docs/crawling-indexing/large-site-managing-crawl-budget?hl=de#crawl-capacity-limit |titel=Handbuch für Websiteinhaber zur Verwaltung des Crawling-Budgets |werk=Google Search Central |hrsg=Google |sprache=de |abruf=2024-07-20}}</ref> berücksichtigen Suchmaschinen oft höchstens fünf oder sechs Verzeichnisebenen. Liegen umfangreiche oder relevante Dokumente in tieferen Hierarchieebenen werden sie demnach in vielen Fällen von Suchmaschinen nicht gefunden.

Dazu kommen [[Dateiformat]]e, die nur teilweise erfasst werden können (zum Beispiel [[Portable Document Format|PDF]]-Dateien, [[Google Suche|Google]] indexiert nur einen Teil einer PDF-Datei und stellt den Inhalt als HTML zur Verfügung).

Außerdem sind ständig aktualisierte Datenbestände, wie [[Online]]-Messdaten, betroffen. Webseiten ohne [[Hyperlink]]s oder Navigationssystem, unverlinkte Webseiten, Einsiedler-[[Uniform Resource Locator|URLs]] oder „Orphan-Seiten“ (''orphan'' engl. für [[Waise]]) fallen ebenfalls darunter.

=== Private Web ===
Das '''[[privat]]e Web''' beschreibt Webseiten, die indiziert werden könnten, aber aufgrund von Zugangsbeschränkungen des Webmasters nicht indexiert werden.

Dies können Webseiten im [[Intranet]] (interne Webseiten) sein, aber auch passwortgeschützte Daten (Anmeldung mit [[Login (Informationstechnik)|Login]] und [[Passwort]]⁣), Zugang nur für bestimmte [[IP-Adresse]]n, Schutz vor einer Indizierung durch den [[Robots Exclusion Standard]] (auch bekannt als robots.txt) oder Schutz vor einer Indizierung durch die [[Meta-Element|Meta-Tag]]-Werte „noindex“, „[[nofollow]]“ und „noimageindex“ im [[Quelltext]] der Webseite.

=== Proprietary Web ===
Mit '''[[Proprietär|Proprietary]] Web''' sind Webseiten gemeint, die indexiert werden könnten, allerdings nur nach Anerkennung einer Nutzungsbedingung oder durch die Eingabe eines Passwortes zugänglich sind (kostenlos oder kostenpflichtig).

Derartige Webseiten sind üblicherweise erst nach einer Identifizierung (webbasierte [[Fachdatenbank]]en, [[Paywall]]s bei Online-Medien) abrufbar.

=== Invisible Web ===
Unter das '''[[Unsichtbarkeit|Invisible]] Web''' fallen Webseiten, die rein technisch gesehen indexiert werden könnten, jedoch aus kaufmännischen oder strategischen Gründen nicht indexiert werden – wie zum Beispiel Datenbanken mit einem Webformular.

=== Truly Invisible Web ===
Mit '''Truly Invisible Web''' werden Webseiten bezeichnet, die aus technischen Gründen (noch) nicht indexiert werden können. Das können Datenbankformate sein, die vor dem WWW entstanden sind (einige Hosts), [[Datei|Dokumente]], die nicht direkt im [[Webbrowser|Browser]] angezeigt werden können, Nicht-Standardformate (zum Beispiel [[Adobe Flash|Flash]]), genauso wie [[Dateiformat]]e, die aufgrund ihrer Komplexität nicht erfasst werden können (Grafikformate). Dazu kommen [[Datenkompression|komprimierte]] Daten oder Webseiten, die nur über eine Benutzernavigation, die Grafiken (Image Maps) oder [[Skriptsprache|Skripte]] ([[Frame (HTML)|Frames]]) bedient werden können.

== Datenbanken ==
=== Dynamisch erstellte Datenbank-Webseiten ===
[[Webcrawler]] bearbeiten fast ausschließlich ''statische'' Datenbank-Webseiten und können viele ''dynamische'' Datenbank-Webseiten nicht erreichen, da sie tiefer liegende Seiten nur durch [[Hyperlink]]s erreichen können. Jene dynamischen Seiten erreicht man aber oft erst durch Ausfüllen eines [[HTML-Formular]]s, was ein Crawler momentan noch nicht bewerkstelligen kann.

''Kooperative Datenbankanbieter'' erlauben Suchmaschinen über Mechanismen wie [[Java Database Connectivity|JDBC]] einen Zugriff auf den Inhalt ihrer Datenbank, gegenüber den (normalen) ''nicht-kooperativen Datenbanken'', die den Datenbankzugriff nur über ein Such-Formular bieten.

=== Hosts und Fachdatenbanken ===
[[Host (Datenbankanbieter)|Hosts]] sind kommerzielle Informationsanbieter, die [[Fachdatenbank]]en unterschiedlicher Informationsproduzenten innerhalb einer Oberfläche bündeln. Manche Datenbankanbieter (Hosts) oder Datenbankproduzenten selbst betreiben [[relationale Datenbank]]en, deren Daten nicht ohne eine spezielle Zugriffsmöglichkeit (Retrieval-Sprache, Retrieval-Tool) abgerufen werden können. Webcrawler verstehen weder die Struktur noch die Sprache, die benötigt wird, um Informationen aus diesen Datenbanken auszulesen. Viele Hosts sind seit den 1970er-Jahren als [[Online-Dienst]] tätig und betreiben in ihren Datenbanken teilweise Datenbanksysteme, die lange vor dem WWW entstanden sind.

Beispiele für Datenbanken: Bibliothekskataloge ([[Bibliothekskatalog|OPAC]]), Börsenkurse, Fahrpläne, Gesetzestexte, Jobbörsen, Nachrichten, Patente, Telefonbücher, Webshops, Wörterbücher.

== Schätzung der Datenmenge ==
{{Veraltet|seit=}}
Nach einer Studie<ref>Michael K. Bergman: [http://quod.lib.umich.edu/cgi/t/text/text-idx?c=jep;view=text;rgn=main;idno=3336451.0007.104 ''The Deep Web: Surfacing Hidden Value''.] In: ''The Journal of Electronic Publishing'', Jahrgang 7, 2001, Nr. 1</ref> der Firma ''BrightPlanet'', die im Jahr '''2001''' veröffentlicht wurde, ergeben sich für das Deep Web folgende Eigenschaften:

Die geschätzte [[Datenmenge]] des Deep Web ist etwa 400- bis 550-mal größer als die des Surface Web. Allein 60 der größten Websites im Deep Web enthalten etwa 7.500 Terabyte an Informationen, was die Menge des Surface Web um den Faktor 40 übersteigt. Es existieren angeblich mehr als 200.000 Deep-Websites. So haben laut der Studie Webseiten aus dem Deep Web durchschnittlich 50 % mehr Zugriffe pro Monat und seien öfter verlinkt als Webseiten aus dem Surface Web. Das Deep Web sei auch die am schnellsten wachsende Kategorie von neuen Informationen im Web. Trotzdem sei der im Internet suchenden Öffentlichkeit das Deep Web kaum bekannt. Mehr als die Hälfte des Deep Web sei in themenspezifischen Datenbanken angesiedelt.

Da ''BrightPlanet'' mit DQM2 eine kommerzielle Suchhilfe anbietet, ist die (möglicherweise stark überschätzte) Größenangabe mit großer Vorsicht zu betrachten. Die von ''BrightPlanet'' geschätzte Datenmenge des Deep Web<ref>{{Webarchiv |url=http://brightplanet.com/technology/deepweb/Table2.asp |text=Internet Archive Wayback Machine |wayback=20060314143546}}</ref> muss um einige Daten bereinigt werden, um einen möglichst präzisen Überblick zu ermöglichen:

* [[Dublette (Datenbank)|Dubletten]] aus Bibliothekskatalogen, die sich überschneiden
* Datensammlung des [[National Climatic Data Center]] (361 Terabyte)
* Daten der [[National Aeronautics and Space Administration|NASA]] (296 Terabyte)
* weitere Datensammlungen (bspw. National Oceanographic Data Center & National Geophysical Data Center, Right to know Network, Alexa)

Anhand der Anzahl der Datensätze zeigt sich, dass die Studie die Größe des Deep Web um das Zehnfache überschätzt. Allerdings hat allein der Informationsanbieter [[LexisNexis]] mit 4,6 Milliarden Datensätzen mehr als die Hälfte der Anzahl der Datensätze des Suchmaschinenprimus Google. Das Deep Web ist daher sicher weitaus größer als das Oberflächenweb.

In einer Untersuchung der [[University of California, Berkeley]] aus dem Jahr 2003 wurden folgende Werte als Umfang des Internets ermittelt: Surface Web – 167 Terabyte, Deep Web – 91.850 Terabyte.<ref>{{Webarchiv |url=http://www.sims.berkeley.edu/research/projects/how-much-info-2003/internet.htm |text=Internet |wayback=20041015015836}} sims.berkeley.edu</ref> Die gedruckten Bestände der [[Library of Congress]] in Washington, eine der größten Bibliotheken der Welt, umfassen 10 Terabyte.

Laut dem [[Bundesamt für Sicherheit in der Informationstechnik|BSI]] geht man inzwischen davon aus, dass die Größe des Deepwebs <abbr>ca.</abbr> 90 % des gesamten Internets ausmacht.<ref>{{Internetquelle |autor=publisher |url=https://www.bsi.bund.de/DE/Themen/Verbraucherinnen-und-Verbraucher/Informationen-und-Empfehlungen/Darknet-und-Deep-Web/darknet-und-deepweb.html?nn=131942 |titel=Darknet und Deep Web – wir bringen Licht ins Dunkle |sprache=de |abruf=2024-01-29}}</ref>

== Siehe auch ==
* [[Darknet]] – nicht mit dem Deep Web zu verwechselndes [[Peer-to-Peer]]-[[Overlay-Netz]]
* [[Information Retrieval]]
* [[Semantic Web]]
* [[Umweltinformationssystem]]

== Literatur ==
* W. L. Warnick et al.: [http://www.dlib.org/dlib/january01/warnick/01warnick.html ''Searching the Deep Web''.] In: ''D-Lib Magazine'', Januar 2001, Volume 7 Number 1, {{ISSN|1082-9873}}
* Chris Sherman, Gary Price:; ''The Invisible Web: Finding Hidden Internet Resources Search Engines Can't See'', Cyberage Books 2001, ISBN 0-910965-51-X, [http://www.invisible-web.net/ Website zum Buch, Stand 2001]
* Dirk Lewandowski, Philipp Mayr: [http://conference.ub.uni-bielefeld.de/2006/proceedings/lewandowski_mayr_final_web.pdf ''Exploring the Academic Invisible Web''.] (PDF; 140 kB) In: ''Library Hi Tech'', 24, 2006, 4, S. 529–539
* Dirk Lewandowski: ''Suchmaschinen verstehen''. Springer, Heidelberg 2015, ISBN 978-3-662-44013-1.
* Alex Wright: [http://www.nytimes.com/2009/02/23/technology/internet/23search.html?_r=3&ref=business ''Exploring a ‘Deep Web’ That Google Can’t Grasp''.] In: ''New York Times'', 22. Februar 2009
* Denis Shestakov: [https://oa.doria.fi/handle/10024/38506 ''Search Interfaces on the Web: Querying and Characterizing''.] TUCS Doctoral Dissertations 104, University of Turku, Juni 2008.

== Weblinks ==
* [http://www.dradio.de/dkultur/sendungen/ewelten/536905/ ''Was die Suchmaschine nicht findet''.] Deutschlandradio, 30. August 2006
* Chris Sherman, Gary Price: {{Webarchiv |url=http://sh012.k12.sd.us/tie2004/article.htm |text=The invisible web: uncovering sources search engines can’t see. |wayback=20040627074213}} [[University of Illinois at Urbana-Champaign]], 2003
* {{Webarchiv |url=http://library.albany.edu/internet/deepweb.html |text=''The Deep Web''. |wayback=20051223143227}} Universitätsbibliothek Albany, New York
* [https://www.ub.uni-bielefeld.de/ub/learn/tutorials/websearch/invisibleweb.xml ''Was Google nicht findet''..] Universitätsbibliothek Bielefeld
* [http://oedb.org/library/college-basics/invisible-web ''The Ultimate Guide to the Invisible Web''.] The Online Education Database
* [http://www.handelsblatt.com/technologie/it-internet/deep-web-die-dunkle-seite-des-internets;2658149 ''Die dunkle Seite des Internets''.] In: ''[[Handelsblatt]]'', 20. September 2010

== Einzelnachweise ==
<references />

{{Normdaten|TYP=s|GND=7664173-9}}

[[Kategorie:World Wide Web]]
[[Kategorie:Dokumentation]]

Deep Web - Versionsgeschichte

imported>Serols: Änderungen von 178.227.102.182 (Diskussion) rückgängig gemacht (HG) (3.4.13)