Zum Inhalt springen

Nutch

aus Wikipedia, der freien Enzyklopädie
Dies ist die aktuelle Version dieser Seite, zuletzt bearbeitet am 26. Juli 2023 um 09:31 Uhr durch imported>Invisigoth67 (typo).
(Unterschied) ← Nächstältere Version | Aktuelle Version (Unterschied) | Nächstjüngere Version → (Unterschied)
Nutch

colspan="2" class="notheme" style="text-align:center; background:#Vorlage:Standardfarbe; color:#202122;" | Lucene Nutch Logo
Basisdaten

Maintainer Lua-Fehler in Modul:Wikidata, Zeile 1686: attempt to index field 'wikibase' (a nil value)
Entwickler Apache Software Foundation
Erscheinungsjahr Lua-Fehler in Modul:Wikidata, Zeile 1686: attempt to index field 'wikibase' (a nil value)
Aktuelle Version Lua-Fehler in Modul:Wikidata, Zeile 1686: attempt to index field 'wikibase' (a nil value)
(Lua-Fehler in Modul:Wikidata, Zeile 1686: attempt to index field 'wikibase' (a nil value))
Aktuelle Vorabversion Lua-Fehler in Modul:Wikidata, Zeile 1686: attempt to index field 'wikibase' (a nil value)
(Lua-Fehler in Modul:Wikidata, Zeile 1686: attempt to index field 'wikibase' (a nil value))
Betriebssystem Lua-Fehler in Modul:Wikidata, Zeile 1686: attempt to index field 'wikibase' (a nil value)
Programmier­sprache Lua-Fehler in Modul:Wikidata, Zeile 1686: attempt to index field 'wikibase' (a nil value)
Kategorie Crawler, Parser und Suchmaschine.
Lizenz Lua-Fehler in Modul:Wikidata, Zeile 1686: attempt to index field 'wikibase' (a nil value)
deutschsprachig ja
nutch.apache.org

Nutch ist ein Java-Framework für Internet-Suchmaschinen. Die Software ist Open-Source und wird innerhalb der Apache Software Foundation unter der Apache-Lizenz entwickelt. Nutch basiert u. a. auf Lucene (Stemming, Indexierung etc.), Solr (Webfunktionalitäten) und Hadoop (Skalierung).

Nutch kann beliebig große Datenmengen durchsuchen. An firmenspezifische Bedürfnisse lässt es sich durch seine Plug-in-Architektur anpassen – bspw. an weitere Dokumentformate.

Das deutsche Bundesamt für Verbraucherschutz und Lebensmittelsicherheit betrieb die auf Nutch basierende „Verbraucher-Suchmaschine“ Clewwa. Auch die Suchmaschine Wikia Search setzte auf der Technologie von Nutch auf.

Nutch wird zurzeit in 2 Versionen gepflegt<ref>Home - NUTCH - Apache Software Foundation. Abgerufen am 11. März 2020.</ref>

  • 1.x: Ist ein fertiger Crawler, welcher eine sehr feine Konfiguration ermöglicht und auf die Datenstrukturen von Apache Hadoop setzt, er soll ideal für Batch-Verarbeitung sein
  • 2.x: Wird als Alternative zur Version 1.x angeboten, der Hauptunterschied liegt im Speicherbereich, dieser wurde abstrahiert und nutzt Apache Gora um Objekte zu verknüpfen. So wurde die Flexibilität erhöht, was (z. B. Status, Inhalte, Links, verarbeiteter Text …) gespeichert werden kann und wie die Speicherung z. B. in NoSQL-Lösungen erfolgt.

Weblinks

Einzelnachweise

<references responsive />