Stoppwort
Vorlage:Hinweisbaustein Stoppwörter nennt man in der Informationsrückgewinnung bzw. im Information Retrieval Wörter, die bei einer Volltextindexierung nicht beachtet werden, da sie sehr häufig auftreten und gewöhnlich keine Relevanz für die Erfassung des Dokumentinhalts besitzen. Die Stoppwörter befanden sich bei älteren Suchmaschinen gewöhnlich auf einer Liste und wurden aus dem Text entfernt und nicht indexiert. Heute basieren die meisten Internet-Suchmaschinen auf Vollindexierung, dabei werden die Stoppwörter angezeigt, tragen aber nichts zur Suche bei.<ref name="DK">Daniel Koch: Suchmaschinen-Optimierung: Website-Marketing für Entwickler. Pearson Deutschland, 2007, ISBN 978-3-8273-2469-6, S. 35.</ref>
Es handelt sich üblicherweise bei den Stoppwörtern um die am häufigsten vorkommenden Wörter einer Sprache. Man spricht dann auch von einer „festen Stoppwortliste“. Allen Stoppwörtern ist gemeinsam, dass sie vor allem grammatikalische/syntaktische Funktionen übernehmen und daher keine Rückschlüsse auf den Inhalt des Dokumentes zulassen.<ref>Mario Fischer: Website Boosting 2.0: Suchmaschinen-Optimierung, Usability, Online-Marketing. mitp Verlag, 2009, ISBN 978-3-8266-1703-4, S. 203.</ref> Eine weitere Gemeinsamkeit ist ihre große Zahl: Sie treten in jedem Dokument sehr oft auf und kommen in sehr vielen Dokumenten vor, wodurch sie bei der Erschließung der Dokumente einen hohen Aufwand verursachen würden. Handelt es sich um die am häufigsten vorkommenden Wörter einer Menge von Dokumenten (beispielsweise Akten und Berichte) spricht man von einer „berechneten Stoppwortliste“. Das Erkennen von Stoppwörtern macht Suchmaschinen effizienter. Würde man Stoppwörter bei einem Suchauftrag beachten, wäre nahezu jedes Dokument ein Treffer. Ein solches Suchergebnis wäre für den Anwender nutzlos.<ref>André Klahold: Empfehlungssysteme: Recommender Systems - Grundlagen, Konzepte und Lösungen. Springer-Verlag, 2009, ISBN 978-3-8348-0568-3, S. 25.</ref> Allerdings ist es nicht immer sinnvoll, Stoppwörter komplett auszublenden. Beispiele hierfür sind im Englischen die Rockgruppe „The Who“ oder im Deutschen „Die Ärzte“ und Personen mit dem Nachnamen „Weil“<ref name="Weil">Der unsichtbare Ministerpräsident Stoppwort. November 2017, abgerufen am 2. November 2017.</ref>. Daher ist es heute bei Vollindizierung möglich, auch nach diesen Kombinationen suchen zu lassen.<ref name="KWIC" /> Früher war dazu bei den meisten Suchmaschinen ein Operator notwendig, zum Beispiel „+“ oder die Phrasensuche.<ref>Philipp Wiedmaier: Suchmaschinenoptimierung am Beispiel von Google. Diplom.de, 2006, ISBN 978-3-8324-9838-2, S. 55.</ref>
Allgemein übliche Stoppwörter in deutschsprachigen Dokumenten sind bestimmte Artikel ('der', 'die', 'das'), unbestimmte Artikel ('einer', 'eine', 'ein'), Konjunktionen (z. B. 'und', 'oder', 'doch', 'weil') und häufig gebrauchte Präpositionen (z. B. 'an', 'in', 'von') sowie die Negation 'nicht'.<ref name="DK" /> Im Englischen sind unter anderem 'a', 'of', 'the', 'I', 'it', 'you' und 'and' Stoppwörter. Abhängig von den zu erschließenden Dokumenten können Stoppwörter auch mehrsprachig vorliegen. Obwohl eher als Stoppzeichen zu benennen, werden häufig auch der Punkt (.), das Komma (,) und der Strichpunkt (;) als Stoppwörter bezeichnet. In der freien Software-Bibliothek NLTK sind Listen von Stoppwörtern für 21 Sprachen sowie fertige Methoden zu deren Benutzung enthalten.<ref>2. Accessing Text Corpora and Lexical Resources. NLTK.org, abgerufen am 10. April 2019 (Lua-Fehler in Modul:Multilingual, Zeile 153: attempt to index field 'data' (a nil value)).</ref><ref>python - Stopword removal with NLTK. stackoverflow.com, abgerufen am 10. April 2019 (Lua-Fehler in Modul:Multilingual, Zeile 153: attempt to index field 'data' (a nil value)).</ref>
Hans Peter Luhn, einer der Pioniere des Information Retrieval, prägte den Begriff der Stoppwörter und benutzte dieses Konzept im Design und in der Implementation des Indexers KWIC.<ref name="KWIC">Tom Slevin: Stop Words. Kids, Code, and Computer Science, November 2013, abgerufen am 11. Mai 2016.</ref>
Abzugrenzen ist das Stoppwort von den sogenannten Black Lists, dabei handelt es sich um eine Liste von unzulässigen Wörtern. Das Vorkommen eines solchen führt nicht zum Ausschluss des Wortes aus der Indizierung, sondern zur Elimination des gesamten Dokuments.<ref>Michael Glöggler: Suchmaschinen im Internet: Funktionsweisen, Ranking Methoden, Top Positionen. Springer-Verlag, 2013, ISBN 978-3-642-59321-5, S. 56.</ref>
Weblinks
Einzelnachweise
<references></references>