2A02:2450:102C:1B8:88E2:205:9349:D348 am 30. Juni 2020 um 08:50 Uhr

2020-06-30T08:50:24Z

Neue Seite

Das '''Vektorraum-Retrieval''' (engl.: '''''Vector Space Model''''' ('''VSM''')) ist ein Verfahren zur
[[Information Retrieval|Informationsbeschaffung]], bei dem die Informationen als Punkte in einem hochdimensionalen, [[Metrischer Raum|metrischen]] [[Vektorraum]] repräsentiert werden. Zur Auswertung wird die mathematische Distanz zwischen dem Suchvektor und dem Dokument-/Informationsvektor verwendet. Das Vektorraummodell wurde erstmals im SMART-System<ref>[http://www.smart-systems-integration.org/ The European Technology Platform on Smart Systems Integration] (EPoSS)</ref> implementiert, das unter der Leitung von [[Gerard Salton]] an der [[Cornell University]] entwickelt wurde.

== Vereinfachte Beschreibung ==

Stark vereinfacht kann man sich das dieser Form der Informationsbeschaffung zugrundeliegende Modell wie folgt vorstellen: Jedem Wort des Dokumentes wird eine [[Dimension (Mathematik)|Dimension]] zugeordnet. Um den Punkt eines Dokumentes (oder einer Anfrage) in diesem Vektorraum zu bestimmen, kann in einer sehr einfachen Variante des Vektorraum-Modells beispielsweise gezählt werden, wie oft die einzelnen Wörter im Dokument auftreten. Der Punkt des Dokumentes im Vektorraum (der ''Dokumentenvektor'') entspricht dann den Häufigkeiten dieser Wörter. Beispielsweise könnte man somit das aus einem Satz bestehende Dokument ''„Die Explosion zerstört die Vegetation“'' als Vektor (0,…,2,…,1,…,1,…,1,…) beschreiben: Das Wort ''die'' tritt zweimal auf, ''Explosion'', ''zerstört'' und ''Vegetation'' jeweils einmal; sonstige Wörter treten nicht (0 mal) auf.

Suchanfragen lassen sich auf dieselbe Weise kodieren; eine fiktive Suchanfrage ''„Zerstört die Explosion die Vegetation?“'' entspräche wegen der gleichen Wortverteilung in diesem Fall genau demselben (Anfrage-)Vektor (0,…,2,…,1,…,1,…,1,…). Das Problem des Auffindens von Dokumenten, die möglichst gut mit der Suchanfrage übereinstimmen, kann man daher mit Hilfe des Vektorraummodelles lösen, indem man diejenigen Dokumente sucht, deren Vektor möglichst „ähnlich“ zum Vektor der Suchanfrage ist. Eine einfache Möglichkeit könnte beispielsweise sein, Dokumentenvektoren zu suchen, die parallel zum Anfragevektor liegen oder nur um einen kleinen Winkel von ihm abweichen.

In der Realität sind Vektorraummodelle erheblich komplexer und berücksichtigen beispielsweise unterschiedliche Worthäufigkeiten. Wörter wie „die“ oder „ist“ treten beispielsweise in nahezu jedem deutschsprachigen Dokument auf und sind daher nicht sehr aussagekräftig, wohingegen Wörter wie „[[Desoxyribonukleinsäure]]“ seltener und somit potenziell besser geeignet sind, das Dokument von anderen inhaltlich abzugrenzen.

== Vorgehensweise ==

Um Vektorraum-Retrieval zu ermöglichen, sind einige Vorarbeiten nötig. Der erste Schritt besteht in dem Aufbau eines Dokumentvektorenraumes und der Dokument-[[Indexierung]], bei welcher die Dokumente der Dokumentmenge auf jeweils genau einen Punkt (Dokumentvektoren) im Dokumentvektorenraum abgebildet werden. Hierzu existieren eine Vielzahl von Merkmalsgewichtungsmodellen, die alle auf der Häufigkeit von Merkmalen wie Termen, [[Lemma (Lexikographie)|Lemmata]] oder [[n-Gram]]men in Einzeldokumenten sowie der gesamten Dokumentmenge aufbauen.

Das Retrieval im Vektorraummodell führt zunächst eine Query-Indizierung durch, bei welcher die Anfrage auf einen Vektor im Vektorraum abgebildet wird. Die nachfolgende Retrieval-Funktion ermittelt eine Teilmenge der Dokumentvektoren, die eine bestimmte Ähnlichkeit bezüglich des Queryvektors besitzen, und die Rankingfunktion bildet diese Teilmenge auf eine geordnete Liste von Dokumentvektoren ab. Dem Nutzer, welcher die Query gestellt hat, wird eine Liste von Dokumenten präsentiert, welche mit der Liste der Dokumentvektoren korrespondiert.

== VSM implementierende Software ==
* [[Apache Lucene]] ist eine [[Java (Programmiersprache)|Java]] – [[Programmbibliothek]] zur [[Volltextsuche]].
* [[Elasticsearch]] ist eine [[Suchmaschine]] auf Basis von Lucene.
* Gensim ist ein auf [[Python (Programmiersprache)|Python]] und [[NumPy]] basierende Programmbibliothek zur Modellierung von Vector Space.<ref>{{Internetquelle |autor= |url=https://radimrehurek.com/gensim/index.html |titel=Software Framework for Topic Modelling with Large Corpora |werk=gensim |hrsg= |datum= |zugriff=2019-02-03 |sprache=en}}</ref>
* [[Waikato Environment for Knowledge Analysis|Weka]] ist ein Softwaretool, das verschiedene Techniken aus den Bereichen [[Maschinelles Lernen]] und [[Data-Mining]] bereitstellt.
* Word2vec besteht aus einer Gruppe von Modellen mit flachen, zweilagigen [[Künstliches neuronales Netz|künstlichen neuronalen Netzen]], die darauf trainiert sind, linguistische Zusammenhänge von Wörtern zu erfassen.<ref>{{Internetquelle |autor= |url=http://skymind.ai/wiki/word2vec |titel=A Beginner's Guide to Word2Vec and Neural Word Embeddings |werk= |hrsg=skymind.ai |datum= |zugriff=2019-02-03 |sprache=en}}</ref>

== Literatur ==

* Baeza-Yates, Richardo; Ribeiro-Neto, Berthier: ''Modern Information Retrieval''. ACM Press, New York, 1999, ISBN 0-201-39829-X.
* Ferber, Reginald: ''Information Retrieval – Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web''. Heidelberg, 2003, ISBN 3-89864-213-5.
* Grossman, D.A.; Frieder, O.: ''Information Retrieval''. Springer, Niederlande, 2. Auflage, 2004, ISBN 1-4020-3004-5.
* Kowalski, Gerald; Maybury, M.T.: ''Information Storage and Retrieval Systems''. Kluwer, Boston, 2000.
* [[Jiří Panyr|Panyr, Jiří]]: ''Automatische Klassifikation und Information Retrieval''. Tübingen, 1986.
* Panyr, Jiří: ''Vektorraum-Modell und Clusteranalyse in Information-Retrieval-Systemen''. In: Nachrichten für Dokumentation 38, S. 13–20, 1987.
* Salton, Gerard; McGill, M.J.: ''Information Retrieval''. MacGraw-Hill, 1987.

== Siehe auch ==

* [[Zipfsches Gesetz]]
* [[Suchmaschine]]
* [[Stemming]]
* [[Latent Semantic Indexing]]
* [[Tf-idf-Maß]]

== Einzelnachweise ==
<references />

[[Kategorie:Dokumentation]]
[[Kategorie:Information Retrieval]]

Vektorraum-Retrieval - Versionsgeschichte

2A02:2450:102C:1B8:88E2:205:9349:D348 am 30. Juni 2020 um 08:50 Uhr