imported>Aka: /* Literatur */ Komma korrigiert

2024-01-14T22:28:09Z

Literatur: Komma korrigiert

Neue Seite

{{QS-Informatik|Knacknüsse=Ja}}
Als '''Wrapper''' bezeichnet man im [[Informatik]]-Teilbereich der [[Informationsextraktion]] eine Gruppe von speziellen Prozeduren zur automatischen Extrahierung von (semi-)strukturierten Daten aus einer bestimmten Datenquelle (Text). Dabei werden je nach Art der zu extrahierenden Datensätze unterschiedliche Wrapper benötigt. Im Zusammenhang mit [[Feature Subset Selection]] existieren zudem unterschiedliche Ansätze zur Auswahl einer optimalen Menge von Feature Subsets aus den Datensätzen.

== Allgemeines ==
{{Lückenhaft|* Hintergründe
* Geschichtliche Entwicklung
* heutige praktische Anwendungen
* rechtliche Aspekte}}

== LR-Wrapper ==
Ein LR-Wrapper besteht aus <math>n</math> abgrenzenden Paaren <math>\langle l_i,r_i\rangle</math>

'''foreach''' <math>\langle l_i,r_i\rangle \in \{ \langle l_1,r_1\rangle, \dotsc, \langle l_n,r_n\rangle \}</math>
: finde das nächste <math>l_i</math>
: finde das nächste <math>r_i</math>
: extrahiere den Text dazwischen und speichere ihn als <math>i</math>-ten Wert des Tupels

Einschränkungen:
* Jedes <math>l_i</math> muss ein "echtes" [[Wort (Theoretische Informatik)#Suffix|Suffix]] des Textes vor jeder Instanz des Zielobjekts sein. Echt heißt, es muss vor jeder Instanz stehen und darf nirgendwo anders vorkommen. Ansonsten werden falsche Tupel extrahiert.
* Jedes <math>r_i</math> muss ein [[Wort (Theoretische Informatik)#Präfix|Präfix]] des Textes nach jeder Instanz des Zielobjekts sein. Ansonsten wird die Extraktion vorzeitig abgebrochen.

<small>Quelle:<ref name="Kushmerick">Nicholas Kushmerick: ''Wrapper Induction: Efficiency and Expressiveness.'' In: ''Artificial Intelligence.'' Band 118, 2000, S. 15–68.</ref></small>

== Weitere Wrapper ==
; HLRT-Wrapper (Head-Left-Right-Tail-Wrappers): Lerne einen eigenen Begrenzer für den Kopf und das Ende eines Dokumentes. Vor dem Head und nach dem Tail werden alle Vorkommnisse von <math>\langle l_i,r_i\rangle</math> ignoriert.

; OCLR- und HOCLRT-Wrapper: Lerne für jedes Tupel ein eigenes Begrenzungspaar.

; N-LR- und N-HLRT-Wrapper: Erlaube mehrwertige und optionale Attribute

<small>Quelle:<ref name="Kushmerick" /></small>

== Wrapper und FSS ==
Folgende einfache Möglichkeiten der Auswahl bestehen:
; Forward selection: Starte mit einer leeren Menge von Features und füge immer das Feature hinzu, das die Accuracy am meisten erhöht, bis die Accuracy nicht mehr deutlich zunimmt.
; Backward elimination: Starte mit allen Features und versuche ungeeignete zu entfernen.
; Simple heuristic search: Füge ein Feature nach dem anderen hinzu, bis die Accuracy nicht mehr deutlich zunimmt.

== Einschränkungen ==
* Keine Permutationen von Attributen möglich
* Die Begrenzungspaare sind evtl. nicht ausreichend zur Identifizierung von Texten

Um diese Probleme zu lösen, müssen andere Algorithmen zur Informationsextraktion verwendet werden, etwa ein nicht-deterministischer, adaptiver [[Mealy-Automat]] (z. B. ''SoftMealy''<ref name="softmealy_paper">C.-N. Hsu, M.-T. Dung: ''Wrapping semistructured web pages with finite-state transducers.'' In: ''Proc. Conference on Automatic Learning and Discovery (CONALD-98).'' 1998.</ref>), der diese Einschränkungen nicht besitzt.

== Einzelnachweise ==
<references />

== Literatur ==
* B. Chidlovskii, U. Borghoff, P. Chevalier: ''Towards sophisticated wrapping of web-based information repositories.'' In: ''Proceedings of the Conference on Computer-Assisted Information Retrieval.'' 1997, S. 123–155.
* M. Roth, P. Schwartz: ''Don’t scrap it, wrap it!'' In: ''Proceedings of the 22nd VLDB Conference.'' 1997, S. 266–275

[[Kategorie:Maschinelles Lernen]]
[[Kategorie:Business Intelligence]]
[[Kategorie:Computerlinguistik]]

Wrapper (Informationsextraktion) - Versionsgeschichte

imported>Aka: /* Literatur */ Komma korrigiert