<?xml version="1.0"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="de">
	<id>https://wiki-de.moshellshocker.dns64.de/index.php?action=history&amp;feed=atom&amp;title=Wrapper_%28Informationsextraktion%29</id>
	<title>Wrapper (Informationsextraktion) - Versionsgeschichte</title>
	<link rel="self" type="application/atom+xml" href="https://wiki-de.moshellshocker.dns64.de/index.php?action=history&amp;feed=atom&amp;title=Wrapper_%28Informationsextraktion%29"/>
	<link rel="alternate" type="text/html" href="https://wiki-de.moshellshocker.dns64.de/index.php?title=Wrapper_(Informationsextraktion)&amp;action=history"/>
	<updated>2026-06-08T06:45:21Z</updated>
	<subtitle>Versionsgeschichte dieser Seite in Wikipedia (Deutsch) – Lokale Kopie</subtitle>
	<generator>MediaWiki 1.43.8</generator>
	<entry>
		<id>https://wiki-de.moshellshocker.dns64.de/index.php?title=Wrapper_(Informationsextraktion)&amp;diff=379083&amp;oldid=prev</id>
		<title>imported&gt;Aka: /* Literatur */ Komma korrigiert</title>
		<link rel="alternate" type="text/html" href="https://wiki-de.moshellshocker.dns64.de/index.php?title=Wrapper_(Informationsextraktion)&amp;diff=379083&amp;oldid=prev"/>
		<updated>2024-01-14T22:28:09Z</updated>

		<summary type="html">&lt;p&gt;&lt;span class=&quot;autocomment&quot;&gt;Literatur: &lt;/span&gt; Komma korrigiert&lt;/p&gt;
&lt;p&gt;&lt;b&gt;Neue Seite&lt;/b&gt;&lt;/p&gt;&lt;div&gt;{{QS-Informatik|Knacknüsse=Ja}}&lt;br /&gt;
Als &amp;#039;&amp;#039;&amp;#039;Wrapper&amp;#039;&amp;#039;&amp;#039; bezeichnet man im [[Informatik]]-Teilbereich der [[Informationsextraktion]] eine Gruppe von speziellen Prozeduren zur automatischen Extrahierung von (semi-)strukturierten Daten aus einer bestimmten Datenquelle (Text). Dabei werden je nach Art der zu extrahierenden Datensätze unterschiedliche Wrapper benötigt. Im Zusammenhang mit [[Feature Subset Selection]] existieren zudem unterschiedliche Ansätze zur Auswahl einer optimalen Menge von Feature Subsets aus den Datensätzen.&lt;br /&gt;
&lt;br /&gt;
== Allgemeines ==&lt;br /&gt;
{{Lückenhaft|* Hintergründe&lt;br /&gt;
* Geschichtliche Entwicklung&lt;br /&gt;
* heutige praktische Anwendungen&lt;br /&gt;
* rechtliche Aspekte}}&lt;br /&gt;
&lt;br /&gt;
== LR-Wrapper ==&lt;br /&gt;
Ein LR-Wrapper besteht aus &amp;lt;math&amp;gt;n&amp;lt;/math&amp;gt; abgrenzenden Paaren &amp;lt;math&amp;gt;\langle l_i,r_i\rangle&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039;foreach&amp;#039;&amp;#039;&amp;#039; &amp;lt;math&amp;gt;\langle l_i,r_i\rangle \in \{ \langle l_1,r_1\rangle, \dotsc, \langle l_n,r_n\rangle \}&amp;lt;/math&amp;gt;&lt;br /&gt;
: finde das nächste &amp;lt;math&amp;gt;l_i&amp;lt;/math&amp;gt;&lt;br /&gt;
: finde das nächste &amp;lt;math&amp;gt;r_i&amp;lt;/math&amp;gt;&lt;br /&gt;
: extrahiere den Text dazwischen und speichere ihn als &amp;lt;math&amp;gt;i&amp;lt;/math&amp;gt;-ten Wert des Tupels&lt;br /&gt;
&lt;br /&gt;
Einschränkungen:&lt;br /&gt;
* Jedes &amp;lt;math&amp;gt;l_i&amp;lt;/math&amp;gt; muss ein &amp;quot;echtes&amp;quot; [[Wort (Theoretische Informatik)#Suffix|Suffix]] des Textes vor jeder Instanz des Zielobjekts sein. Echt heißt, es muss vor jeder Instanz stehen und darf nirgendwo anders vorkommen. Ansonsten werden falsche Tupel extrahiert.&lt;br /&gt;
* Jedes &amp;lt;math&amp;gt;r_i&amp;lt;/math&amp;gt; muss ein [[Wort (Theoretische Informatik)#Präfix|Präfix]] des Textes nach jeder Instanz des Zielobjekts sein. Ansonsten wird die Extraktion vorzeitig abgebrochen.&lt;br /&gt;
&lt;br /&gt;
&amp;lt;small&amp;gt;Quelle:&amp;lt;ref name=&amp;quot;Kushmerick&amp;quot;&amp;gt;Nicholas Kushmerick: &amp;#039;&amp;#039;Wrapper Induction: Efficiency and Expressiveness.&amp;#039;&amp;#039; In: &amp;#039;&amp;#039;Artificial Intelligence.&amp;#039;&amp;#039; Band 118, 2000, S. 15–68.&amp;lt;/ref&amp;gt;&amp;lt;/small&amp;gt;&lt;br /&gt;
&lt;br /&gt;
== Weitere Wrapper ==&lt;br /&gt;
; HLRT-Wrapper (Head-Left-Right-Tail-Wrappers): Lerne einen eigenen Begrenzer für den Kopf und das Ende eines Dokumentes. Vor dem Head und nach dem Tail werden alle Vorkommnisse von &amp;lt;math&amp;gt;\langle l_i,r_i\rangle&amp;lt;/math&amp;gt; ignoriert.&lt;br /&gt;
&lt;br /&gt;
; OCLR- und HOCLRT-Wrapper: Lerne für jedes Tupel ein eigenes Begrenzungspaar.&lt;br /&gt;
&lt;br /&gt;
; N-LR- und N-HLRT-Wrapper: Erlaube mehrwertige und optionale Attribute&lt;br /&gt;
&lt;br /&gt;
&amp;lt;small&amp;gt;Quelle:&amp;lt;ref name=&amp;quot;Kushmerick&amp;quot; /&amp;gt;&amp;lt;/small&amp;gt;&lt;br /&gt;
&lt;br /&gt;
== Wrapper und FSS ==&lt;br /&gt;
Folgende einfache Möglichkeiten der Auswahl bestehen:&lt;br /&gt;
; Forward selection: Starte mit einer leeren Menge von Features und füge immer das Feature hinzu, das die Accuracy am meisten erhöht, bis die Accuracy nicht mehr deutlich zunimmt.&lt;br /&gt;
; Backward elimination: Starte mit allen Features und versuche ungeeignete zu entfernen.&lt;br /&gt;
; Simple heuristic search: Füge ein Feature nach dem anderen hinzu, bis die Accuracy nicht mehr deutlich zunimmt.&lt;br /&gt;
&lt;br /&gt;
== Einschränkungen ==&lt;br /&gt;
* Keine Permutationen von Attributen möglich&lt;br /&gt;
* Die Begrenzungspaare sind evtl. nicht ausreichend zur Identifizierung von Texten&lt;br /&gt;
&lt;br /&gt;
Um diese Probleme zu lösen, müssen andere Algorithmen zur Informationsextraktion verwendet werden, etwa ein nicht-deterministischer, adaptiver [[Mealy-Automat]] (z.&amp;amp;nbsp;B. &amp;#039;&amp;#039;SoftMealy&amp;#039;&amp;#039;&amp;lt;ref name=&amp;quot;softmealy_paper&amp;quot;&amp;gt;C.-N. Hsu, M.-T. Dung: &amp;#039;&amp;#039;Wrapping semistructured web pages with finite-state transducers.&amp;#039;&amp;#039; In: &amp;#039;&amp;#039;Proc. Conference on Automatic Learning and Discovery (CONALD-98).&amp;#039;&amp;#039; 1998.&amp;lt;/ref&amp;gt;), der diese Einschränkungen nicht besitzt.&lt;br /&gt;
&lt;br /&gt;
== Einzelnachweise ==&lt;br /&gt;
&amp;lt;references /&amp;gt;&lt;br /&gt;
&lt;br /&gt;
== Literatur ==&lt;br /&gt;
* B. Chidlovskii, U. Borghoff, P. Chevalier: &amp;#039;&amp;#039;Towards sophisticated wrapping of web-based information repositories.&amp;#039;&amp;#039; In: &amp;#039;&amp;#039;Proceedings of the Conference on Computer-Assisted Information Retrieval.&amp;#039;&amp;#039; 1997, S. 123–155.&lt;br /&gt;
* M. Roth, P. Schwartz: &amp;#039;&amp;#039;Don’t scrap it, wrap it!&amp;#039;&amp;#039; In: &amp;#039;&amp;#039;Proceedings of the 22nd VLDB Conference.&amp;#039;&amp;#039; 1997, S. 266–275&lt;br /&gt;
&lt;br /&gt;
[[Kategorie:Maschinelles Lernen]]&lt;br /&gt;
[[Kategorie:Business Intelligence]]&lt;br /&gt;
[[Kategorie:Computerlinguistik]]&lt;/div&gt;</summary>
		<author><name>imported&gt;Aka</name></author>
	</entry>
</feed>