<?xml version="1.0"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="de">
	<id>https://wiki-de.moshellshocker.dns64.de/index.php?action=history&amp;feed=atom&amp;title=RoadRunner</id>
	<title>RoadRunner - Versionsgeschichte</title>
	<link rel="self" type="application/atom+xml" href="https://wiki-de.moshellshocker.dns64.de/index.php?action=history&amp;feed=atom&amp;title=RoadRunner"/>
	<link rel="alternate" type="text/html" href="https://wiki-de.moshellshocker.dns64.de/index.php?title=RoadRunner&amp;action=history"/>
	<updated>2026-05-31T16:51:10Z</updated>
	<subtitle>Versionsgeschichte dieser Seite in Wikipedia (Deutsch) – Lokale Kopie</subtitle>
	<generator>MediaWiki 1.43.8</generator>
	<entry>
		<id>https://wiki-de.moshellshocker.dns64.de/index.php?title=RoadRunner&amp;diff=1817729&amp;oldid=prev</id>
		<title>imported&gt;Mielas: Form Tabellen</title>
		<link rel="alternate" type="text/html" href="https://wiki-de.moshellshocker.dns64.de/index.php?title=RoadRunner&amp;diff=1817729&amp;oldid=prev"/>
		<updated>2024-08-31T19:13:44Z</updated>

		<summary type="html">&lt;p&gt;Form Tabellen&lt;/p&gt;
&lt;p&gt;&lt;b&gt;Neue Seite&lt;/b&gt;&lt;/p&gt;&lt;div&gt;{{Infobox_Software&lt;br /&gt;
|Name=RoadRunner&lt;br /&gt;
|Logo=&lt;br /&gt;
|Screenshot=&lt;br /&gt;
|Beschreibung=&lt;br /&gt;
|Hersteller=&lt;br /&gt;
|AktuelleVersion=0.02.11&lt;br /&gt;
|AktuelleVersionFreigabeDatum=2004&lt;br /&gt;
|Betriebssystem=[[plattformunabhängig]]&lt;br /&gt;
|Programmiersprache= [[Java (Programmiersprache)|Java]]&lt;br /&gt;
|Kategorie= [[Wrapper (Informationsextraktion)|Wrapper]], [[Parsergenerator]]&lt;br /&gt;
|Lizenz= [[GNU General Public License]]&lt;br /&gt;
|Deutsch= nein&lt;br /&gt;
|Website= [http://www.dia.uniroma3.it/db/roadRunner/ RoadRunner]&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039;RoadRunner&amp;#039;&amp;#039;&amp;#039; ist ein [[Java (Programmiersprache)|Java]] [[Computerprogramm|Programm]] zur Beobachtung von [[Information]]en von [[HTML]]-Seiten. Dazu werden die Gemeinsamkeiten und Unterschiede der HTML-Seiten analysiert und daraus wird, falls möglich, ein (union-freier) [[regulärer Ausdruck]] berechnet, der die Unterschiede der [[Datei]]en beschreibt. Dieser reguläre Ausdruck wird abschließend verwendet, um die Unterschiede aus den HTML-Dateien zu extrahieren. Also ist RoadRunner ein Generator, der automatisch [[Formale Grammatik|Grammatik]] basierte [[Wrapper (Informationsextraktion)|Wrapper]] erzeugt.&lt;br /&gt;
&lt;br /&gt;
== Beispiel ==&lt;br /&gt;
&lt;br /&gt;
Eine Buch-[[Bibliothekskatalog|Katalog]] [[Homepage]] bestehe aus mehreren HTML-Seiten, die eine gemeinsame Grundstruktur besitzen, wie z.&amp;amp;nbsp;B. ein einheitliches Seiten- und Tabellenlayout. Die Seiten unterscheiden sich darin, das jede Seite eine [[Tabelle]] von 1 bis 20 Einträgen zu verschiedenen Büchern enthält. Das Ziel sei nun, die Buchdaten (Autor, Titel usw.) automatisch aus den Seiten zu extrahieren.&lt;br /&gt;
&lt;br /&gt;
Dafür wird eine repräsentative Menge von Katalog-Seiten heruntergeladen, welche von RoadRunner analysiert wird. Als Ausgabe erzeugt das Programm den regulären Ausdruck (ABC)+, welcher die [[Label (Klassifikation)|Label]]s A, B und C enthält und eine [[Extensible Markup Language|XML]]-Datei mit den extrahierten Daten für jedes Label.&lt;br /&gt;
&lt;br /&gt;
Beispiel von extrahierten Daten in Tabellenform:&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
! Label !! Datum&lt;br /&gt;
|-&lt;br /&gt;
| A || Max Frisch&lt;br /&gt;
|-&lt;br /&gt;
| B || Homo Faber&lt;br /&gt;
|- &lt;br /&gt;
| C || 1965&lt;br /&gt;
|-&lt;br /&gt;
| A || Stefan Zweig&lt;br /&gt;
|-&lt;br /&gt;
| B || Der Amokläufer&lt;br /&gt;
|-&lt;br /&gt;
| C || 1930&lt;br /&gt;
|-&lt;br /&gt;
| ... || ...&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
Nach einem Blick auf die extrahierten Daten kann den gefundenen Labels manuell eine Semantik zugeordnet werden:&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
! Label !! Bedeutung&lt;br /&gt;
|-&lt;br /&gt;
| A || Autor&lt;br /&gt;
|-&lt;br /&gt;
| B || Titel&lt;br /&gt;
|-&lt;br /&gt;
| C || Jahr&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
== Literatur ==&lt;br /&gt;
&lt;br /&gt;
* {{Literatur| Autor=Valter Crescenzi, Giansalvatore Mecca, Paolo Merialdo | Titel=RoadRunner: Towards Automatic Data Extraction from Large Web Sites | Sammelwerk=Proceedings of the 27th Conference on Very Large Databases (VLDB) | Jahr=2001 | Online=[http://www.pabrro-online.de/dokus/RoadRunner.pdf PDF]}}&lt;br /&gt;
* {{Literatur| Autor=Valter Crescenzi, Giansalvatore Mecca, Paolo Merialdo | Titel=Automatic Web Information Extraction in the RoadRunner System | Sammelwerk=International Workshop on Data Semantics in Web Information Systems (DASWIS) | Jahr=2001 | Online=[http://www.dia.uniroma3.it/db/roadRunner/publications.html PDF]}}&lt;br /&gt;
* {{Literatur| Autor=Valter Crescenzi, Giansalvatore Mecca | Titel = Automatic information extraction from large websites | Sammelwerk = Journal of the ACM | Band = 51 | Nummer = 5 | Jahr = 2004 | ISSN=0004-5411 | Seiten=731-779 | DOI=10.1145/1017460.1017462 }}&lt;br /&gt;
&lt;br /&gt;
== Weblinks ==&lt;br /&gt;
* [http://www.dia.uniroma3.it/db/roadRunner/ RoadRunner]&lt;br /&gt;
&lt;br /&gt;
[[Kategorie:Java-Programm]]&lt;/div&gt;</summary>
		<author><name>imported&gt;Mielas</name></author>
	</entry>
</feed>