<?xml version="1.0"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="de">
	<id>https://wiki-de.moshellshocker.dns64.de/index.php?action=history&amp;feed=atom&amp;title=Wikipedia%3ADVD%2FDigibib%2FRohdaten</id>
	<title>Wikipedia:DVD/Digibib/Rohdaten - Versionsgeschichte</title>
	<link rel="self" type="application/atom+xml" href="https://wiki-de.moshellshocker.dns64.de/index.php?action=history&amp;feed=atom&amp;title=Wikipedia%3ADVD%2FDigibib%2FRohdaten"/>
	<link rel="alternate" type="text/html" href="https://wiki-de.moshellshocker.dns64.de/index.php?title=Wikipedia:DVD/Digibib/Rohdaten&amp;action=history"/>
	<updated>2026-06-22T07:57:35Z</updated>
	<subtitle>Versionsgeschichte dieser Seite in Wikipedia (Deutsch) – Lokale Kopie</subtitle>
	<generator>MediaWiki 1.43.8</generator>
	<entry>
		<id>https://wiki-de.moshellshocker.dns64.de/index.php?title=Wikipedia:DVD/Digibib/Rohdaten&amp;diff=313716&amp;oldid=prev</id>
		<title>imported&gt;Lómelinde: veraltete Tags &lt;tt&gt;→&lt;code&gt;</title>
		<link rel="alternate" type="text/html" href="https://wiki-de.moshellshocker.dns64.de/index.php?title=Wikipedia:DVD/Digibib/Rohdaten&amp;diff=313716&amp;oldid=prev"/>
		<updated>2022-10-22T12:23:31Z</updated>

		<summary type="html">&lt;p&gt;&lt;a href=&quot;/index.php/Spezial:LintErrors/obsolete-tag&quot; class=&quot;new&quot; title=&quot;Spezial:LintErrors/obsolete-tag (Seite nicht vorhanden)&quot;&gt;veraltete Tags&lt;/a&gt; &amp;lt;tt&amp;gt;→&amp;lt;code&amp;gt;&lt;/p&gt;
&lt;p&gt;&lt;b&gt;Neue Seite&lt;/b&gt;&lt;/p&gt;&lt;div&gt;{{Wikipedia-Archiv|Publikationen|DVD/Digibib/Rohdaten}}&lt;br /&gt;
Auf der DVD der [[Wikipedia:DVD|Wikipedia-Distribution]] sind einige Daten dabei, die sich gut für Untersuchungen verwenden lassen. An dieser Stelle ein wenig [[Reverse Engineering]] mit Unterstützung von Directmedia.&lt;br /&gt;
&lt;br /&gt;
== Verzeichnisstruktur ==&lt;br /&gt;
=== DVD ===&lt;br /&gt;
* &amp;lt;code&amp;gt;Autoren&amp;lt;/code&amp;gt;&lt;br /&gt;
** &amp;lt;code&amp;gt;AutKurz.txt&amp;lt;/code&amp;gt;: Quellenangabe (vermutliche Hauptautoren). Zeilenweise pro Artikel: &amp;lt;code&amp;gt;Titel&amp;lt;/code&amp;gt;, &amp;lt;code&amp;gt;Autoren&amp;lt;/code&amp;gt; (per &amp;lt;code&amp;gt;@&amp;lt;/code&amp;gt; getrennte Liste), &amp;lt;code&amp;gt;IPCount&amp;lt;/code&amp;gt; (Anzahl anonymer Autoren).&lt;br /&gt;
** &amp;lt;code&amp;gt;AutLang.txt&amp;lt;/code&amp;gt;:  Bearbeitungsgeschichte eines jeden Artikels (jeweils eine Liste mit allen Bearbeitungsschritten und den Feldern &amp;lt;code&amp;gt;Datum/Zeit&amp;lt;/code&amp;gt;, &amp;lt;code&amp;gt;Autor&amp;lt;/code&amp;gt;, &amp;lt;code&amp;gt;minorflag&amp;lt;/code&amp;gt;, &amp;lt;code&amp;gt;Kommentar&amp;lt;/code&amp;gt;).&lt;br /&gt;
** &amp;lt;code&amp;gt;AutLang.idx&amp;lt;/code&amp;gt;: Indexdatei zum Zugriff auf &amp;lt;code&amp;gt;AutLang.txt&amp;lt;/code&amp;gt;&lt;br /&gt;
* &amp;lt;code&amp;gt;Data&amp;lt;/code&amp;gt;&lt;br /&gt;
** &amp;lt;code&amp;gt;Coverm84.bmp&amp;lt;/code&amp;gt;: Cover der DVD (klein)&lt;br /&gt;
** &amp;lt;code&amp;gt;Index.htx&amp;lt;/code&amp;gt;: Hashtabelle&lt;br /&gt;
** &amp;lt;code&amp;gt;Index.set&amp;lt;/code&amp;gt;: Nicht benötigt.&lt;br /&gt;
** &amp;lt;code&amp;gt;Index.wlx&amp;lt;/code&amp;gt;: Wortliste mit diversen Zeigern&lt;br /&gt;
** &amp;lt;code&amp;gt;Tree.dka&amp;lt;/code&amp;gt;: Verzeichnisstruktur (u.A. alle Artikeltitel). Zeilenweise und per Leerzeichen eingerückt (Achtung: die Artikeltitel von Personenartikeln sind permutiert)&lt;br /&gt;
** &amp;lt;code&amp;gt;lemmata.txt&amp;lt;/code&amp;gt;: &amp;lt;code&amp;gt;Artikeltitel#LemmatagruppeSeite&amp;lt;/code&amp;gt; Lemmatagruppe ist dabei &amp;quot;A&amp;quot; für Sachartikel und &amp;quot;B&amp;quot; für Personenartikel.&lt;br /&gt;
** &amp;lt;code&amp;gt;DigiBib.txt&amp;lt;/code&amp;gt;: ini-Datei mit Einstellungen der DVD&lt;br /&gt;
** &amp;lt;code&amp;gt;Index.plx&amp;lt;/code&amp;gt;: Reverse Index&lt;br /&gt;
** &amp;lt;code&amp;gt;Index.ttx&amp;lt;/code&amp;gt;: Sequentielle Wortnummern&lt;br /&gt;
** &amp;lt;code&amp;gt;Text.dki&amp;lt;/code&amp;gt;: Die gesamten Texte der Wikipedia (komprimiert)&lt;br /&gt;
** &amp;lt;code&amp;gt;tabelle0.tab&amp;lt;/code&amp;gt;: Personendaten, internes Format. [http://download.directmedia.de/wikipedia/wikipedia_1_2005_personendaten.zip Hier] als Tab-getrennte Textdatei.&lt;br /&gt;
* &amp;lt;code&amp;gt;db&amp;lt;/code&amp;gt;&lt;br /&gt;
** &amp;lt;code&amp;gt;Gindex.dbz&amp;lt;/code&amp;gt;: Passwordgeschützes Zip-Archiv mit Covern, Inhaltsverzeichnissen und Lemmatalisten aller Titel der Digitalen Bibliothek. Die Unterverzeichnisse &amp;lt;code&amp;gt;DB001/Data&amp;lt;/code&amp;gt; bis &amp;lt;code&amp;gt;TYP09/Data&amp;lt;/code&amp;gt; enthalten jeweils vier Dateien: &amp;lt;code&amp;gt;CovermXY.bmp&amp;lt;/code&amp;gt; (wobei XY eine Zahl), &amp;lt;code&amp;gt;lemmata.txt&amp;lt;/code&amp;gt;, &amp;lt;code&amp;gt;tree.dki&amp;lt;/code&amp;gt; und &amp;lt;code&amp;gt;tree.idx&amp;lt;/code&amp;gt;. Installiert man die Wikipedia auf die Festplatte und wählt &amp;quot;auch Suchinformationen anderer Bände&amp;quot;, werden diese Dateien im Klartext in entsprechende Unterverzeichnisse entpackt. Hat nichts mit der Wikipedia zu tun.&lt;br /&gt;
* &amp;lt;code&amp;gt;HTML&amp;lt;/code&amp;gt;&lt;br /&gt;
** &amp;lt;code&amp;gt;HTML.dat&amp;lt;/code&amp;gt;: Virtuelles Verzeichnis mit hintereinandergepappten HTML-Dateien&lt;br /&gt;
** &amp;lt;code&amp;gt;HTML.idx&amp;lt;/code&amp;gt;: Index-Datei zum Zugriff auf HTML.dat. Zeilenweisen: &amp;lt;code&amp;gt;Dateiname Position Länge&amp;lt;/code&amp;gt;. Die Dateinamen sind von &amp;lt;code&amp;gt;ta000000.html&amp;lt;/code&amp;gt; bis &amp;lt;code&amp;gt;ta038748.html&amp;lt;/code&amp;gt; durchnummeriert. Dabei handelt es sich höchstwahrscheinlich um die in die Artikel eingebundenen Tabellen.&lt;br /&gt;
* &amp;lt;code&amp;gt;Images&amp;lt;/code&amp;gt;: Alle Bilder in einer Datei&lt;br /&gt;
* &amp;lt;code&amp;gt;linux&amp;lt;/code&amp;gt;: Programmdateien&lt;br /&gt;
* &amp;lt;code&amp;gt;PDA&amp;lt;/code&amp;gt;: Daten im Mobipocket Reader Format&lt;br /&gt;
&lt;br /&gt;
=== CD ===&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;code&amp;gt;images&amp;lt;/code&amp;gt; alle Bilder (2.378 Dateien, 22MB)&lt;br /&gt;
* ...der Rest scheint nicht direkt verarbeitbar (durch Knoppix/Lamppix komprimiert)&lt;br /&gt;
&lt;br /&gt;
== XML ==&lt;br /&gt;
&lt;br /&gt;
Die [http://download.directmedia.de/wikipedia/wikipedia_1_2005_xml.zip Quelldaten] sind online erhältlich. Da der Generator der Digibib es nicht allzu genau nimmt, hat der Dump2Digibib-Konverter es auch nicht allzu genau genommen... Teilweise gibt es überlappende Tags. Wenn jemand wirklich wohlgeformte Daten braucht, bitte an [[Benutzer:Vlado|Vlado]] wenden.&lt;/div&gt;</summary>
		<author><name>imported&gt;Lómelinde</name></author>
	</entry>
</feed>