Wikipedia:Literatur/ISBN-Auswertung
Auf dieser Seite werden verschiedene Auswertungen der in den Literaturangaben der Wikipedia vorhandenen ISBNs aufgelistet. Die dazu verwendeten Hilfsmittel werden noch ausführlicher erklärt.
Zur Erstellung der #ISBN-Fehlerliste werden folgende Kommandos ausgeführt
zcat isbn-all-dewiki-070427.gz | isbnproject/isbnlist.pl -F '|' -k 2 -invalid invalid -v valid
awk -F'|' '{print "* [["$1"]]: \"ISBN "$2"\""}' invalid > errorlist
dabei muss die Ausgangsdatei mit einem anderen Skript erstellt worden sein und das Skript isbnlist.pl vorhanden sein. Das Skript erstellt gleichzeitig eine #Statistik.
Bitte entfernt korrigierte ISBN aber behaltet die Statistik bei!
Weitere Ideen und Wünsche
- Verlagsstatistik
- Überlappung mit Bibliotheksbeständen und Buchhändlern
- ...
Statistik
- ISBN: 197359
- Valid: 196637 (99,63 %)
- Invalid: 722 (0,37 %)
- ISBN-13: 5097 (2,58 %)
Länder und Verlage
Eine Statistik der Länder aus denen die zu ISBNs in Wikipedia gehörige Verlage kommen, wird folgendermaßen erstellt:
awk -F'|' '{print $4"\t"}' valid | ./hist | sort -nrk1 > countries
Dabei ist hist ein weiteres Hilfsskript (ja, das wird noch vereinfacht). Eine Visualisierung findet sich hier (benötigt Java). Die häufigsten Länder sind:
| ISBNs | Country |
|---|---|
| 158547 | Germany |
| 28498 | English |
| 2914 | French |
| 1076 | Belgium and Netherlands |
| 749 | Italian |
| 641 | unknown |
| 415 | Czech Republic |
| 372 | China |
| 336 | Spain |
| 327 | Poland |
| 300 | Denmark |
| 213 | Sweden |
| 196 | Russian Federation |
| 177 | Japan |
| 171 | Norway |
| 153 | Hungary |
| 146 | Turkey |
| 142 | India |
| 130 | Thailand |
| 116 | Finland |
Werke und LibraryThing-Abdeckung
Da mehrere ISBNs mehrmals vorkommen, ist die Anzahl der verschiedenen ISBNs von Interesse:
awk -F'|' '{print $1}' valid | sort | uniq > uniq
Es ergibt sich, dass es 130.553 verschiedene korrekte ISBNs gibt (bei insgesamt 196.637 korrekten ISBN-Angaben). Da die Zahl der Vorkommen schief verteilt ist, macht es keinen Sinn, einen normalen Mittelwert anzugeben.
Eine weitere Statistik betrifft die Überlappung zwischen Wikipedia und Literaturdatenbanken. Ich habe mir die ISBN-Nummern aus LibraryThing besorgt und überprüft, wieviele der ISBN aus Wikipedia auch in LibraryThing vorkommen. Es zeigt sich, dass von den 130.553 verschiedenen korrekte ISBNs 25.674 (19,7 %) bereits in LibraryThing eingetragen sind. Die Treffer gehören zu 24.287 verschiedenen Werken, wenn man mit Hilfe von thingISBN verschiedene Auflagen und Übersetzungen zusammenfasst.
cat uniq | isbnproject/isbn_works.pl
awk -F';' '$2{print $2}' validuniquewithworks | wc -l
awk -F';' '$2{print $2}' validuniquewithworks | sort | uniq | wc -l
ISBN-Fehlerliste
Siehe Benutzer:APPER/ISBN.