Wikipedia:Literatur/ISBN-Auswertung
Auf dieser Seite werden verschiedene Auswertungen der in den Literaturangaben der Wikipedia vorhandenen ISBNs aufgelistet. Die dazu verwendeten Hilfsmittel werden noch ausführlicher erklärt.
Zur Erstellung der #ISBN-Fehlerliste werden folgende Kommandos ausgeführt
zcat isbn-all-dewiki-070427.gz | isbnproject/isbnlist.pl -F '|' -k 2 -invalid invalid -v valid awk -F'|' '{print "* [["$1"]]: \"ISBN "$2"\""}' invalid > errorlist
dabei muss die Ausgangsdatei mit einem anderen Skript erstellt worden sein und das Skript isbnlist.pl vorhanden sein. Das Skript erstellt gleichzeitig eine #Statistik.
Bitte entfernt korrigierte ISBN aber behaltet die Statistik bei!
Weitere Ideen und Wünsche
[Quelltext bearbeiten]- Verlagsstatistik
- Überlappung mit Bibliotheksbeständen und Buchhändlern
- ...
Statistik
[Quelltext bearbeiten]- ISBN: 197359
- Valid: 196637 (99,63 %)
- Invalid: 722 (0,37 %)
- ISBN-13: 5097 (2,58 %)
Länder und Verlage
[Quelltext bearbeiten]Eine Statistik der Länder aus denen die zu ISBNs in Wikipedia gehörige Verlage kommen, wird folgendermaßen erstellt:
awk -F'|' '{print $4"\t"}' valid | ./hist | sort -nrk1 > countries
Dabei ist hist
ein weiteres Hilfsskript (ja, das wird noch vereinfacht). Eine Visualisierung findet sich hier (benötigt Java). Die häufigsten Länder sind:
ISBNs | Country |
---|---|
158547 | Germany |
28498 | English |
2914 | French |
1076 | Belgium and Netherlands |
749 | Italian |
641 | unknown |
415 | Czech Republic |
372 | China |
336 | Spain |
327 | Poland |
300 | Denmark |
213 | Sweden |
196 | Russian Federation |
177 | Japan |
171 | Norway |
153 | Hungary |
146 | Turkey |
142 | India |
130 | Thailand |
116 | Finland |
Werke und LibraryThing-Abdeckung
[Quelltext bearbeiten]Da mehrere ISBNs mehrmals vorkommen, ist die Anzahl der verschiedenen ISBNs von Interesse:
awk -F'|' '{print $1}' valid | sort | uniq > uniq
Es ergibt sich, dass es 130.553 verschiedene korrekte ISBNs gibt (bei insgesamt 196.637 korrekten ISBN-Angaben). Da die Zahl der Vorkommen schief verteilt ist, macht es keinen Sinn, einen normalen Mittelwert anzugeben.
Eine weitere Statistik betrifft die Überlappung zwischen Wikipedia und Literaturdatenbanken. Ich habe mir die ISBN-Nummern aus LibraryThing besorgt und überprüft, wieviele der ISBN aus Wikipedia auch in LibraryThing vorkommen. Es zeigt sich, dass von den 130.553 verschiedenen korrekte ISBNs 25.674 (19,7 %) bereits in LibraryThing eingetragen sind. Die Treffer gehören zu 24.287 verschiedenen Werken, wenn man mit Hilfe von thingISBN verschiedene Auflagen und Übersetzungen zusammenfasst.
cat uniq | isbnproject/isbn_works.pl awk -F';' '$2{print $2}' validuniquewithworks | wc -l awk -F';' '$2{print $2}' validuniquewithworks | sort | uniq | wc -l
ISBN-Fehlerliste
[Quelltext bearbeiten]Siehe Benutzer:APPER/ISBN.