Wikipedia:DVD/Digibib/Rohdaten
< Wikipedia:DVD | Digibib
Auf der DVD der Wikipedia-Distribution sind einige Daten dabei, die sich gut für Untersuchungen verwenden lassen. An dieser Stelle ein wenig Reverse Engineering mit Unterstützung von Directmedia.
Verzeichnisstruktur
[Quelltext bearbeiten]DVD
[Quelltext bearbeiten]Autoren
AutKurz.txt
: Quellenangabe (vermutliche Hauptautoren). Zeilenweise pro Artikel:Titel
,Autoren
(per@
getrennte Liste),IPCount
(Anzahl anonymer Autoren).AutLang.txt
: Bearbeitungsgeschichte eines jeden Artikels (jeweils eine Liste mit allen Bearbeitungsschritten und den FeldernDatum/Zeit
,Autor
,minorflag
,Kommentar
).AutLang.idx
: Indexdatei zum Zugriff aufAutLang.txt
Data
Coverm84.bmp
: Cover der DVD (klein)Index.htx
: HashtabelleIndex.set
: Nicht benötigt.Index.wlx
: Wortliste mit diversen ZeigernTree.dka
: Verzeichnisstruktur (u.A. alle Artikeltitel). Zeilenweise und per Leerzeichen eingerückt (Achtung: die Artikeltitel von Personenartikeln sind permutiert)lemmata.txt
:Artikeltitel#LemmatagruppeSeite
Lemmatagruppe ist dabei "A" für Sachartikel und "B" für Personenartikel.DigiBib.txt
: ini-Datei mit Einstellungen der DVDIndex.plx
: Reverse IndexIndex.ttx
: Sequentielle WortnummernText.dki
: Die gesamten Texte der Wikipedia (komprimiert)tabelle0.tab
: Personendaten, internes Format. Hier als Tab-getrennte Textdatei.
db
Gindex.dbz
: Passwordgeschützes Zip-Archiv mit Covern, Inhaltsverzeichnissen und Lemmatalisten aller Titel der Digitalen Bibliothek. Die UnterverzeichnisseDB001/Data
bisTYP09/Data
enthalten jeweils vier Dateien:CovermXY.bmp
(wobei XY eine Zahl),lemmata.txt
,tree.dki
undtree.idx
. Installiert man die Wikipedia auf die Festplatte und wählt "auch Suchinformationen anderer Bände", werden diese Dateien im Klartext in entsprechende Unterverzeichnisse entpackt. Hat nichts mit der Wikipedia zu tun.
HTML
HTML.dat
: Virtuelles Verzeichnis mit hintereinandergepappten HTML-DateienHTML.idx
: Index-Datei zum Zugriff auf HTML.dat. Zeilenweisen:Dateiname Position Länge
. Die Dateinamen sind vonta000000.html
bista038748.html
durchnummeriert. Dabei handelt es sich höchstwahrscheinlich um die in die Artikel eingebundenen Tabellen.
Images
: Alle Bilder in einer Dateilinux
: ProgrammdateienPDA
: Daten im Mobipocket Reader Format
images
alle Bilder (2.378 Dateien, 22MB)- ...der Rest scheint nicht direkt verarbeitbar (durch Knoppix/Lamppix komprimiert)
XML
[Quelltext bearbeiten]Die Quelldaten sind online erhältlich. Da der Generator der Digibib es nicht allzu genau nimmt, hat der Dump2Digibib-Konverter es auch nicht allzu genau genommen... Teilweise gibt es überlappende Tags. Wenn jemand wirklich wohlgeformte Daten braucht, bitte an Vlado wenden.