Wikipedia:Personendaten

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen

Personendaten sind spezielle Metadaten, die in Artikeln über Personen aufgenommen werden, damit sie daraus automatisch extrahiert und weiterverarbeitet werden können. Sie bestehen aus einer Reihe von Datenfeldern wie beispielsweise Name, Geburtstag und Kurzbeschreibung einer Person.

Bearbeitungsstand: Im August 2014 gab es in über 540.000 Biografie-Artikeln (mehr als 30 % der deutschsprachigen Wikipedia) Personendaten.

Diese Seite hier enthält Wartungslisten zu den Personendaten. Für technische Hinweise und Anleitungen zur Verwendung siehe Hilfe:Personendaten.

Geschichte der Personendaten

[Quelltext bearbeiten]

Ohne einheitliche Formatierung bei Artikeln über Personen ist es sehr schwer, Daten über Personen aus den Artikeln zu extrahieren. Bei der Konvertierung für die erste Wikipedia-CD wurden halbautomatisch über 25.000 Personennamen nach den Regeln für die alphabetische Katalogisierung lemmatisiert und als allernotwendigste Teile eines Personendatensatzes Name, Kurzbeschreibung, Geburtsdatum, Geburtsort, Sterbedatum und Sterbeort ausgezeichnet.

Im Vorfeld der Erstellung der zweiten CD wurden die Personendaten in der heutigen Form eingeführt, damit die Daten zum einen nicht für jede CD erneut erstellt werden müssen und zum anderen auch für andere Projekte genutzt werden können. Die Einbindung begann im Dezember 2004. Directmedia, der Ersteller der Wikipedia-CD, unterstützte das Projekt im Januar 2005 mit einer „Tagging Party“.

Nach der deutschsprachigen Wikipedia hat Ende Dezember 2005 auch die englischsprachige Ausgabe diese Art von Metadaten eingeführt, dort trugen 2012 über eine Million Artikel das Template:Persondata.

Eine wichtige Anwendung war die Wikipedia-DVD, die Personendaten lassen sich aber auch anderweitig nutzen, beispielsweise zur Erstellung von Geburtstagslisten oder für eine Personensuche.

Zusätzlich werden seit 2005 Personenartikel mit wichtigen Personendatenbanken verknüpft. Anfangs wurde die Personennamendatei erschlossen, wodurch Wikipedia-Links im Online-Katalog der DNB realisiert wurden. Seit 2009 werden mit der Vorlage:Normdaten weitere Datenbanken wie die Authorities der Library of Congress[1] einbezogen.

Mit dem 2012 gestarteten Wikidata-Projekt steht seit rund 2013 eine weitere Software zur Wikimedia-weit zentralisierten Speicherung von Personendaten zur Verfügung, deren Befüllung allerdings vollständig unabhängig von den Personendaten in der deutschsprachigen Wikipedia abläuft. Die Daten aus der Personendaten-Vorlage haben bei Wikidata grob folgende analoge Felder:

Ein automatischer Abgleich der Daten in Wikidata mit den Personendaten oder ein automatischer Bezug von Daten von Wikidata wird nicht durchgeführt. Es gibt ferner keine Bestrebungen, die doppelte Datenhaltung in der deutschsprachigen Wikipedia zu beenden. In der englischsprachigen Wikipedia wurden die Personendaten dagegen durch ein Meinungsbild im Mai 2015 abgeschafft und bis Juli 2016 vollständig zurückgebaut.

Arbeiten mit den Personendaten

[Quelltext bearbeiten]

Extraktion der Personendaten

[Quelltext bearbeiten]

Die Extraktion der Personendaten und GND-Links ist entweder aus einer SQL-Datenbank oder direkt aus dem XML-Dump möglich. Weiteres steht auf der Unterseite Datenextraktion.

Herunterladen der Personendaten

[Quelltext bearbeiten]

Ein tagesaktueller Dump aller Personendaten lässt sich unter toolforge:persondata herunterladen.

Abfragen und Auswerten von Personendaten

[Quelltext bearbeiten]

Wartung der Personendaten

[Quelltext bearbeiten]

Die Wartung der vorhandener Personendaten erfolgt mit Hilfe einiger Skripts. Es gibt einige Wartungslisten, bei denen die Personendaten möglicherweise verbesserungswürdig sind. Bitte entfernt abgearbeitete Artikel. Beim Neueintragen von Fehlerlisten gebt bitte das Datum des Datenbankdumps und ggf. das benutzte SQL-Statement an. Allgemeine Auswertungen der Personendaten werden unter Wikipedia:Personendaten/Auswertung gesammelt.

Sonstiges

Weitere Verwendungen

[Quelltext bearbeiten]

Die genaue Anzahl der Verwender und das Spektrum der Verwendung der Personendaten ist nicht zu ermitteln. Jeder kann sich die Daten aus einem Dump extrahieren und nutzen, ohne dass es jemand mitbekommt. Die oben genannten Beispiele haben alle einen direkten Bezug zur deutschsprachigen Wikipedia. Falls noch weitere Verwender bekannt sind, sollten sie nachstehend eingetragen werden.

  • Die Liste der Biografien wird durch PD automatisch befüllt
  • PD können zum Abgleich mit Personeneinträgen an anderen Stellen genutzt werden (in Vergangenheit z. B. nützlich für die Bundesarchiv-Kooperation)
  • Das PD-Tool (siehe oben) wird verwendet, um runde Geburtstage zu finden, die auf der Hauptseite bekanntgemacht werden

Die folgende Tabelle gibt die zahlenmäßige Entwicklung der biografischen Artikel in Wikipedia wieder:

Datum Artikel GND, Typ p[2] Prozent GND
7. Sep. 2005 56.258 14.506 26 %
27. Nov. 2005 64.875 15.476 24 %
11. Dez. 2005 67.946 15.697 23 %
12. Feb. 2006 79.532 17.328 23 %
20. März 2006 86.830 18.069 21 %
20. Apr. 2006 90.636 19.152 21 %
5. Juni 2006 95.534 19.977 21 %
3. Aug. 2006 101.737 21.569 21 %
5. Nov. 2006 116.015 24.130 21 %
30. Nov. 2006 120.285 24.792 21 %
2. Apr. 2007 145.760 28.189 19 %
28. Apr. 2007 152.645 29.106 19 %
24. Mai 2007 157.561 30.989 20 %
1. Juli 2007 163.444 31.462 19 %
9. Okt. 2007 178.734 38.830 22 %
17. Dez. 2007 187.452 40.059 21 %
21. Feb. 2008 197.446 43.103 22 %
23. Jan. 2011 365.366 141.129 39 %
4. Mai 2011 381.465 147.920 39 %
19. Dez. 2011 413.136 165.847 40 %
7. Juli 2012 440.722 184.832 42 %
1. Aug. 2013 467.863 221.221 47 %
21. Okt. 2014 548.317 251.689 46 %
30. Juni 2015 577.884 273.994 47 %
11. Jan. 2020 811.827 384.096 47 %

Weitere Informationen

[Quelltext bearbeiten]

Einzelnachweise

[Quelltext bearbeiten]
  1. authorities.loc.gov
  2. Bis Ende April 2012 PND.