Wikipedia:Personendaten/Auswertung
Auf dieser Seite werden verschiedene Auswertungen der Personendaten gesammelt. Auswertungen für Wartungszwecke stehen unter Wikipedia:Personendaten/Wartung. Unter Wikipedia:Personendaten/Datenextraktion ist beschrieben, wie die Rohdaten aus dem Datenbankdump extrahiert oder direkt heruntergeladen werden können.
Beiträge zu weiteren Auswertungen sind erwünscht!
Geschlecht und Kategorien
[Quelltext bearbeiten]Wikipedia (live): Biografien nach Geschlecht | ||
---|---|---|
2.613.075 | Artikel in de:Wikipedia | (+ 348.251 BKS) |
959.538 | Biografien: | (32,4 %) |
786.394 | Männer | 81,96 % |
172.837 | Frauen | 18,01 % |
189 | nichtbinäre Personen | 0,020 % |
118 | unbekannten Geschlechts | 0,012 % |
Stand 04. März 2012:
- Kategorie:Mann: 360.951 (85,3%)
- Kategorie:Frau: 62.161 (14,6%)
- Kategorie:Intergeschlechtliche Person: 7 (0,0000165%)
- Kategorie:Geschlecht unbekannt: 11 (0,0000260%)
Wie alt geworden?
[Quelltext bearbeiten]Beispielsweise alle Personen, die genau 100 Jahre alt geworden sind, ermitteln:
SELECT pd_article FROM pub_pd WHERE d_year-b_year = 100 AND b_note='' AND d_note='';
b_note='' AND d_note=''
ist notwendig, damit Datumsangaben wie „um 1970“ nicht berücksichtigt werden.
Namenshäufigkeit
[Quelltext bearbeiten]Vornamen
[Quelltext bearbeiten]- Wikipedia:Personendaten/Auswertung/Vornamen, Stand 13. Juli 2005
- Benutzer:Stefan Knauf/Vornamenshäufigkeit in Personendaten, Stand 6. September 2013
- Vornamenshäufigkeit in Personendaten, täglich aktualisiert und filterbar nach Geschlecht, Geburtsjahrzehnt und Herkunftsland
- Wikipedia:Personendaten/Auswertung/Spitznamen, Langformen zu Spitznamen, Stand 1. Mai 2015
Nachnamen
[Quelltext bearbeiten]Stand unbekannt, vor Juni 2005
Müller (83), Ahlefeldt (82), Fischer (55), Baden (51), Schneider (46), Schmidt (43), Jones (41), Smith (39), Meyer (36), Hoffmann (34), Bach (32), Weber (32), Becker (31), Richter (31), Williams (31), Wagner (29), Gonzaga (28), Fuchs (27), Taylor (26), Anderson (26), Berg (26), Jackson (26), Koch (25), Davis (25), Adams (25), Johnson (25), Berger (25), Braun (25), Lehmann (24), Wilson (24), Neumann (23), Wolf (23), Brown (21), Bauer (20), Miller (20), King (20), Huber (19), Roth (19), Moore (19), Hofmann (18), Carter (18), Lange (18), Hartmann (18), Walter (18), Schulz (18), White (18), Klein (18), Khan (17), Medici (17), Otto (17), Simon (17), Lang (16), Lee (16), Albrecht (16), Hill (16), Arnold (16), Russell (16), Visconti (16), Baumann (16), Mann (16), Martin (16), Graf (15), Evans (15), Beck (15), Lenz (15), Werner (15), Frank (15), Thomas (15), Zimmermann (15), Sforza (15), Barth (14), Kramer (14), Mayer (14), Scott (14), Douglas (14), Böhm (14), Ross (14), James (14), Hahn (14), Haas (14), Herrmann (14), Wright (14), Clark (14), Busch (13), May (13), Stein (13), Steiner (13), Krüger (13), Krause (13), Brandt (13), Peters (13), Schmitt (13), Baker (13), Heine (13), Hamilton (13), Keller (13), Young (13), Adler (13), Friedrich (13), Kühn (13), Lewis (13)
Datumsangaben
[Quelltext bearbeiten]Die Datumsangaben werden bei der Transformation syntaktisch analysiert, um möglichst viele Fälle erkennen zu können.
Siehe auch Hilfe:Personendaten/Datumsangaben.
Statistik der Personendaten der ersten DVD:
Art | Geburtsdatum | Sterbedatum |
---|---|---|
Tag | 26750 | 17294 |
Monat | 118 | 167 |
Jahr | 6486 | 3509 |
Jahrhundert | 48 | 17 |
Keine Angabe | 1937 | 14355 |
Unbekannt | 31 | 23 |
Fehler | 30 | 35 |
Summe | 35404 | 35404 |
Visualisierung
[Quelltext bearbeiten]Sind die Daten erst einmal in ein einheitliches Format gebracht, kann man schöne Sachen damit anstellen, zum Beispiel die Verteilung der Geburtsdaten pro Jahrzehnt (hier bisher nur die Tagesangaben):
Relevanz von Personen
[Quelltext bearbeiten]Diese Seiten sind Teil einer Untersuchung nach verschiedenen Relevanzkriterien:
- http://www.alder-digital.de/wiki/index.php?title=Personendaten/Top100pagesize
- http://www.alder-digital.de/wiki/index.php?title=Personendaten/Top1000linksto
- http://www.alder-digital.de/wiki/index.php?title=Personendaten/Top1000views
Dadurch sollten objektive und automatisierbare Verfahren zur Selektion von wichtigen Personen gefunden und verglichen werden, zudem sollte die Objektivität und Ausgewogenheit der Wikipedia geprüft werden. Ein weiteres Kriterium könnte die Anzahl der Edits pro Artikel sein.
Die Top100pagesize-Statistik basiert auf der Annahme, dass über wichtige Personen mehr geschrieben wird als über unwichtige. Bei der Top1000linksto wird die Anzahl der Links auf eine Seite ausgewertet. Top1000views basiert auf einer leider veralteten (2005) Besucherstatistik der Wikipedia. Ansprechpartner: Benutzer:Kolossos
Personendaten über Vorlagenauswertung
[Quelltext bearbeiten]Über das Projekt Wikipedia:WikiProjekt Vorlagenauswertung können auch Personendaten ausgewertet werden. Beispiel:
- https://tools.wmflabs.org/templatetiger/tt-table4.php?template=Personendaten&lang=de&where=GEBURTSORT&is=London
- https://tools.wmflabs.org/templatetiger/tt-table4.php?template=Persondata&lang=en&where=PLACE%20OF%20BIRTH&is=London
Alle Personen, die in London geboren wurden, in der deutsch- bzw. englischsprachigen Wikipedia.
Literatur
[Quelltext bearbeiten]- Jakob Voß: Metadata with Personendaten and beyond. In: Proceedings of the First Wikimania Conference, 2005 [1]