Wikipedia:Archiv/WP 1.0/Lemmaselektion
Die Selektion und die Anordnung der Lemmata für eine hundertbändige gedruckte Enzyklopädie, die innerhalb von 4 Jahren erscheinen soll und auf der schnell sich verändernden Wikipedia basiert ist zweifelsohne eine anspruchsvolle Aufgabe. Diese muss man mit viel Um- und vor allem Voraussicht lösen. Tasten wir uns heran.
Arbeitsmaterial
[Quelltext bearbeiten]Raul hat ein Tool entwickelt, das von einem Dump eine Tabelle der (blauen und roten) Lemmata mit folgenden Feldern erzeugt:
- Daten für die alphabetische Einordnung
- Lemma Wikipedia
- Ist Artikel vorhanden J/N (es werden auch rote Links aufgenommen)
- Ist Redirect J/N
- Redirect-Ziel falls vorhanden
- Personendaten vorhanden J/N
- Name falls Personendaten vorhanden
- Alternativname falls Personendaten vorhanden
- Ist BKL J/N (aus dem Text via Baustein filtern)
- Alternativlemma aus den Kategorien zu ziehen: [[Kategorie:Historischer Brand|Chicago, Großer Brand von]], mit Semikolon aneinanderreihen falls unterschiedliche vorkommen
- Daten für die Vorabgewichtung
- Länge des Artikels in Bytes
- Erstellungsdatum des Artikels (noch nicht, dafür muss man den Full Dump verarbeiten)
- Anzahl der Edits (noch nicht, dafür muss man den Full Dump verarbeiten)
- Anzahl der Links innerhalb der Wikipedia auf dieses Lemma
- Sprachen der Interwiki-Links, durch Semikolon getrennt
- Daten für die Aufteilung in die Fachredaktionen
- Kategorien des Artikels, durch Semikolon getrennt
Rote Links werden als nicht vorhandene Artikel aufgenommen. Die Daten müssen jetzt aufbereitet werden, mehr demnächst.
Auswahl der Lemmata
[Quelltext bearbeiten]Die meisten Listen werden nicht aufgenommen, "Standardlisten" wie Liste_der_Friedensnobelpreisträger schon.
Relevanzkriterien: Grundsätzlich soll jedes Lemma aufgenommen, das den Relevanztest der Community erfüllt. Die Länge des entsprechenden Artikels wird aber durch die Gewichtung des Artikels bestimmt.
Anordnung der Lemmata
[Quelltext bearbeiten]Offene Fragen:
- Geschichte Griechenlands wird zu Griechenland (Geschichte)? (nicht in der Wikipedia, nur in der Lemmalogik)
- wo werden Lemmata eingeordnet, die mit Ziffern und Sonderzeichen beginnen?
- Umgang mit Redirects (die automatische Selektion, die bei der DVD 2005/06 vorgenommen wurde muss manuell verfeinert werden)
Gewichtung der Lemmata
[Quelltext bearbeiten]Schneiden des Alphabets in 100 Teile
[Quelltext bearbeiten]Die Grenze der Lemmastrecke des ersten Bandes muss bestimmt werden. Um ein Gefühl für die Proportionen klassischer Lexika zu bekommen kann diese Liste eingesehen und erweitert werden:
Name | Jahr | Bände | Seiten | Band1 | 1/100 |
---|---|---|---|---|---|
dtv Lexikon | 1966 | 20 | 320 | Bamu | Akti |
Herder 5.A | 1956 | 9 | 1510 | Bitt | Agra |
wissen.de | 2004 | 24 | 350 | Apis | Affe |
BertelsmannL | 1966 | 7 | 1430 | Camu | Afon |
Duden3B | 1961 | 3 | 750 | fz | Aich |
Duden3B | 1965 | 3 | 820 | fz | Ahle |
Duden3B | 1976 | 3 | 750 | fz | Agen |
Das moderne Lexikon (Bertelsmann) | 1979 | 20 | 447 | Art | Afrika |
Grosses Modernes Lexikon (Bertelsmann) | 1982 A | 12 | 574 | Baug | Aeroklimatologie |
Grosses Lexikon in Farbe | 1985 | 1 | 1080 | Ägäische Kultur (sort: Aga) | |
Der große Coron | 1993 | 20 | 496 | apostrophieren | Ädil |
Meyers Großes Universallexikon | 1981 | 15 | 648 | attributiv | Adhortativ |
Meyers Neues Lexikon | 1961 | 8 | 950 | Bossuet | Affenadler |
Meyers Universal Lexikon | 1978 | 4 | 720 | Finanz | Adder |
Brockhaus Konv. 8. Auflage | 1833 | 12 | 953 | Bluthochzeit | Ägina |
Brockhaus Konv. 11. Auflage | 1864 | 15 | 944 | Arachniden | Achard |
Brockhaus Konv. 13. Auflage | 1882 | 16 | 950 | Astrabad | Adventivknospe |
Brockhaus Konv. 14. Auflage | 1893 | 16 | 1018 | Arraroba | Adlerdollar |
Brockhaus Enz. 17. Auflage | 1966 | 20 | 830 | Atesis | Afrika |
Brockhaus Enz. 19. Auflage | 1986 | 24 | 700 | Aptychen | Affenfurche |
Der grosse Brockhaus | 1977 | 12 | 650 | Befund | Afrika |
Der Brockhaus in 5 Bd. 8. Auflage | 1993 | 5 | 695 | Eiszeit | Agrumen |
Das Wissen des 20. Jhd | 1966 | 6 | 575 | Element | Aktiengesellschaft |
Das Lexikon für Österreich | 2006 | 20 | 480 | Ausrüstung | Agenda 21 |
Im Vergleich dazu die Größenangaben und Berechnungen an Hand der XML-Daten der Wikipedia-DVD, Stand November 2005. Berücksichtigt sind nur die A-Z-Artikel ohne Ziffern- und Sonderzeichenartikel, Listen, Chroniken und Kalendertage.
Name | Datum | Bytes | 1/100 |
---|---|---|---|
Wikipedia-DVD | November 2005 | 1.205.714.498 | Afinger, Bernhard |