Wikipedia:Archiv/WP 1.0/Lemmaselektion

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen

Diese Seite gehört zum Wikipedia-Archiv.

Die Selektion und die Anordnung der Lemmata für eine hundertbändige gedruckte Enzyklopädie, die innerhalb von 4 Jahren erscheinen soll und auf der schnell sich verändernden Wikipedia basiert ist zweifelsohne eine anspruchsvolle Aufgabe. Diese muss man mit viel Um- und vor allem Voraussicht lösen. Tasten wir uns heran.

Arbeitsmaterial

[Quelltext bearbeiten]

Raul hat ein Tool entwickelt, das von einem Dump eine Tabelle der (blauen und roten) Lemmata mit folgenden Feldern erzeugt:

  • Daten für die alphabetische Einordnung
  • Lemma Wikipedia
  • Ist Artikel vorhanden J/N (es werden auch rote Links aufgenommen)
  • Ist Redirect J/N
  • Redirect-Ziel falls vorhanden
  • Personendaten vorhanden J/N
  • Name falls Personendaten vorhanden
  • Alternativname falls Personendaten vorhanden
  • Ist BKL J/N (aus dem Text via Baustein filtern)
  • Alternativlemma aus den Kategorien zu ziehen: [[Kategorie:Historischer Brand|Chicago, Großer Brand von]], mit Semikolon aneinanderreihen falls unterschiedliche vorkommen
  • Daten für die Vorabgewichtung
  • Länge des Artikels in Bytes
  • Erstellungsdatum des Artikels (noch nicht, dafür muss man den Full Dump verarbeiten)
  • Anzahl der Edits (noch nicht, dafür muss man den Full Dump verarbeiten)
  • Anzahl der Links innerhalb der Wikipedia auf dieses Lemma
  • Sprachen der Interwiki-Links, durch Semikolon getrennt
  • Daten für die Aufteilung in die Fachredaktionen
  • Kategorien des Artikels, durch Semikolon getrennt

Rote Links werden als nicht vorhandene Artikel aufgenommen. Die Daten müssen jetzt aufbereitet werden, mehr demnächst.

Auswahl der Lemmata

[Quelltext bearbeiten]

Die meisten Listen werden nicht aufgenommen, "Standardlisten" wie Liste_der_Friedensnobelpreisträger schon.

Relevanzkriterien: Grundsätzlich soll jedes Lemma aufgenommen, das den Relevanztest der Community erfüllt. Die Länge des entsprechenden Artikels wird aber durch die Gewichtung des Artikels bestimmt.

Anordnung der Lemmata

[Quelltext bearbeiten]

Offene Fragen:

  • Geschichte Griechenlands wird zu Griechenland (Geschichte)? (nicht in der Wikipedia, nur in der Lemmalogik)
  • wo werden Lemmata eingeordnet, die mit Ziffern und Sonderzeichen beginnen?
  • Umgang mit Redirects (die automatische Selektion, die bei der DVD 2005/06 vorgenommen wurde muss manuell verfeinert werden)

Gewichtung der Lemmata

[Quelltext bearbeiten]

Schneiden des Alphabets in 100 Teile

[Quelltext bearbeiten]

Die Grenze der Lemmastrecke des ersten Bandes muss bestimmt werden. Um ein Gefühl für die Proportionen klassischer Lexika zu bekommen kann diese Liste eingesehen und erweitert werden:

Name Jahr Bände Seiten Band1 1/100
dtv Lexikon 1966 20 320 Bamu Akti
Herder 5.A 1956 9 1510 Bitt Agra
wissen.de 2004 24 350 Apis Affe
BertelsmannL 1966 7 1430 Camu Afon
Duden3B 1961 3 750 fz Aich
Duden3B 1965 3 820 fz Ahle
Duden3B 1976 3 750 fz Agen
Das moderne Lexikon (Bertelsmann) 1979 20 447 Art Afrika
Grosses Modernes Lexikon (Bertelsmann) 1982 A 12 574 Baug Aeroklimatologie
Grosses Lexikon in Farbe 1985 1 1080 Ägäische Kultur (sort: Aga)
Der große Coron 1993 20 496 apostrophieren Ädil
Meyers Großes Universallexikon 1981 15 648 attributiv Adhortativ
Meyers Neues Lexikon 1961 8 950 Bossuet Affenadler
Meyers Universal Lexikon 1978 4 720 Finanz Adder
Brockhaus Konv. 8. Auflage 1833 12 953 Bluthochzeit Ägina
Brockhaus Konv. 11. Auflage 1864 15 944 Arachniden Achard
Brockhaus Konv. 13. Auflage 1882 16 950 Astrabad Adventivknospe
Brockhaus Konv. 14. Auflage 1893 16 1018 Arraroba Adlerdollar
Brockhaus Enz. 17. Auflage 1966 20 830 Atesis Afrika
Brockhaus Enz. 19. Auflage 1986 24 700 Aptychen Affenfurche
Der grosse Brockhaus 1977 12 650 Befund Afrika
Der Brockhaus in 5 Bd. 8. Auflage 1993 5 695 Eiszeit Agrumen
Das Wissen des 20. Jhd 1966 6 575 Element Aktiengesellschaft
Das Lexikon für Österreich 2006 20 480 Ausrüstung Agenda 21

Im Vergleich dazu die Größenangaben und Berechnungen an Hand der XML-Daten der Wikipedia-DVD, Stand November 2005. Berücksichtigt sind nur die A-Z-Artikel ohne Ziffern- und Sonderzeichenartikel, Listen, Chroniken und Kalendertage.

Name Datum Bytes 1/100
Wikipedia-DVD November 2005 1.205.714.498 Afinger, Bernhard