Benutzer:SrbBot
Zur Navigation springen
Zur Suche springen
Diese Benutzerkennung ist die Botkennung für Benutzer:Srbauer ♋ - das Botflag wurde am 22. Mai 2007 erteilt.
Der Bot auf Basis des Pywikipedia-Frameworks befindet sich derzeit im Testbetrieb und wird intensiv weiterentwickelt.
Projekte
IndexBot
Beschreibung
Automatische Erstellung eines Artikelindex auf der Basis von Kategorie-Bäumen
- Aus vorgegebenen "Wurzelkategorien" (mehrere möglich) wird der entsprechende Ast bestimmt. Der Ast wird vollständig verfolgt, bis alle Subkategorien erfasst sind - es können jedoch auch Blacklist-Kategorien angegebenen werden, die weder aufgenommen noch weiterverfolgt werden (z.B. "fachfremde Kategorien" in einem "Portal-Ast").
- Es wird eine Gesamtliste aller Artikel in den Ästen erstellt, entsprechend der im Artikel hinterlegten Kategoriesortierung sortiert
- Es können sowohl der Baum als auch die Indexseiten (entweder auf einer Seite oder für jeden Anfangsbuchstaben eine eigene Seite) hochgeladen werden
weiteres Vorgehen
Das Redesign des Bots ist soweit abgeschlossen und die Erfassung erfolgt komplett über die API, jetzt ist ausgiebiges Testen fällig – Dokumentation ist noch nicht vorhanden und muss erstellt werden.
nächste Schritte
- Verwendung der Kategoriensortierung auch zur Anzeige der Indexeinträge, Problem: Auf Grund der Sortierprobleme von MediaWiki werden im DEFAULTSORT-Kriterium Nicht-ASCII-Zeichen so ersetzt, dass die Sortierung zwar passt, das Kriterium aber nicht mehr zur Anzeige taugt
- Lösungsidee:
Kategoriensortierung nur als "Schablone" verwenden: Ordne die Teilbestandteile (Worte) des Lemmas so um, dass es die größte Ähnlichkeit mit der Kategoriensortierung aufweist (→ z.B. mit der Levenshtein-Distanz, Pythonfunktion vorhanden)
- Lösungsidee:
- Erfasse Weiterleitungen auf Indexeinträge (Aufwand muss noch geprüft werden)
weitere Pläne & Ideen
- Nicht alle Weiterleitungen sind als Indexeinträge sinnvoll - Abhilfe durch Kategorisierung der sinnvollen Indexeinträge?
- Vereinigung von Ästen ist durch mehrere Wurzelkats bereits möglich - ist auch die Schnittmengen- bzw. Differenzbildung von Bäumen (z.B. "Kategorie in Baum A, aber nicht in Baum B" oder "Artikel in Baum A, aber nicht in Baum B") sinnvoll sowie praktikabel umsetzbar?
Aktivitäten
IndexBot
Regelmäßig
einmalig
- Portal:Buddhismus/Glossar (Index dient als Basis für das Glossar)
Andere Aktivitäten
- Benutzer:Srbauer/Doppelte Redirects: Viele Doppelte Redirects tauchen auf der Wartungsseite Spezial:Doppelte Weiterleitungen nicht auf - Testlauf am 4.6.07 lieferte 1767 Doppelte Redirects im Artikelnamensraum, obwohl die Wartungsseite leer und der Cache erst wenige Stunden alt war.