Benutzer:BWBot

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen
Dieser Benutzer ist ein Bot ohne Bot-Flag. Er wird von Bananeweizen betrieben.
  • Der Bot ist zurzeit außer Betrieb.
  • Sperre den Bot, falls er nicht korrekt funktioniert.
  • Kontrolliere die Arbeit des Bots.
  • Kontaktiere den Betreiber bei Fehlern.

Du bist bestimmt hier gelandet, weil du in einem Artikel eine von BWBot vorgenommene Änderung gefunden hast. BWBot ist ein Bot, d.h. ein Computerprogramm, welches halbautomatisch Wikipedia-Seiten bearbeitet. Die Gründe für solche Änderungen sind im Abschnitt Korrekturen aufgelistet und mit der Wikipedia-Gemeinschaft abgestimmt.

Wenn der Bot einen Fehler macht

[Bearbeiten | Quelltext bearbeiten]

Wenn du auf Probleme stößt, die der Bot verursacht hat, dann melde das bitte Bananeweizen, damit der Bot verbessert werden kann. Es reicht nicht, die alte Version wiederherzustellen, da der Bot die Änderung beim nächsten Durchlauf wiederholen wird. Gerade bei Zitaten und Fremdwörtern reicht es übrigens, wenn du korrekte Zitatformatierung und Fremdwortformatierung verwendest, damit der Bot sie nicht nochmal anfaßt. Sollte der Bot aus unerfindlichen Gründen systematisch eine Seite nach der anderen verhunzen, dann melde das einem Admin, damit der Account des Bots gesperrt werden kann, um das Ändern weiterer Seiten zu verhindern. Es kann übrigens vorkommen, daß der Bot in einem Wort mit mehreren Fehlern nicht alle korrigiert (sondern zum Beispiel nur die Vorsilbe), so daß die korrigierte Version immer noch nicht perfekt ist (siehe Abschnitt Tippfehler).

Einschränkungen bei den Korrekturen

[Bearbeiten | Quelltext bearbeiten]

Manuelle Bestätigung aller Änderungen

[Bearbeiten | Quelltext bearbeiten]

Da mir (Bananeweizen) ständig irgendwelche Leute vorwerfen, so ein Bot könnte gar nicht in jedem Fall erkennen, was er ändern darf und was nicht, hier der ausdrückliche Hinweis: Der Bot erstellt lediglich Listen von Vorschlägen, die ich persönlich bestätige oder verwerfe. Und die von mir verworfenen Änderungen werden im Bot für den entsprechenden Artikel für alle Zeiten als nicht anwendbar gespeichert.

Keine Rechtschreibreform

[Bearbeiten | Quelltext bearbeiten]

Der Bot forciert hier auch nicht die neue Rechtschreibung, obwohl die Mehrheit der Benutzer laut einer Umfrage vom August 2004 die neue Rechtschreibung bevorzugt. Er ändert lediglich Schreibweisen, die sowohl in alter als auch neuer Rechtschreibung verkehrt sind. Beispiel: grosse statt große ist außer in Artikeln mit Schweizbezug nach alter und neuer Rechtschreibung verkehrt, da auch in neuer Schreibung nicht einfach alle ß ersetzt werden.

Geschützte Bereiche in Artikeln

[Bearbeiten | Quelltext bearbeiten]

Der Bot kennt einige programmatische Einschränkungen, damit er nicht wild durch die Gegend editiert. Wenn du meinst, daß der Bot noch andere außer den im Folgenden genannten Stellen auslassen muß, dann laß Bananeweizen eine kurze Info dazu zukommen.

Der Bot ändert grundsätzlich keine Seiten

  • die Benutzer- oder Diskussionsseiten sind (er ist nur auf dem Hauptnamensraum der deutschen Wikipedia aktiv)
  • die in irgendeiner Schreibweise das Wort Schweiz enthalten (nur bei Änderungen, bei denen ein ß ergänzt oder ersetzt werden soll, siehe: Wikipedia:Rechtschreibung)

Außerdem ändert er keine Textpassagen (innerhalb von Seiten), die

  • innerhalb der Tags <pre>, <math>, <code> oder <sic> stehen (letzteres ist kein offizielles Tag, wird aber teilweise fälschlich statt eines Kommentars verwendet)
  • in HTML-Kommentaren (<!-- -->) stehen,
  • in denen selbst das Wort sic enthalten ist, oder bei denen das Wort Sic in einem Umkreis von 100 Zeichen um die Textpassage herum steht
  • Teil von Weblinks oder WikiLinks sind (gilt auch für den Text, der direkt an der schließenden Klammer eines Wikilinks hängt); eine Ausnahme hiervon wird beim Korrigieren von HTML-Entitäten und Begriffsklärungen gemacht.
  • in einer Zeile mit Fixed-Font stehen (d.h. das erste Zeichen in dieser Zeile ist ein Leerzeichen).
  • Vorlagen enthalten (z.B. Navigationsleisten)
  • innerhalb von doppelten Anführungszeichen (mit den Varianten „...“ ,«...», »...« und "...") oder in Wiki-Kursivformatierung (zwei aufeinanderfolgende einfache Anführungszeichen) stehen. So sollten Fremdwörter bzw. Zitate angegeben sein.
  • bei denen der Anteil der Buchstaben innerhalb eines Bereiches von 30 Zeichen vor Beginn der Textpassage bis 30 Zeichen nach Ende der Textpassage weniger als 40 Prozent beträgt (damit können einige nicht mit <math> gekennzeichnete Formeln ausgeschlossen werden)
  • so auch Teil des Titels sind (diese Regelung gilt nicht bei allen Korrekturen, aber zumindest bei Wortdopplungen und ähnlichem)

Aufgrund dieser vielen Sonderregeln kann es übrigens auch passieren, daß der Bot in einem Artikel an 5 Stellen einen Fehler korrigiert und das 6. Auftreten des (eventuell sogar gleichen) Fehlers leider nicht korrigiert. Hier gilt der Grundsatz: Lieber zuwenig korrigiert als zuviel.

Primäre Korrekturen

[Bearbeiten | Quelltext bearbeiten]

Die im Folgenden aufgelisteten Probleme sucht der Bot aktiv im jeweils aktuellsten Dump der Datenbank.

Tippfehler (Typos), Schreibweisen

[Bearbeiten | Quelltext bearbeiten]

Der Bot korrigiert Tippfehler, die er eindeutig identifizieren kann.

  • Buchstabendreher werden gesucht: ect. --> etc..
  • Nahezu sämtliche Einträge aus den Tippfehlerlisten werden gesucht.
  • Worte mit sich wiederholenden Buchstabengruppen werden geprüft, da man diese Gruppen häufig zu oft schreibt: gegegeben --> gegeben.
  • Nahezu alle doppelt geschriebenen substantivischen Endungen werden erkannt: Endungung --> Endung.
  • Die Regeln zur Schreibung von ss oder ß werden teilweise überprüft, da sehr viele Autoren nach der Rechtschreibreform grundsätzlich ss schreiben, was oftmals sowohl vor als auch nach der Reform falsch ist: Ausmasse --> Ausmaße.
  • Mehrere große Buchstaben am Anfang von Substantiven werden zu einem guten Teil erkannt und korrigiert.
  • Der Deppenapostroph wird in vielen Fällen entfernt: auf's Dach --> aufs Dach.

Der Bot ersetzt übrigens nicht einfach nur stur die Wörter auf seiner Tippfehlerliste. Er kennt ein paar grundlegende Regeln zur Wortbeugung und -bildung und kann deshalb auch Fehler in Worten finden, die so nicht auf seiner Liste stehen. Wenn dieses Wort dann zwei Fehler enthält, korrigiert er leider nur den einen ihm bekannten Fehler und lässt in der neuen Variante immer noch einen Fehler drin. Beispiel: Für "vorrausichtlich" erkennt der Bot einen Fehler in der Vorsilbe und korrigiert dieses Wort zu "vorausichtlich", das fehlende s entgeht ihm bisher noch.

Die Liste der dem Bot bekannten Fehler ist nicht mehr online, da sie sich durch den automatischen Lernmodus des Bots im Tagesrhythmus ändert und außerdem inzwischen andere Personen mit teilweise schlecht programmierten eigenen Bots damit mehr Schaden als Nutzen anrichten.

Relativ häufig kommt es vor, dass eine ISBN in der Form ISBN 3-540-42849-6 (mit Doppelpunkt) oder ISBN 3-540-42849-6 (mit Leerzeichen) geschrieben wird. Beide Formen kann der Parser der Wikipedia nicht erkennen, weshalb der BWBot überflüssige Satzzeichen innerhalb der ISBN-Angabe entfernt und Leerzeichen in der Zahlenreihe durch Querstriche ersetzt. Es werden nur ISBN mit 10 oder 13 Ziffern korrigiert.

HTML-Entitäten

[Bearbeiten | Quelltext bearbeiten]

Der Bot ersetzt benannte HTML-Zeichen aus dem Zeichensatz ISO 8859-1 durch das Schriftzeichen selbst. Beispiel: Aus &auml; wird ä. Die genaue Liste aller Ersetzungen findet ihr unter Benutzer:BWBot/HTML. Es werden nicht alle benannten HTML-Zeichen ersetzt, sondern zuerst einmal nur diejenigen, welche mit einer deutschen Tastatur geschrieben werden können, sowie auch HTML-Zeichen für französische Anführungszeichen. Grund für die Einschränkung ist die bei manchen Browsern fehlerhafte Unterstützung für die restlichen Sonderzeichen, was beim nächsten Editieren zu Problemen führen könnte.

Der Hintergrund für die Ersetzung ist folgender: Die Wikipedia wird mit WikiSyntax beschrieben. HTML ist nur an den Stellen notwendig, an denen ein bestimmtes Layout erzwungen werden muss. Leider war die MediaWiki-Software lange Zeit nicht in der Lage, Sonderzeichen anders als mit benannten HTML-Zeichen zu speichern. Seit der Umstellung auf UTF-8 ist das aber nicht mehr notwendig, und die Lesbarkeit wird durch Verwendung normaler Sonderzeichen stark verbessert (französisch statt franz&ouml;sisch).

Aufgrund von besser implementierten Regeln kann der Bot inzwischen sogar falsch geschriebene HTML-Entitäten korrekt erkennen, wenn der Anfang oder das Ende bei der Kodierung fehlen (was recht häufig vorkommt).

Siehe auch: Wikipedia:Sonderzeichen, Wikipedia Diskussion:Sonderzeichen, Wikipedia:Namenskonventionen

Begriffsklärung

[Bearbeiten | Quelltext bearbeiten]

Bei Worten mit mehreren Bedeutungen (Beispiel: Bank als Bank (Möbel) oder Kreditinstitut) werden Begriffsklärungsseiten verwendet, die diese mehrfachen Bedeutungen auflisten. Prinzipiell sollte man in Artikeln immer auf die genaue Bedeutung verlinken, d.h. in einem Wirtschaftsbeitrag sollte man [[Kreditinstitut|Bank]] schreiben, statt nur auf [[Bank]] zu linken, damit ein Leser mit weniger Klicks zum gewünschten Ziel kommt. Der BWBot arbeitet die Liste der Begriffsklärungsseiten mit den meisten darauf verweisenden Links ab und schlägt die meistbenutzte Bedeutung des Wortes als Ersetzung vor, welche ich als Operator dann bestätige oder verwerfe.

Hinweis: BWBot löst im Gegensatz zu anderen Bots nicht einfach Redirects auf.

Beim Editieren von Artikeln passiert es des Öfteren, dass man versehentlich ein Wort doppelt schreibt. BWBot entfernt solche doppelten Worte, wenn sie nicht korrekt sind.

Typografie, Plenken

[Bearbeiten | Quelltext bearbeiten]
  • Wenn zwischen zwei Links kein Leerzeichen steht, wird dieses eingefügt, sofern der Abschnitt nicht in einem mathematischen Kontext steht und es sich nicht um ein zusammengesetztes Wort handelt. Prinzipiell sollte man zusammengesetzte Worte mit mehrfachen Links aber vermeiden.
  • Bei plenkenden Texten werden die falsch gesetzten Leerzeichen vor Satzzeichen entfernt, um die Lesbarkeit und das Schriftbild der Artikel zu verbessern.

Ortsbezeichnungen

[Bearbeiten | Quelltext bearbeiten]

Ortsbezeichnungen, die auf -er enden, werden auch bei adjektivischer Benutzung grundsätzlich groß geschrieben: der Kölner Dom, das Frankfurter Würstchen, Edamer Käse. BWBot prüft diese Schreibweise momentan nur für Schweizer, kann aber bei Bedarf und auf Wunsch gerne auch andere Ortsbezeichnungen berichtigen.

Doppelte Redirects

[Bearbeiten | Quelltext bearbeiten]

Die MediaWiki-Software löst immer nur genau einen Redirect bei der Anzeige eines Artikels auf, um Endlosschleifen zu vermeiden. Deshalb muss man sich bei Redirect-Ketten manuell durchklicken, um zum Ziel des letzten Redirects zu kommen. BWBot löst doppelte Redirects auf, indem er in den Redirects der Kette den eigentlichen Artikel als Redirect-Ziel einträgt.

[Bearbeiten | Quelltext bearbeiten]

Weblinks dürfen keinen Zeilenumbruch enthalten, damit sie von der WikiMedia-Software korrekt erkannt werden. Gerade bei langen URLs fügen aber viele Personen einen Zeilenumbruch nach der Adresse ein und schreiben den anzuzeigenden Text erst in die zweite Zeile, also etwa [http://de.wikipedia.org
deutsche Wikipedia] Der Bot entfernt die Zeilenumbrüche aus diesen Weblinks (bzw. ersetzt sie bedarfsweise durch Leerzeichen).

[Bearbeiten | Quelltext bearbeiten]

Wenn der Bot innerhalb eines (zusammengeschriebenen) Wortes zwei Wiki-Links entdeckt, dann versucht er, einen der beiden Links zu entfernen, da bei einem Link wie [[Auto]][[bahn]] für den Leser nicht klar ist, dass sich zwei Linkziele hinter dem vermeintlichen Link Autobahn verstecken. In manchen Fällen hat der Bearbeitende auch nur das Leerzeichen zwischen 2 regulären Links vergessen. In diesem Fall wird nur das Leerzeichen eingefügt und beide Links bleiben erhalten.

Sekundäre Korrekturen

[Bearbeiten | Quelltext bearbeiten]

Alle im folgenden Abschnitt aufgeführten Änderungen korrigieren keine groben Fehler, sondern machen den Seitenquelltext leichter lesbar und editierbar. Deswegen führt BWBot diese Änderungen nur für solche Seiten aus, bei denen er einen der obigen primären Fehler festgestellt hat. Dies dient der Vermeidung unnötiger Artikelversionen.

[Bearbeiten | Quelltext bearbeiten]

Wenn jemand einen WikiLink mit einem anderen Wort darstellen will als der Name der Zielseite ist, kann er das in der Form [[Italien|Italiener]] tun, womit der Link als Italiener dargestellt wird, aber auf Italien verweist. Wenn der anzuzeigende Begriff den Artikelnamen enthält, kann man das noch einfacher als [[Italien]]er schreiben.

HTML -> WikiSyntax

[Bearbeiten | Quelltext bearbeiten]

Wenn in einem Text HTML-Tags auftreten, die sich auch mit Wikisyntax beschreiben lassen (zum Beispiel <b>fett</b> statt '''fett'''), dann ersetzt der Bot die HTML-Tags durch ihr Äquivalent in Wiki-Syntax.

Einfache HTML-Tags werden XHTML-konform umgeschrieben, zum Beispiel wird <br> durch <br /> ersetzt. Diese Ersetzung wird zum Teil auch von der MediaWiki-Software beim Anzeigen eines Artikels "on the fly" vorgenommen, deshalb ist der Effekt nur im Artikelquelltext zu erkennen, aber nicht im HTML-Quelltext der angezeigten Seite.

Überschriften-Level

[Bearbeiten | Quelltext bearbeiten]

Wenn ein Artikel eine Überschrift enthält, die mit nur einem Gleichheitszeichen formatiert ist, dann fügt der Bot allen Überschriften des Artikels ein Gleichheitszeichen auf jeder Seite hinzu (und stuft die Überschriften damit herab). Dies geschieht deshalb, weil die größte Überschrift mindestens zwei Gleichheitszeichen auf jeder Seite haben soll: =Überschrift= wird ==Überschrift==. Diese Regelung wurde in der deutschen Wikipedia eingeführt, damit alle Zwischenüberschriften innerhalb der Artikel immer kleiner sind als die eigentliche Artikel-Überschrift. Die restlichen Überschriften des Artikels werden ebenfalls geändert, damit die relative Abstufung zwischen allen Überschriften erhalten bleibt.

Eine gleichartige Korrektur findet bei Artikeln statt, bei denen die Überschrift der höchsten Stufe drei Gleichheitszeichen hat. Hier werden alle Überschriften heraufgestuft, so daß die oberste Überschrift wieder zwei Gleichheitszeichen hat.

Standardformatierung

[Bearbeiten | Quelltext bearbeiten]
  • Überschriften werden mit je einem Leerzeichen von den sie umgebenden Gleichheitszeichen abgetrennt: == Überschrift == statt ==Überschrift==. Für den Parser ist das egal, aber für Menschen erhöht es die Lesbarkeit.
  • Doppelpunkte am Ende von Überschriften werden entfernt.
  • Überschriften wie Links, Webseiten, Websites etc. werden in Weblinks umbenannt, um ein einheitliches Erscheinungsbild aller Artikel zu erreichen.
  • Englische Bezeichner von Namensräumen werden in deutsche Bezeichner umgewandelt. Aus [[Category:irgendwas]] wird also [[Kategorie:irgendwas]]. Zusätzlich werden die Namensräume mit großem Anfangsbuchstaben geschrieben.

BWBot entfernt alle Selbstlinks aus Artikeln. Wenn es sich bei dem entfernten Selbstlink um das erste Auftreten des Artikelnames handelt und der Artikelname nicht fett formatiert im Artikel vorkommt, wird der (jetzt nicht mehr verlinkte) Artikelname zusätzlich fett markiert (siehe auch Wie schreibe ich gute Artikel).

Geplante Korrekturen

[Bearbeiten | Quelltext bearbeiten]

Für die folgenden Probleme existieren bereits experimentelle Implementierungen, die ich aber noch ausführlich testen muß:

  • Umwandeln von Anführungszeichen. Die genaue Regelung wurde bereits ausdiskutiert und ein erster Algorithmus existiert bereits.
  • Verlinken von großgeschriebenen Abkürzungen mit mindestens 4 Buchstaben wie NASA, ABBA etc.
  • Finden von Artikeln mit gleichen oder ähnlichen Textstellen, die durch Kopieren von Artikeln entstanden sind. Diese können dann manuell überarbeitet oder zusammengefaßt werden (funktioniert bereits, ist aber sehr zeitintensiv)
  • Finden und Ersetzen von Umlauten, die als Kombination von zwei Buchstaben geschrieben sind (also ü statt ue). Diese Aufgabe scheint aufgrund des Vorkommens solcher Kombinationen in Worten wie Bauer für einen generischen Algorithmus (ohne Wortliste) aber sehr schwierig zu sein.

Weitere mögliche Einsatzgebiete des Bots wären:

  • Einfügen des Templates für unbekannte Lizenzen bei Bildbeschreibungen, die keine Lizenzangabe enthalten (Idee von Stern)

Die Technik hinter dem Bot

[Bearbeiten | Quelltext bearbeiten]

BWBot ist ein Hybrid-Bot. Zum Ändern von Wikiseiten benutzt er das PyWikipedia-Framework von Rob Hooft, die zu korrigierenden Texte hingegen werden in einer lokal installierten Kopie der Wikipedia-Datenbank von einem von mir für diesen Zweck entwickelten Eclipse-Plugin gesucht. Diese Vorgehensweise bringt zwei Vorteile gegenüber der alleinigen Verwendung von PyWikipedia:

  • BWBot hat eine graphische Oberfläche, welche das Erfassen und Beurteilen von Änderungen durch den Operator wesentlich erleichtert.
  • Sämtliche vom Operator bestätigten Änderungen werden zwischengespeichert und erst später im Stapelbetrieb vom Bot ausgeführt. So kommt es, daß man in einer halben Stunde mehrere hundert Änderungen bestätigen kann, die der Bot danach dann über einen Zeitraum von einigen Stunden verteilt auf der Wikipedia ausführt (da der Bot sonst zuviel Last auf dem Server verursachen könnte). Hierbei berücksichtigt der Bot natürlich auch Änderungen, die in der Zwischenzeit von anderen an den Artikeln vorgenommen wurden.

Nachteilig an diesem Konzept sind:

  • Da der Bot grundsätzlich nur auf den Datenbankdumps arbeitet, häufen sich seine Änderungen kurz nach dem Bereitstellen neuer Dumps.
  • Je älter der Dump ist, desto höher ist der Anteil von Artikeln, die bereits von Nutzern geändert wurden und bei denen deshalb die Änderung des Bots fehlschlägt.

Bei der Suche nach Fehlern benutzt der Bot für jeden der oben beschriebenen Fehler einen jeweils darauf spezialisierten Algorithmus, der dann oftmals noch mit Listen von Suchmustern (z.B. substantivische Endungen) arbeitet. Es wird also nicht einfach der Bestand an Wikipedia-Artikeln mit regulären Ausdrücken durchforstet, da dies zu viele falsche Korrekturvorschläge produzieren würde.

Noch in der Erprobung ist ein Algorithmus, der selbständig Fehlerlisten generiert. Dazu zerlegt der Bot alle Artikel der Wikipedia in einzelne Worte und zählt die Häufigkeit des Vorkommens für jedes Wort. Danach sucht er in der Menge aller Worte Paare von einander sehr ähnlichen Worten, von denen eines sehr oft, das andere aber sehr selten vorkommt. In ersten Experimenten stellte etwa jedes 10. solche Paar tatsächlich einen Schreibfehler mit dazu passender Korrektur dar. Durch Übernahme dieser Paare in die regulären Fehlerlisten kann der Bot recht schnell große Mengen neuer Fehler lernen.