Wikipedia Diskussion:Lua/Werkstatt/Defekter Weblink Bot

aus Wikipedia, der freien Enzyklopädie
Letzter Kommentar: vor 9 Jahren von Giftpflanze in Abschnitt MIME nebenbei protokollieren
Zur Navigation springen Zur Suche springen

Auf dieser Seite wird manuell archiviert nach WD:Lua/Werkstatt/Archiv/Defekter Weblink Bot

Die bisherigen Diskussionsstränge bitte allmählich abarbeiten; wenn erledigt dann archivieren.

Neue Diskussionen nur noch auf der Vorderseite beginnen.

--PerfektesChaos 13:39, 26. Okt. 2015 (CET)Beantworten

Statistik

[Quelltext bearbeiten]

Ich habe mir das so vorgestellt: Anzahl der einzelnen Links in Artikeln (d.h. doppelt/mehrfach vorkommende Links werden nur einmal gezählt), Anzahl der defekten Links davon, Anzahl der Artikel, Anzahl der Artikel mit erkannten defekten Links, mehr erforderlich? – Giftpflanze 15:20, 19. Dez. 2013 (CET)Beantworten

  • Das meint: Die Gesamt-Statistik über den Lauf, noch ergänzt um das Datum, wann die erste URL geprüft wurde, und das Datum der allerletzten Prüfung.
    • Klar, dass pro Artikel jede URL nur einmal gezählt wird.
  • Dazu noch spezielle Statistiken; nach Abschluss aus der Datenbank gezogen:
    1. Die 1000 häufigsten Domains, mit Anzahl der Artikel; nebst besonderem Statuscode 300er/500er wo aufgefallen
    2. Die 1000 häufigsten oder alle Domains mit 500er Statuscode; mit Anzahl der Artikel
    3. Die 100 häufigsten URL; mit Anzahl der Artikel
LG --PerfektesChaos 09:40, 20. Dez. 2013 (CET)Beantworten
Nochmal ausgebaut.
Allgemeine Statistik (letztlich nur Größenordnung und Prozentzahlen wichtig; auf 17 Artikel hin oder her kommt es nicht an):
  • Erster und letzter Tag der Analyse
  • Gesamtzahl analysierter Artikel
  • Zahl beanstandeter Artikel (=Disku-Schreibungen)
  • Gesamtzahl unterschiedlicher analysierter URL (folgt: Welcher Prozentsatz der WP-EL funktioniert?)
  • Zahl unterschiedlicher defekter URL
  • Zahl beanstandeter Verlinkungen (damit Mehrfachnennungen, wenn gleiche URL in mehreren Artikeln)
2012:
  • 283595 verschiedene defekte Weblinks
  • 209948 Artikeln
Hoffnungsfroh --PerfektesChaos 23:35, 15. Jan. 2014 (CET)Beantworten

MIME nebenbei protokollieren

[Quelltext bearbeiten]

Hi, gifti, ich hoffe, ich bin nicht zu spät.

  • Du fasst ja jetzt jede URL im ANR nochmal an.
    • Eigentlich interessierst du dich für diejenigen URL, wo keine erfreuliche Antwort vom Server kommt.
    • Ich hätte gern, dass du bei den erfolgreichen gleich noch etwas notierst.
  • Und zwar, dass du nach dem MIME-Typ (HTTP: Content-Type) schaust, und ob der mit application/ beginnen würde.
    • Falls ja, interessieren mich folgende Abarten:
      • application/pdf
      • application/postscript
      • application/gzip
      • application/zip
      • application/msexcel
      • application/mspowerpoint
      • application/msword
    • Wenn eine davon trifft, dann wüsste ich gern die Content-Length in ganzen kB gerundet.
  • Das sollte dann auf wmflabs aufgezeichnet werden in einer simplen ASCII-Datei:
pageid application-type kb today URL
9876543210 pdf 4711 20151018 http://example.org/42.pdf
  • Wenn das nicht vollständig ist, ist es überhaupt kein Problem; es ist nur ein hint und Startpunkt, nichts weiter.
  • Ziel ist, dass irgendwann später mal ein anderer Bot oder du selbst durch den aktuellen Quelltext stromerst und im Kontext geklammerter Weblinks schaut, ob dahinter etwas steht wie (PDF) oder bei der iq-Vorlage der Parameter format=PDF schon angegeben ist, und ob da schon eine ungefähre Größe mit beisteht. In der offenen Text-Klammer kann gleich die Größenordnung nachgetragen werden als (PDF; 432 kB) oder (PDF; 1,2 MB) und der format-Parameter kann entsprechend ergänzt oder sogar neu eingefügt werden. Außerdem kann der Zeitpunkt des letzten erfolgreichen Abrufs in der iq-Vorlage aktualisiert werden.

LG --PerfektesChaos 12:10, 11. Okt. 2015 (CEST)Beantworten

Ich hab das mal mit eingebaut, das Ergebnis gibts dann so um den 22. Oktober. Die Umsetzung überlasse ich allerdings lieber einem anderen Bot. – Giftpflanze 13:00, 11. Okt. 2015 (CEST)Beantworten
In the wild gibt es noch einige andere application types mehr: toollabs:giftbot/app.fsus. Vielleicht willst du ja noch ein paar mehr einschließen. pageid, sehe ich gerade, wird ein bisschen aufwändiger, ich würde es gerne weglassen (diese Information interessiert mich beim Prüfen nicht und wurde daher weggelassen). – Giftpflanze 22:31, 8. Nov. 2015 (CET)Beantworten

Ah, danke.

  • Der Schwerpunkt liegt auf den 230.000 PDF.
  • Der Rest ist nett, wenn es dir keine Mühen macht; aber Konzentration auf das Wesentliche. Ich habe unten in der Tabelle mal die Typen notiert, die von Interesse wären. Es muss sich ja dann auch für den einfügenden Bot und die Leserschaft lohnen.
  • Hinter application/octet-stream kann sich sonstwas verbergen. Müssen die Autoren selbst herausfinden.
  • „pageid, sehe ich gerade, wird ein bisschen aufwändiger, ich würde es gerne weglassen“
    • Den Satz verstehe ich nicht.
    • Du hast die Info doch zur Hand, wenn du deine URL-Datenbank aufbaust? Und die geht doch nach pageid und nicht nach verschiebungsgefährdeten langen Artikelnamen?
    • Ohne pageid wüsste ja der artikelbearbeitende Bot nicht, in welchen Artikel an welche URL wieviel kB drangeschrieben werden müssten.
Fertiger Typ Server-Antwort URL
pdf pdf 231063
x-pdf 127
xpdf 2
PDF 40
acrobat 18
vnd.adobe.pdf 1
postscript postscript 121
msword msword 1317
vnd.ms-word 1
msexcel x-msexcel 3
ms-excel 2
msexcel 2
vnd.ms-excel 656
mspowerpoint vnd.ms-powerpoint 178
zip zip 242
x-zip 4
x-zip-compressed 81
gzip x-gzip 48
ogg ogg 376
rtf rtf 208
flash x-shockwave-flash 199

Irgendwie müssten die bunten Server-Antworten so gemappt werden, dass hinterher in der den hiesigen Bots übergebenen Spalte nur noch die Schlüsselwörter der linken Spalte stehen.

  • Eine Möglichkeit wäre es, hinterher die Textdatei durch einen guten Texteditor oder sed zu jagen und die Schlüsselwörter über reguläre Ausdrücke da als zweites Token zu standardisieren.
  • Ein anderer Weg wäre es, wenn die Programmiersprache und dein Aufwand es zulassen, schon beim Schreiben eine Mapping-Table zu verwenden, die auch gleich hü oder hott sagen würde, ob der Untertyp gedumpt werden soll.
    • Also maptable[ "x-pdf" ] liefert "pdf" und maptable[ "octet-stream" ] liefert null.

LG --PerfektesChaos 23:49, 8. Nov. 2015 (CET)Beantworten

Ich habe fertig: toollabs:giftbot/app.f2mg (36 MB) – Giftpflanze 23:32, 9. Nov. 2015 (CET)Beantworten


Die bisherigen Diskussionsstränge bitte allmählich abarbeiten; wenn erledigt dann archivieren.

Neue Diskussionen nur noch auf der Vorderseite beginnen.

--PerfektesChaos 13:39, 26. Okt. 2015 (CET)Beantworten