Benutzer Diskussion:Johannes Kroll (WMDE)

eMail-Adresse für RENDER auf dem Toolserver

Letzter Kommentar: vor 11 Jahren2 Kommentare2 Personen sind an der Diskussion beteiligt

Auf dem Toolserver hängen einige eMails des RENDER-Accounts an Dich fest; Du wirst wahrscheinlich eine andere eMail-Adresse angeben müssen. --Tim Landscheidt 04:05, 10. Aug. 2013 (CEST)Beantworten

Danke für den Hinweis, ich war im Urlaub; wegen der Einstellung von Lavabit werde ich wohl noch an mehreren Stellen die Emailadresse ändern müssen. :-( --Johannes Kroll (WMDE) (Diskussion) 15:35, 26. Aug. 2013 (CEST)Beantworten

Catgraph

Letzter Kommentar: vor 10 Jahren2 Kommentare1 Person ist an der Diskussion beteiligt

Ich wollte fragen, ob ich die Catgraph-Unterstützung bei meinem Bot endgültig entfernen soll, oder es irgendwann wieder Lebenszeichen geben wird. Dein Tool ist inzwischen schon recht lange inaktiv. Merl issimo 16:05, 14. Mai 2014 (CEST)

Hi Merlissimo. Ich war in letzter Zeit mit anderen Dingen wie dem MS Wissenschaft-Exponat ausgelastet, sodass ich mich um Catgraph nicht kümmern konnte. Nicht meine Entscheidung. Ich habe jetzt hoffentlich wieder Zeit mich um ausstehende Dinge zu kümmern. Catgraph sollte in den nächsten Tagen wieder erreichbar sein.

Eine Weiterenticklung in Verbindung mit Wikidata steht auch an. --Johannes Kroll (WMDE) (Diskussion) 17:09, 14. Mai 2014 (CEST)Beantworten

Hallo nochmal Merlissimo, jetzt läuft alles wieder. --Johannes Kroll (WMDE) (Diskussion) 20:19, 19. Mai 2014 (CEST)Beantworten

Catscan-Funktionalität

Letzter Kommentar: vor 9 Jahren4 Kommentare2 Personen sind an der Diskussion beteiligt

Schön, daß sich hier endlich was tut, aber mir sei die Frage erlaubt, wann ihr mal die Mitarbeiter im Kategorienprojekt fragt, was da an Stolpersteinen droht? Daß sich die Kategoriensysteme hierzupedia, auf Commons und in EN:WP grundlegend unterscheiden, ist euch hoffentlich bekannt. Ansonsten würde ich dringendst empfehlen, mal die Folien von der WikiCOn 2013 zur Kenntnis zu nehmen, siehe File:Vortrag "WikiProjekt Kategorien" bei der WikiCon 2013.pdf von mir bzw. Cactua26s File:WikiCon2013 Kat20.pdf. Falls Fragen bestehen, bitte pingen. Grüße --Matthiasb – Vandale am Werk™ ^{(CallMyCenter)} 20:43, 12. Mär. 2015 (CET)Beantworten

Hallo Matthiasb! CatGraph wurde von Düsentrieb nach seinen Erfahrungen mit CatScan designed. CG ist im Prinzip eine (einfache) Graphdatenbank speziell für Suchen im WP-Kategoriegraph, die für diese Art von rekursiven Abfragen effizienter funktioniert als SQL. Sie bildet das Kategoriesystem nur ab, in einer dafür geeigneten Form. Die Daten beziehen wir aus der SQL-Datenbank bzw. dem Labs-Replica. Inhaltlich oder im Bezug auf das Datenmodell ändert sich nichts, diesbezüglich gibt's also auch keine Stolpersteine.

Als nächstes wollen wir CatGraph mit CirrusSearch verbinden, um in der Suchfunktion rekursive Suche in Kategorien mit Schnittmengen möglich zu machen. Technisch gibt es da natürlich z. B. die Schwierigkeit, dass sehr große Mengen von Kategorien nicht sinnvoll von CirrusSearch/Elastic verarbeitet werden können. Das werden wir voraussichtlich erstmal so lösen, dass wir die Subkategorien auf eine handhabbare Zahl beschränken.

Wenn du noch andere Probleme/Stolpersteine siehst oder sonstige Anmerkungen hast, sag Bescheid, hier oder auf der Disk. zur Umfrage. Wir freuen uns über das Feedback. --Johannes Kroll (WMDE) (Diskussion) 00:55, 13. Mär. 2015 (CET)Beantworten

Es fängt da mglw. schon bei der Begriffsbestimmung an. Ich weiß jetzt nicht, was du unter Kategorien mit Schnittmengen verstehst, 90 Prozent der Nutzer meinen damit Kategorien, die anhand der Facettenklassifikation funktionieren, "wir Kategorienprofis" bezeichnen das Gegenteil davon, bspw. Kategorie:Bauwerk in Berlin, als Schnittmengenkategorie. Hierzupedia tendieren wir zur Facettenklassifikation (etwa Kategorie:Frau x Kategorie:Schriftsteller x Kategorie:Deutscher um weibliche deutsche Schriftsteller zu finden), auf EN präkombiniert man die Schnittmengenkategorien gerne, etwa zu Category:German female writers oder so. Ich stelle es mir schwierig vor, die Suche so zu optimieren, daß sie für beide "Schulen" gleichermaßen brauchbare Ergebnisse liefert. Auch aus der in meinem Vortrag am Beispiel Kategorie:Rhein vs. en:Category:Rhine genannten Problematik mit samt dem von mir aufgezeigten Murks ergibt sich ein Stolperstein. Im EN-Kategorienmodell landet ja die komplette en:Category:Rhin etwa in en:Category:Landforms of France, sodaß der Rheinfall von Schaffhausen dort zur Geographie Frankreichs gehört. Was immer ihr programmiert, wird in der EN:WP zwangsläufig auch dann Unsinn produzieren, wenn hierzupedia sinnvolle Ergebnisse rauskommen. Was sich natürlich auf die Evaluierung der getanen Arbeit auswirkt ;-)

Langjährige Erfahrungswerte vor allem mit dem von Magnus neuprogrammierten CatScan 2 zeigen übrigens, daß das Verschneiden zweier großer bis riesiger Kategorien wesentlich schneller geht, als bspw. aus vielen Schnittmengenkategorien eine Gesamtliste zu generieren. Bspw. dauerte mein Versuch aus Kategorie:Baudenkmal in Bayern nach Gemeinde (2056 Unterkategorien) x Kategorie:Wikipedia:Liste mit CS2 alle Denkmallistenartikel herauszuziehen, zu dem Zeitpunkt noch auf dem TS, etwa eine Viertelstunde, weswegen ich dann auch die bereits beschlossene Auflösung von Kategorie:Liste (Baudenkmäler in Bayern) gestoppt habe. Ich habe allerdings keine Übersicht, ob CS auf wmflabs schneller oder langsamer ist als auf dem früheren TS. --Matthiasb – Vandale am Werk™

^{(CallMyCenter)} 00:13, 14. Mär. 2015 (CET)Beantworten

Hallo Matthiasb. Nochmal: wir bilden die existierenden Kategoriedaten nur ab, inhaltlich machen wir keine Änderungen. Wir haben als Softwareentwickler keinen Einfluss darauf, ob eine Wikipedia-Sprachversion bevorzugt Facettenkategorien benutzt oder nicht. Wir wollen eine wohldefinierte zusätzliche Funktion in der Suche anbieten, nämlich rekursive Suche in Kategorien plus Schnittmengenbildung. Wie man diese Funktion dann sinnvoll benutzt, hängt natürlich mit der Kategoriestruktur des jeweiligen Wikis zusammen, auf die wir keinen Einfluss haben (von einer möglichen Sichtbarmachung von weniger auffälligen Zusammenhängen in der Kategoriestruktur mal abgesehen). Wir optimieren also die Suche nicht, wir stellen nur dar, was ist. Dass dadurch Ungereimtheiten in Kategoriestrukturen sichtbar werden können, ist mir bewusst und ich halte es für eine gute Sache. Hier zum Beispiel eine Liste der Kategorien ohne Oberkategorie in der englischen Wikipedia (vgl. dewiki), oder wirf einfach mal einen Blick auf Kategorien in enwiki unterhalb von "Philosophy", die eine ihrer Oberkategorien enthalten (vgl. dewiki). Zyklen sollten generell nicht existieren. Nur wenn solche Fehler sichtbar sind, kann man sie korrigieren.

Zu den Erfahrungswerten im Bezug auf Geschwindigkeit: Die Erfahrungen mit CatScan und CatScan 2 haben ja genau dazu geführt, dass CatGraph entwickelt wurde. MySQL ist für rekursive Suchen einfach nicht sehr gut geeignet. Wenn ich dein Beispiel verstehe, möchtest du eine Schnittmenge aller Artikel in Kategorie:Baudenkmal in Bayern nach Gemeinde (mit allen Unterkategorien, rekursiv) und Kategorie:Wikipedia:Liste (mit allen Unterkategorien, rekursiv). Diese Abfrage braucht mit dem CatGraph-basierten Artikellistengenerator etwa 2 Sekunden. Im Vergleich zu MySQL/MariaDB-basierten Tools ist das verhältnismäßig flott.

Ich habe deine Folien gesehen und war wenn ich mich richtig erinnere bei einem der beiden Vorträge auch anwesend. Die CatGraph-Dokumentation mal zu überfliegen, würde sich vielleicht anbieten. --Johannes Kroll (WMDE) (Diskussion) 16:41, 26. Mär. 2015 (CET)Beantworten

Interaktive Lausitz-Karte

Letzter Kommentar: vor 9 Jahren2 Kommentare2 Personen sind an der Diskussion beteiligt

Hallo Johannes,

2013 ging es um eine Karte der abgebaggerten Dörfer in der Lausitz, die du programmieren wolltest. Gibt es die Karte inzwischen eigentlich?--kopiersperre (Diskussion) 20:59, 14. Sep. 2015 (CEST)Beantworten

Hallo Kopiersperre,

ich erinnere mich. Die Karte hätte auf Basis der Limeskarte umgesetzt werden sollen und hätte den zeitlichen Ablauf des Abbaggerns der Dörfer dargestellt. Das haben wir letztlich nie umgesetzt. Das RENDER-Projekt, an dem ich damals mitgearbeitet habe, ist inzwischen beendet, auch sonst hat sich einiges verändert, und zur Zeit bin ich mit anderen Aufgaben eingedeckt. Zur Zeit hat die Technische Wunschliste Vorrang. Ich kann dir leider nicht sagen, ob wir das mit der Karte nochmal aufgreifen können. --Johannes Kroll (WMDE) (Diskussion) 12:52, 15. Sep. 2015 (CEST)Beantworten

WMDE Script inaktiv: Namespacename wird nicht mehr aktualisiert

Letzter Kommentar: vor 8 Jahren4 Kommentare2 Personen sind an der Diskussion beteiligt

Hi, Marlen hatte mir die namespacename-Tabelle, wie sie auf dem Toolserver existierte auf Labs zur Verfügung gestellt, weil ich die unbedingt brauche. Das wurde von Silke damals bei der Migration veranlasst. Jetzt habe ich gerade festgestellt, dass einige Scripte nicht mehr laufen. Ursache ist, dass einige Wikis fehlen. Seit einiger Zeit gibt es auf dewiki Interwikis nach gomwiki und dabei zerschießt es meine Scripte, weil ich davon ausgehe, dass die Tabelle vollständig ist (für einen Tag wäre das nicht schlimm, aber gomwiki fehlt schon recht lange). Zudem ist die Tabelle auf s1 komplett leer. Kannst du oder sonst wer das Problem bitte möglichst bald beheben, so dass auf allen Labs-Datenbankserver die Tabelle wird aktualisiert zur Verfügung steht? auf s5 (labsdb1002) ist die Tabelle zum Glück noch mit den meisten Einträgen gefüllt (sonst würde MerlBot auch komplett nicht mehr funktionieren). Eigentlich sollten die Daten per cron regelmäßig aktualisiert werden, wenn neue wikis hinzukommen. So war das zumindest versprochen worden.

Labs-Tool: toolserverdb (einziger eingetragener Betreuer Nosy)

Tabellenname: s51892_toolserverdb_p.namespacename

Auf tools.labsdb heißt die Tabelle stattdessen toolserverdb_p.namespacename (hatte Coren so eingerichtet).

Skript kA.

Da ich nicht weiß, wie aktiv du hier schaust, pinge ich auch mal ein paar andere: Birgit Müller, Jens Ohlig, Abraham Taherivand. Wäre wirklich gut, wenn das möglichst bald repariert werden würde, damit MerlBot wieder im vollem Umfang läuft. Danke. Merl issimo 16:34, 26. Jan. 2016 (CET)Beantworten

Hallo Merlissimo!

Es gibt also ein Tool, das die Tabelle namespacename mit Einträgen füllt, so wie du sie erwartest, und so wie sie auch auf dem Toolserver war. Jetzt fehlen in der Tabelle Einträge, vermutlich macht das Tool Probleme, und die einzige, die momentan auf den Tool-Account Zugriff hat, ist Nosy. Versteh ich das soweit richtig?

namespacename war auf dem TS ein mapping ala NS_CATEGORY => 14, richtig? Was ich noch nicht verstehe: Warum brauchst du die Tabelle auf verschiedenen DB-Servern? Liegen die nicht in der Regel auf tools-db, wenn sie von einem Tool erstellt wurden? --Johannes Kroll (WMDE) (Diskussion) 18:07, 26. Jan. 2016 (CET)Beantworten

Ich joine oder brauche die Namespacenames in einer DB, wiel ich diese direkt in den SQL-Anweisungen verwende. Sowohl um vollständige Linknamen zu erzeugen, als auch um Links in Namespace und Titel zu trennen (deswegen auch alle Alliase). Auch auf den drei Rep-servers. Ich kann dich nur auf Benutzer_Diskussion:Silke_WMDE#Labs_Migration_Blocking_Feature_Requests und dem dazugehörigen phab:T50625 verweisen. Ich kenne das Script ansonsten nicht. Soweit Nosy mir mal gesagt hat, erstellt die die Tabelle auf tools-db und dumpt das dann auf die drei anderen. Ob das immer noch so ist oder nur das anfängliche vorhaben war und dann anders implementiert wurde weiß ich nicht. Eine Abfrage sieht so aus:

$ select * from s51892_toolserverdb_p.namespacename where dbname='dewiki_p' and ns_id in (6,7);
+----------+------------------+-------+------------------+-----------+----------------+
| dbname   | domain           | ns_id | ns_name          | ns_type   | ns_is_favorite |
+----------+------------------+-------+------------------+-----------+----------------+
| dewiki_p | de.wikipedia.org |     6 | Datei            | primary   |              1 |
| dewiki_p | de.wikipedia.org |     6 | File             | canonical |              0 |
| dewiki_p | de.wikipedia.org |     6 | Bild             | alias     |              0 |
| dewiki_p | de.wikipedia.org |     6 | Image            | alias     |              0 |
| dewiki_p | de.wikipedia.org |     7 | Datei Diskussion | primary   |              1 |
| dewiki_p | de.wikipedia.org |     7 | File talk        | canonical |              0 |
| dewiki_p | de.wikipedia.org |     7 | Image talk       | alias     |              0 |
| dewiki_p | de.wikipedia.org |     7 | Bild Diskussion  | alias     |              0 |
+----------+------------------+-------+------------------+-----------+----------------+

ns_is_favorite ist jeweils einmal für eine dbname/ns_id-Kombination 1. Und zeigt an, welcher der bevorzugte Namensraumname ist. Das ist eigentlich immer der Wert bei primary außer wenn er nicht existiert, weil identisch mit canonical (wie z.B. auf enwiki), dann ist es canonical.

Ich kann dir mal zwei typische, aber einfache Queries angeben (kennst mich ja, dass es sich bei mir in der Praxis immer direkt um mehrere zehntausend Werte handelt, die auf einmal ausgewertet werden):

$ SELECT CONCAT(ns_name, IF(ns_name!='',':',''), REPLACE(page_title, '_',' ')) AS pt FROM dewiki_p.page INNER JOIN s51892_toolserverdb_p.namespacename ON dbname='dewiki_p' and ns_id=page_namespace WHERE page_id=7819372 AND ns_is_favorite=1;
+-------------------------------------------+
| pt                                        |
+-------------------------------------------+
| Benutzer Diskussion:Johannes Kroll (WMDE) |
+-------------------------------------------+
Set @val='BD:Johannes_Kroll (WMDE)';
SELECT DISTINCT page_id FROM s51892_toolserverdb_p.namespacename INNER JOIN dewiki_p.page on page_namespace=ns_id AND page_title=SUBSTRING(REPLACE(@val,' ','_'),CHAR_LENGTH(ns_name)+2) WHERE dbname='dewiki_p' AND @val LIKE CONCAT(ns_name, ':%') ;
+---------+
| page_id |
+---------+
| 7819372 |
+---------+

Du müsstest dir also erstmal Zugriff auf das Toolsprojekt besorgen (Toolübernahmen sind schwierig und können lange dauern, aber ich hoffe, dass es bei WMDE-internen übernahmen schmeller geht) und dann schauen, warum es nicht mehr läuft. Vielleicht fehlt auch nur ein cron-Eintrag oder so, als die mal auskommentiert wurden. Ich habe es ja auch erst durch den gomwiki-Interwiki bemerkt, dass dort was fehlt.

Bei dem Schwesterlinks-Check-Script habe ich mal dabeigeschrieben habt, dass es eine Laufzeit von 8-10 Sekunden hat um 279 wikis zu checken. Inzwischen braucht es eine gute Minute bei aktuell 303 Schwester-Wikis. Da sieht man mal, wie die LabsDB-Performance nachlässt. Merl issimo 19:29, 26. Jan. 2016 (CET)Beantworten