Wikipedia:Kontor Hamburg/Wikidata Denkmalliste

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen

Data Cleansing / De-Duplication

[Quelltext bearbeiten]

Berücksichtigt werden sollten jedenfalls bereits bestehende Wikidata-Objekte, um Dubletten zu vermeiden. Derzeit gibt es - ohne Innerortsstraßen - rund 10.000 Wikidata-Objekte in Hamburg oder einem Hamburger Bezirk.

Beispiele:

Die Straßen sind gesondert unter de:Benutzer:Z_thomas/DE-HH-Straßen-Vorlage nach Bezirken zu finden.

Automatisch berücksichtigen kann man da wohl nur Objekte, die auch eine DSH Objekt-ID aufweisen: https://w.wiki/5rpE (das sind nur 340), ansonsten müsste man mal schauen, ob man sich über die Koordinaten annähern kann. Von den 10.000 Wikidata-Objekten in Hamburg eignen sich aber wohl nur diejenigen, die irgendwie als Gebäude durchgehen, als Kandidaten (darunter sind ja auch Dinge wie d:Q720808, d:Q739392 und d:Q811949). Die verbleibenden Nicht-Gebäude in der Denkmalliste müsste man wohl manuell nachpflegen. --Reinhard Kraasch (Diskussion) 18:36, 25. Okt. 2022 (CEST)[Beantworten]
Hallo @Reinhard Kraasch, NordNordWest: eventuell kann auch auch über die Commonscats abgleichen, sofern diese in den Denkmal-Listen hinterlegt sind. Diesbezügliche Scripts für Bayern finden sich unter
--M2k~dewiki (Diskussion) 20:28, 25. Okt. 2022 (CEST)[Beantworten]
Hallo M2k~dewiki, Commonscats sind nur sehr selten angegeben, siehe z.B. Liste der Kulturdenkmäler in Hamburg-Alsterdorf. Ich glaube, da führen die Koordinaten eher weiter. --Reinhard Kraasch (Diskussion) 21:01, 25. Okt. 2022 (CEST)[Beantworten]
Als weiterer "Schlüssel" könnte auch der Dateiname des Bildes verwendet werden, häufig wird das selbe Bild in Listen, Artikeln und Wikidata-Objekten verwendet. --M2k~dewiki (Diskussion) 21:03, 25. Okt. 2022 (CEST)[Beantworten]
Es sind rund 1000 Commonscats und fast 10.000 Bilder von den Hamburger Denkmallisten verlinkt. (Mit diesem Skript extrahiert, hier als tsv-Datei herunterzuladen.) —MisterSynergy (Diskussion) 23:24, 25. Okt. 2022 (CEST)[Beantworten]
Ja, das ist doch ein guter Ansatz - da muss man nur noch die Schnittmenge mit https://w.wiki/5rsY bilden. Mach ich aber morgen, für jetzt ist Feierabend. --Reinhard Kraasch (Diskussion) 00:11, 26. Okt. 2022 (CEST)[Beantworten]
Skript ist angepasst. Es gibt jetzt diese Liste mit gut 400 Datenobjekten, zu denen eine Aussage Denkmalliste Hamburg Objekt-ID (P1822) potenziell ergänzt werden kann, und diese Liste bei der die Zuordnung des Identifikators bzw. der Commonscat bei Wikidata und in der hiesigen Liste zu prüfen wäre (weil die Commonscat unterschiedlichen Objekt-IDs in WD bzw. WP zugeordnet ist). —MisterSynergy (Diskussion) 00:38, 26. Okt. 2022 (CEST)[Beantworten]
Ich bin mittlerweile dabei, davon einige Identifikatoren zu importieren. Ganz so trivial ist das allerdings nicht.
Nebenbei versuche ich, die Zuordnungen unter wikidata:Wikidata:Database reports/Constraint violations/P1822#"Single value" violations zu überprüfen. Auch nicht einfach :-) —MisterSynergy (Diskussion) 00:11, 2. Nov. 2022 (CET)[Beantworten]
Hallo MisterSynergy, irgendwie komme ich nicht auf dein PAWS-Notebook - aber ich hab mal diese Liste hier gemacht: Benutzer:Reinhard Kraasch/DSH Objekt-ID, ich denke mal, die ist weitgehend identisch. --Reinhard Kraasch (Diskussion) 14:55, 26. Okt. 2022 (CEST)[Beantworten]
Ja das sieht ziemlich identisch aus. Die PAWS-Notebooks und Ergebnisfiles sollten eigentlich zugänglich sein. Wenn es da wiederholt Probleme gibt, muss ich das ggf. woanders hosten. Alles was ich bisher macht, liegt jedenfalls bisher in meinem PAWS-Account. —MisterSynergy (Diskussion) 00:13, 2. Nov. 2022 (CET)[Beantworten]
Die "single value"-Problematik resultiert ja meist daraus, dass zwischen Institution und Gebäude unterschieden wird (was sicher häufig sinnvoll ist) - die Institution ist natürlich kein Denkmal... --Reinhard Kraasch (Diskussion) 15:28, 6. Nov. 2022 (CET)[Beantworten]
Ja, entweder das oder es gibt eine irgendwie geartete falsche Zuordnung zu Ensemblen und Objekten.
Beim Import "fehlender" Identifikatoren zu existierenden Datenobjekten ist mir auch aufgefallen, dass teilweise Institutionen zum Teil in denkmalgeschützten Objekten residieren, aber eben nicht komplett. Es macht in meinen Augen durchaus Sinn, von Nutzern/Institutionen separate Datenobjekte für Ensembles und geschützte Einzelobjekte anzulegen und dann den Nutzer, etwa eine Schule oder eine Kirche, entsprechend zu verlinken. —MisterSynergy (Diskussion) 16:33, 6. Nov. 2022 (CET)[Beantworten]
Und hier hab ich mal versucht, die Objekte über die Koordinaten bzw. die Entfernung zuzuordnen:
da muss man aber wohl manuell nacharbeiten. --Reinhard Kraasch (Diskussion) 15:20, 26. Okt. 2022 (CEST)[Beantworten]

bisherige Spalten

[Quelltext bearbeiten]
  • Wikidata-Property "DSH Objekt-ID" (P1822)
  • Wikidata-Property "Adresse" (P6375)
  • Wikidata-Property "geographische Koordinaten" (P625)
  • prüfen, ob Wikidata-Property "ist ein" mit Wert "Gebäude-Ensemble" geeignet ist: (P31: Q1497375)
  • prüfen, ob Wikidata-Property "ist ein" mit Wert "Etagenhaus" usw. geeignet ist: (P31: Q58406611)
    • entsprechende Datenobjekte müssten definiert werden
    • viel Freitext im Feld wie "Mehrfamilienhaus (Siedlungsbau); Zubehör (in Umgebung des Gebäudes, darunter Grünflächen, Einfriedungen, Wege)"
  • vermutlich besser: Qualifikator für "DSH Objekt-ID" (P1822) anlegen

Kurzbeschreibung

[Quelltext bearbeiten]
  • prüfen, ob Objekt-Beschreibung geeignet ist
  • vermutlich besser: Qualifikator für "DSH Objekt-ID" (P1822) anlegen
  • Wikidata-Property "Gründung, Erstellung bzw. Entstehung oder Erbauung" (P571)
    • oder: Qualifikator für "DSH Objekt-ID" (P1822) anlegen
    • Problem: ungenaue Datumsangaben
    • Problem: Datumsangaben von-bis
    • Problem: Freitext-Angaben
  • Wikidata-Property "Architekt" (P84)
    • Problem: zugehöriges Wikidata-Objekt finden (analog Fritz Schumacher (Q77353)) - Architektennamen sind meist abgekürzt angegeben.
    • Problem: was tun, wenn kein Wikidata-Objekt für den Architekten vorhanden ist?
    • Problem: was tun, wenn mehrere Architekten angegeben sind?
    • Problem: Freitext-Angaben im Feld
  • prüfen, ob Wikidata-Property "ist Teil von" geeignet ist: (P361): Zielobjekt müsste auch Property "DSH Objekt-ID" (P1822) haben. Dies muss vermutlich manuell geprüft werden.
  • oder Qualifikator für "DSH Objekt-ID" (P1822) anlegen
  • Wikidata-Property "Bild" (P18) - aus vorhandenen Listen einpflegen

weitere erforderliche Properties

[Quelltext bearbeiten]
  • "liegt in der Verwaltungseinheit" (P131) - Bezirk
  • "Ort" (P276) - Stadtteil

neue Spalten

[Quelltext bearbeiten]
  • Wikidata-Objekt
  • Wikipedia-Artikel
  • Commonscat

Datenbestand

[Quelltext bearbeiten]

Original:

<Denkmal>
 <ID>11752</ID>
 <Belegenheit>Lutterothstraße 98</Belegenheit>
 <Adressen>Lutterothstraße 98</Adressen>
 <Stadtteil>Eimsbüttel</Stadtteil>
 <Bezirk>Eimsbüttel</Bezirk>
 <Typ>Pastorat</Typ>
 <Entwurf>Distel & Grubitz (Distel, Hermann/ Grubitz, August)</Entwurf>
 <Datierung>1912</Datierung>
 <Bezeichnung>Pastorat der ehem. Stephanuskirche</Bezeichnung>
 <Ensembles>Eidelstedter Weg 91/ 105, Lutterothstraße 76, 82/ 96, Methfesselstraße 69/ 73, Wohngebäude mit Schule Lutterothstraße 78/ 80, Stephanuskirche Lutterothstraße 100 mit Pastoraten Lutterothstraße 98 und Eidelstedter Weg 107</Ensembles>
 <DLNummer_Alt>1738</DLNummer_Alt>
 <Art>Objekt</Art>
 <XCenter_EPSG25832>                  562489.24265</XCenter_EPSG25832>
 <YCenter_EPSG25832>                 5937414.72350</YCenter_EPSG25832>
</Denkmal>

bearbeitet:

<Denkmal>
 <Adressen>Lutterothstraße 98</Adressen>
 <Art>Objekt</Art>
 <Belegenheit>Lutterothstraße 98</Belegenheit>
 <Bezeichnung>Pastorat der ehem. Stephanuskirche</Bezeichnung>
 <Bezirk>Eimsbüttel</Bezirk>
 <DLNummer_Alt>1738</DLNummer_Alt>
 <Datierung>1912</Datierung>
 <Ensembles>Eidelstedter Weg 91/ 105, Lutterothstraße 76, 82/ 96, Methfesselstraße 69/ 73, Wohngebäude mit Schule Lutterothstraße 78/ 80, Stephanuskirche Lutterothstraße 100 mit Pastoraten Lutterothstraße 98 und Eidelstedter Weg 107</Ensembles>
 <Entwurf>Distel & Grubitz (Distel, Hermann/ Grubitz, August)</Entwurf>
 <ID>11752</ID>
 <PLZ>20255</PLZ>
 <Stadtteil>Eimsbüttel</Stadtteil>
 <Typ>Pastorat</Typ>
 <XCenter>9.943892</XCenter>
 <YCenter>53.581856</YCenter>
</Denkmal>

Felder im Datenbestand

[Quelltext bearbeiten]
  • ID --> P1822
  • Belegenheit: Kann ignoriert werden
  • Adressen --> P6375
  • Stadtteil --> P276 (kann mehrere Werte als komma-separierte Liste enthalten)
  • Bezirk --> P131
  • Typ: Auftretende Werte in /Typ
  • Entwurf: Auftretende Werte in /Entwurf - für Architekten mit Wikidata-Objekt: P84
  • Datierung: Auftretende (nicht-ganzzahlige) Werte in /Datierung - für ganzzahlige Werte: P571
  • Bezeichnung: ? (s.o.)
  • Ensembles: ? (s.o.)
  • DLNummer_Alt: Alte Nummer (soll die weiter gepflegt werden?)
  • Art: "Ensemble" oder "Objekt"
  • XCenter_EPSG25832, YCenter_EPSG25832: UTM-Koordinaten (müssen in WGS84-Grad gewandelt werden) --> P625

Denkmalliste

[Quelltext bearbeiten]
{{Denkmalliste Hamburg Tabellenkopf}}
{{Denkmalliste Hamburg Tabellenzeile
|Nummer=11752
|Nummer_alt=1738
|Art=O
|Adresse=Lutterothstraße 98
|Typ=Pastorat
|Beschreibung=Pastorat Stephanuskirche
|Datierung=1912
|Entwurf=Distel & Grubitz (Distel, Hermann/Grubitz, August)
|Ensemble=30572
|Artikel=St. Stephanus (Hamburg-Eimsbüttel)
|Bild=
|Commonscat=
|NS=53.58191
|EW=9.94372
}}
|}
ID Adresse Art Typ Kurzbeschreibung Datierung Entwurf Ensemble Bild
11752
(1738)
Lutterothstraße 98
(Lage)
O Pastorat Pastorat Stephanuskirche 1912 Distel & Grubitz (Distel, Hermann/Grubitz, August) 30572
Die ID ist nicht eindeutig in der XML-Datei, vielmehr gibt es mehrfache Records mit jeweils abweichender Belegenheit. Ich hab [1] hier mal eine konsolidierte Version mit eindeutigen IDs (und umgerechneten Koordinaten) abgelegt. Die mehrfachen "Belegenheit"-Felder hab ich mit Pipes getrennt aneinandergehängt. --Reinhard Kraasch (Diskussion) 23:16, 6. Nov. 2022 (CET)[Beantworten]
@Reinhard Kraasch: Danke, das schaue ich mir genauer an.
Ich habe einmal Deinen PAWS-Link auf die "public"-Variante geändert (in PAWS rechts auf die Datei im Dateimanager klicken, dann "copy PAWS-public link" klicken). Die Version mit Deinem Link solltest Du besser Versionslöschen. —MisterSynergy (Diskussion) 23:37, 6. Nov. 2022 (CET)[Beantworten]
Jetzt ist es besser. Mit dem ?token-Parameter hattest Du uns Schreibrechte in Deinem PAWS-Account gegeben. Die "untitled1.txt"-Datei in dem Ordner kannst Du wieder löschen, die hab ich angelegt :-) —MisterSynergy (Diskussion) 11:11, 7. Nov. 2022 (CET)[Beantworten]
Ja, Schreibrechte müssen nicht sein, auch wenn in meinem PAWS-Account jetzt noch nichts Wesentliches steht... --Reinhard Kraasch (Diskussion) 12:05, 7. Nov. 2022 (CET)[Beantworten]

Ich habe mal d:Q115139935 angelegt mittels [2]. Es bleibt die Frage, wo die Originaldaten landen sollen (als Notbehelf habe ich den Qualifier "angegeben als" (P1932) genommen.) --Reinhard Kraasch (Diskussion) 17:45, 12. Nov. 2022 (CET)[Beantworten]

Gute Idee, mit einem Beispiel loszulegen. Ein paar Kommentare:
  • Als ist ein(e) (P31)-Wert sollten wir nicht Kulturdenkmal in Hamburg (Q28661501) nehmen (das taucht schon als Schutzkategorie (P1435)-Wert auf), sondern irgendetwas wie "Gebäude", etc. Eigentlich kann das vom Typ-Feld aus der XML-Datei ermittelt werden, da stehen jedoch ziemlich viele unstrukturierte Werte drin. Hier (Abschnitt "Entry types and counts of ensembles and objects") sind die Typ-Werte mit ihrer Häufigkeit separat für Ensembles und Objekte aufgelistet, zumindest die häufiger genutzten kann man sicher mit einem Datenobjekt ausstatten und das dann als P31-Wert nutzen.
Ich hab mal für die (meisten) Einträge unter "Typ" die entsprechenden Datenobjekte herausgesucht: [3] --Reinhard Kraasch (Diskussion) 20:16, 24. Nov. 2022 (CET)[Beantworten]
  • Die Originaldaten würde ich nicht in Wikidata speichern, und auch alle unstrukturierten Textfelder aus der XML-Datei nicht. Das ist höchst unüblich und letztlich zu nichts zu gebrauchen. Soweit ich weiß, gibt es auch eine Längenbegrenzung für String-Eigenschaften, die ggf. Probleme machen könnte.
  • Stattdessen sollten Fundstellen angegeben werden. Diese XML-Datei ist meines Wissens nicht versioniert, also muss das per Zugriffsdatum passieren. Über die konkrete Ausgestaltung der Fundstellen können wir noch reden.
  • Die Adresse sollte Postleitzahl (potenziell kompliziert) und Stadt (nicht kompliziert) enthalten.
Ich hab die XML-Daten mal mit Postleitzahlen angereichert: [4] --Reinhard Kraasch (Diskussion) 23:25, 18. Nov. 2022 (CET)[Beantworten]
  • Architekten und Datierung können wir später nachreichen; ebenso Bilder und Commonscats und alles weitere.
Die Architekten, die ich zuordnen konnte, finden sich in [5] --Reinhard Kraasch (Diskussion) 16:47, 25. Nov. 2022 (CET)[Beantworten]
Datierungen in Form von ganzzahligen Angaben bzw. in der Form "von ... bis" werden jetzt übernommen, letzere als "Startzeitraum" und "Endzeitraum".
Ich habe auch mal die Datierungen geparst und - soweit es mit vertretbarem Aufwand geht - für die Übernahme in Wikidata vorbereitet: [6] --Reinhard Kraasch (Diskussion) 22:46, 27. Nov. 2022 (CET)[Beantworten]
  • Ensembles sollten ein eigenes Datenobjekt mit ihrer Identifikationsnummer bekommen; Ensembles und Objekte können symmetrisch mit ist Teil von (P361) und besteht aus (P527) verbunden werden.
Mittelfristig sollen nach meinem Verständnis die Wikidata-Objekte automatisiert gepflegt werden, und dann sollen auch die Listen hier in dewiki daraus generiert werden. Gibt es Ideen, wie das genau passieren soll? Als Optionen fallen mir ein:
  1. Vorlagen und Module
  2. Fertig-Bots wie ListeriaBot (in dewiki zurzeit deaktiviert)
  3. Ein speziell dafür geschreibener Bot
Noch nicht ganz geklärt war die Frage, ob wir zum Beispiel das Datenobjekt zu einer Schule als denkmalgeschützt auszeichnen möchten, oder für das konkrete denkmalgeschützte Schulgebäude ein separates Datenobjekt anlegen möchte, was dann mit der Schule als Nutzer geeignet verbunden wird. Letzteres scheint mir sinnvoller zu sein, aber das kann sicher diskutiert werden. —MisterSynergy (Diskussion) 20:16, 12. Nov. 2022 (CET)[Beantworten]
"Mittelfristig sollen nach meinem Verständnis die Wikidata-Objekte automatisiert gepflegt werden, und dann sollen auch die Listen hier in dewiki daraus generiert werden. " - ja, genau das ist ja das Ziel der Aktion. Das Problem dabei ist, dass man (ohne den unschönen Umweg über eine Vergewaltigung einer Property oder eines Qualifiers) nicht alle Daten so in Wikidata bekommt, dass sich daraus die Liste in der bestehenden Form ableiten lässt.
Die Überlegung war, den Code für die Datenübernahme so zu gestalten, dass er wiederverwendbar ist (also z.B. bereits eingepflegte Objekte berücksichtigt) und natürlich offen zu legen, so dass er bei Verfügbarkeit einer neueren Denkmalliste erneut gestartet werden kann. Es besteht natürlich immer die Gefahr, dass sich die Datenstruktur (oder, horribile dictu, die IDs) ändert. Das müsste dann natürlich jeweils angepasst werden. Was die Generierung der Listen angeht, so hab ich da mal eine Testliste gebastelt: Benutzer:Reinhard Kraasch/Listeria Test Denkmalliste - ich gehe allerdings davon aus, dass man die Ergebnisse des ListeriaBots (per Bot) allemal nacharbeiten muss, um die Listen in ihrer heutigen Form zu bekommen - und wenn man das macht, kann man auch gleich einen Bot basteln, der die Listen erstellt. --Reinhard Kraasch (Diskussion) 11:38, 13. Nov. 2022 (CET)[Beantworten]
Ja, ich halte einen speziell hierfür gemachten Bot auch für die beste Idee. Listeria ist zum Einen zu unflexibel, und zum Anderen nicht unumstritten. Der Bot hätte im Grunde zwei separate Komponenten:
  1. die Daten von der Quelle auslesen (zurzeit diese XML-Datei) und nach Wikidata importieren/gegen Bestandsdaten in Wikidata abgleichen
    • als Nebenprodukt kann man an dieser Stelle diverse Wartungslisten führen, in denen Inkonsistenzen für eine manuelle Überprüfung aufgelistet werden
  2. die Wikipedia-Listen erstellen bzw. zu aktualisieren
Optimalerweise ist der Code öffentlich einsehbar (Github etc.), und läuft auf Toolforge in einem separaten Tool-Account ggf. mit mehreren Maintainern. Man kann das ja so gestalten, dass der Bot nur auf Zuruf startet, und nicht etwa periodisch autonom operiert.
Zu Überlegen ist noch, wie mit manuellen Änderungen von Wikipedia-Nutzern an einer Bot-generierten Denkmalliste in Wikipedia umgegangen werden soll.
Der Vorteil dieses Setups wäre, dass gerade nicht auf jeden Fall alles aus der XML-Datei in Wikidata abgeladen werden muss, sondern man dort nur die Daten ablegt, die gut nach Wikidata passen. Der Bot, der Wikipedia beschreibt, kann ja gleichzeitig aus Wikidata-Objekten und der XML-Datei auslesen (Abgleich per Identifikator). Der Zweck der Wikidata-Objekte wäre, dass man …:
  1. … den Datenbestand einigermaßen aufbereitet (Koordinaten-Umrechung, etc.) auch für andere verfügbar macht
  2. … als Community weitere Daten korrigieren kann oder solche Daten in der XML-Datei nicht drin stehen ergänzen kann (im Speziellen Commonscats und Bilder, im Weiteren Sinne auch alles was in Wikidata abbildbar ist).
Im Detail wäre solch ein Bot durchaus komplex, aber als Gesamtstrategie scheint mir das sehr machbar zu sein. Abgesehen von Wikipedia-Bearbeiten operieren viele meiner Wikidata-Bots nach ähnlichem Muster (Quelldaten lesen, nach Wikidata importieren, das alles mit Nutzung von Python/pywikibot, Github, Toolforge, Kubernetes, etc.). —MisterSynergy (Diskussion) 14:24, 13. Nov. 2022 (CET)[Beantworten]
@MisterSynergy das Unschöne an dieser Mischung der Datenquellen ist halt, dass es keinen rechten Ort für Änderungen bzw. keine Master-Datenquelle gibt. Wenn man z.B. feststellt, dass das Baujahr in der XML-Quelle falsch ist, dann kann man dies nicht in Wikidata überschreiben (und es in der generierten Liste zu ändern, hat eigentlich auch wenig Sinn). Vom Datenfluss wäre schon besser, wenn alle Daten der XML-Datei in Wikidata landen würden und dort geändert werden können - und die Listen dann ausschließlich aus Wikidata gespeist werden würden. --Reinhard Kraasch (Diskussion) 18:09, 13. Nov. 2022 (CET)[Beantworten]

Ich hab noch ein weiteres Testobjekt Q115354407 mittels [7] angelegt, das jetzt auch ein Bild und eine Commonscat enthält. Problematisch ist m.E. das Finden eindeutiger Labels, es gibt alle möglichen degenerierten Fälle, z.B. Gebäude mit mehreren IDs (typischerweise Ensembles), die wohl am besten in einem einzelnen Wikidata-Objekt zusammengefasst werden sollten. Ich habe mal folgende Daten als JSON-Dateien aggregiert:

Ich warte auf Ideen und Vorschläge (auch aus der Hamburger Community), was das weitere Vorgehen angeht. --Reinhard Kraasch (Diskussion) 22:11, 22. Nov. 2022 (CET)[Beantworten]

So, und hier ist die erste automatisch (mittels [8]) erstellte Liste: Benutzer:Reinhard Kraasch/Test/Liste der Kulturdenkmäler in Hamburg-Allermöhe -Reinhard Kraasch (Diskussion) 16:30, 23. Nov. 2022 (CET)[Beantworten]

Wird Zeit, dass ich mir dafür wieder mehr Zeit nehme. Das sieht schon sehr gut aus. NNW 16:37, 23. Nov. 2022 (CET)[Beantworten]
Denkbar wäre hier auch die Angabe der Wikidata-Ojekt-ID und Anzeige eines allfällig vorhandenen Wikidata-Objektes, beispielsweise analog Vorlage:Denkmalliste Sachsen-Anhalt Tabellenzeile --M2k~dewiki (Diskussion) 16:38, 23. Nov. 2022 (CET)[Beantworten]
Ist angedacht, alleine schon, um Fotos ergänzen zu können. NNW 16:42, 23. Nov. 2022 (CET)[Beantworten]
Ich hab mal die Vorlage (und auch meine Beispielliste) um Wikidata-IDs angereichert. --Reinhard Kraasch (Diskussion) 21:56, 23. Nov. 2022 (CET)[Beantworten]

Manuelle Bearbeitungen

[Quelltext bearbeiten]

Ich bin grad dabei, die Liste Benutzer:Reinhard Kraasch/DSH Gebäude über Entfernung (20 m) manuell abzuarbeiten - bei 50 m Abstand sind schon zu viele Fehlkandidaten dabei, ebenso, wenn man sich nicht auf Gebäude konzentriert. "Manuell nacharbeiten" heißt hier: Schauen, ob das gefundene Objekt in Wikidata wirklich das in der Denkmalliste ist, wenn ja, den DSH-ID dort nachtragen.

So, das ist erledigt. --Reinhard Kraasch (Diskussion) 21:41, 4. Dez. 2022 (CET)[Beantworten]

Es ist m.E. auch sinnvoll, die Ergebnisse dieser Abfrage nachzuarbeiten, das sind Wikidata-Objekte in Hamburg, die einerseits die Property P1435 ("Schutzkategorie") haben, andererseits aber nicht P1822 ("DSH-ID"). Hier müsste man entweder die DSH-ID nachtragen oder "Schutzkategorie" herausnehmen (z.B. bei d:Q25388618 "Bullerei", hier ist es vermutlich sinnvoll, zwischen Restaurant und Gebäude zu unterscheiden). --Reinhard Kraasch (Diskussion) 16:20, 4. Dez. 2022 (CET)[Beantworten]

Wobei sich die Bearbeitung auf diese Arbeitsliste: Benutzer:Reinhard Kraasch/Schutzkategorie, aber kein DSH-ID reduziert, die anderen Wikidata-Items kann man über Commonscat und dergleichen zuordnen. --Reinhard Kraasch (Diskussion) 21:40, 4. Dez. 2022 (CET)[Beantworten]

Arbeitstreffen

[Quelltext bearbeiten]

@M2k~dewiki, MisterSynergy, NordNordWest, Ajepbah, Hinnerk11: Ich würde gern im Januar ein Arbeitstreffen (online oder hybrid im Kontor, je nachdem wer wie dazustoßen will...) anberaumen, um den aktuellen Stand und die weitere Vorgehensweise zu besprechen und bitte um Terminvorschläge. @Ajepbah,Hinnerk11: Ich hab euch angepingt, weil ihr ja maßgeblich an den bestehenden Denkmallisten mitgewirkt habt. Gruß --Reinhard Kraasch (Diskussion) 22:40, 7. Dez. 2022 (CET)[Beantworten]

Sehr gerne. Ich habe momentan etwas den Überblick verloren, was schon erreicht ist und wie es weitergehen soll. NNW 07:53, 8. Dez. 2022 (CET)[Beantworten]
Hybrid könnte ich dabei sein. Ab 20 Uhr ist das an den meisten Tagen kein Problem. Ansonsten müsste ich spontan schauen was geht. —MisterSynergy (Diskussion) 11:03, 8. Dez. 2022 (CET)[Beantworten]
Ein reines Onlinetreffen könnten wir ja relativ spontan und vielleicht noch im Dezember arrangieren. Ich schlage mal Mittwoch, den 14. Dezember 20:00 vor. Ich werde vorher mal oben etwas aufräumen, so dass etwas klarer wird, was schon geschafft ist und was noch zu tun ist. --Reinhard Kraasch (Diskussion) 15:25, 8. Dez. 2022 (CET)[Beantworten]
Ist für mich okay. —MisterSynergy (Diskussion) 20:58, 8. Dez. 2022 (CET)[Beantworten]
Ich hab das mal soweit festgehalten. Ich schlage vor, unseren Kontor-Senfcall zu nehmen: https://lecture.senfcall.de/pet-gst-ag1-nwh --Reinhard Kraasch (Diskussion) 19:04, 9. Dez. 2022 (CET)[Beantworten]
Alles klar, ist notiert. —MisterSynergy (Diskussion) 19:20, 9. Dez. 2022 (CET)[Beantworten]

@NordNordWest, Ajepbah, Hinnerk11, Pauli-Pirat, Bahnmoeller:: Gebt bitte kurz Bescheid, wenn ihr dabei seid. --Reinhard Kraasch (Diskussion) 22:02, 9. Dez. 2022 (CET)[Beantworten]

Mir fehlt es derzeit an Hardware für Online-Treffen. --Hinnerk11 (Diskussion) 01:44, 10. Dez. 2022 (CET)[Beantworten]
Wir können ja das nächste Treffen hybrid im Kontor veranstalten, z.B. am 5. Januar - der Termin ist zwar als Einsteigerabend vorgesehen, aber erfahrungsgemäß kommen da wenig bis keine Neulinge. --Reinhard Kraasch (Diskussion) 15:44, 10. Dez. 2022 (CET)[Beantworten]
Hybrid klingt gut, gerne auch 5. Januar. NNW 17:37, 11. Dez. 2022 (CET)[Beantworten]
Mir geht´s wie Hinnerk, online geht bei mir von zu Hause nicht, brauche ich auch eigentlich nicht, gerne aber im Kontor. --Pauli-Pirat (Diskussion) 21:04, 11. Dez. 2022 (CET)[Beantworten]
5. Januar im Kontor passt mir.--Hinnerk11 (Diskussion) 00:59, 12. Dez. 2022 (CET)[Beantworten]
Dann machen wir doch einfach beides: Am 14. Dezember treffen wir uns (also zunächst einmal MisterSynergy und meine Wenigkeit, wer dazu stoßen möchte, ist natürlich herzlich willkommen) online, das wird dann eine wohl eher technische Diskussion auf der Ebene von Wikidata und Python - und am 5. Januar ein Hybrid-Treffen im Kontor und online, bei dem dann praktische Aspekte im Vordergrund stehen. --Reinhard Kraasch (Diskussion) 12:19, 12. Dez. 2022 (CET)[Beantworten]

Arbeitstreffen im Kontor am 5. Januar 2023

[Quelltext bearbeiten]
Schema der Datenflüsse

Vielen Dank für die viele Arbeit im Vorweg und die Vorstellung. Ich habe mir erlaubt, diesen Unterabschnitt aufzumachen, um Raum für Feedback, Gedanken im Nachgang und Verteilung der Aufgaben zu schaffen. Reinhard, gern irgendwo anders hin verschieben. Anwesend waren Reinhard Kraasch, Hinnerk11, CamelCaseNick, NNW, Dirtsc, Wikipeter-HH, Pauli-Pirat, Minderbinder und UweRohwedder (Habe ich jemand vergessen?). Ich hätte ein paar Gedanken und Notizen, aber gehören die hier hin? --Minderbinder 09:48, 6. Jan. 2023 (CET)[Beantworten]

@Bahnmoeller war auch noch da :-) --Wikipeter-HH (Diskussion) 10:15, 6. Jan. 2023 (CET)[Beantworten]
Wir können gern hier weitermachen, was Diskussion, Kommentare usw. angeht, ich werde aber einige Einzelaspekte des Projekts demnächst auf Unterseiten auslagern, ich dachte an so etwas wie:
  • Projektplan (wer macht wann was)
  • Teilprojekt: Daten der Denkmalliste sowie das, was schon in den Listen steht, nach Wikidata bringen, bzw. mit dem dort Vorhandenen abgleichen
  • Teilprojekt: Wikipedia-Denkmallisten aus Wikidata generieren
  • Teilprojekt: Abgleich aktueller Daten des Denkmalschutzamtes mit dem Bestand
  • Datenbestand und Auswertungen
  • Testdaten
  • Codebasis
  • Was ändert sich für "normale" zu Denkmallisten Beitragende? (Handreichung zu Änderungen im Wikidata-Bestand)
  • Allgemeine Wünsche und Kommentare (hier)
damit sich z.B. alle, die nichts mit Datenstrukturen und Kodierung am Hut haben, nicht durch endlose böhmische Dörfer hangeln müssen. --Reinhard Kraasch (Diskussion) 17:43, 6. Jan. 2023 (CET)[Beantworten]
Ich hätte das erste und das letzte Teilprojekt anders aufgeteilt: DSH-WD-Angleich und WD-WP-Angleich. Es gibt darüber hinaus noch zwei Projekt:
  • (Straßeneinträge) Es gibt das Projekt, die Straßen Hamburgs in Wikidata zu ergänzen. Das habe ich vor. (Die sind zwar nicht denkmalgeschützt, gehört aber vllt. trotzdem erwähnt.)
  • (QA: automatische Wartungslisten) Und ich würde gerne die den neuen Listen zugrundeliegenden Annahmen über bzw. Anforderungen an Wikidata identifizieren, und damit Abfragen für automatische Wartungslisten erzeugen.
Und im Allgemeinen gilt: Ich denke, es sollten möglichst viele Aufgaben so gestaltet sein, dass sie Stadtteil um Stadtteil erledigt werden können. Wie wäre es, eine Tabelle zu haben, in der nach Stadtteil ein paar (möglichst kleinteilige) Punkte zu Datenvollständigkeit und -qualität dokumentiert werden, die als Voraussetzung für eine Umstellung gelten? --CamelCaseNick (Diskussion) 06:18, 7. Jan. 2023 (CET)[Beantworten]
Die Straßeneinträge sehe ich jetzt nicht unbedingt als Voraussetzung für dieses Projekt an, es sollte aber nicht allzu schwer sein, alle Hamburger Straßen nach Wikidata zu bekommen.
Was du mit "DSH-WD-Angleich" und "WD-WP-Angleich" verstehst, erschließt sich mir jetzt nicht so auf Anhieb - vielleicht ist es aber auch besser, das dann zu diskutieren, wenn es die konkreten Projektseiten gibt (da ist dann sicher noch einiges an Feintuning erforderlich...)
Bei "Abgleich aktueller Daten des Denkmalschutzamtes mit dem Bestand" denke ich (ich glaube, ich sagte es auch schon bei unserem Treffen), dass das im Endeffekt auf Wartungslisten herauslaufen wird und sich eher wenig vollautomatisch erledigen lässt. Aber auch das muss sich wohl erst einmal zeigen - es spricht ja nichts dagegen, einzelne Wartungslisten automatisch abzuarbeiten, wenn sich das als praktikabel erweist.
Ich weiß allerdings nicht, wieweit sich die Anforderungen formalisieren lassen - im Endeffekt wird es wohl darauf herauslaufen "in Property Pxxx steht xxx, das Denkmalschutzamt sagt aber yyy" und natürlich "wir haben hier DSH-ID xxx - diese fehlt aber in den Daten des Denkmalschutzamtes" - der umgekehrte Fall: "DSH-ID ist in den Daten des Denkmalschutzamtes vorhanden, aber wir haben noch kein Wikidata-Item" hingegen ist ja der Standardfall der initialen Datenübernahme und damit automatisierbar.
Stadtteil um Stadteil vorzugehen hatte ich ohnehin vor, allerdings eher, um bei Fehlern im Verfahren nachsteuern zu können. Ich sehe da jetzt keine großen Unterschiede je Stadtteil, was die Anforderungen an die Daten angeht. Die sind ja einigermaßen trivial: Jedes DSH-Objekt sollte ein Wikidata-Item bekommen, und alle Daten des Denkmalschutzamtes (sowie die zusätzlichen Daten, die wir erhoben haben - im Wesentlichen: Bilder und Commonscats) sollten irgendwie abgebildet werden. Was noch mal herausgearbeitet werden sollte: was soll mit den ca. 1200 bereits vorhandenen Wikidata-Items geschehen? Also: welche Properties können erhalten bleiben, welche sollten durch die Daten des Denkmalschutzamtes ersetzt werden usw.
Ich gehe ohnehin davon aus, dass man nicht jeden Spezialfall algorithmisch behandeln kann - also bei einem gewissen Bodensatz von Daten manuell nachsteuern muss (z.B. Dubletten zusammenfassen muss - oder: mit Ungenauigkeiten leben muss - wir hatten das ja schon mit Schulen und Schulgebäuden - oder bei P31: ob jetzt eine "Wohnscheune" als d:Q1303167 oder als d:Q11755880 oder als beides klassifiziert wird, tut ja nun niemandem weh). Auch da kann man natürlich - wenn denn Bedarf besteht - Wartungslisten erstellen. --Reinhard Kraasch (Diskussion) 17:44, 7. Jan. 2023 (CET)[Beantworten]

@Reinhard Kraasch: Ich bin heute zufällig auf diesen Eintrag von "Wiki Loves…. Wikidata!" gestoßen. Da sind ein paar Probleme angesprochen, die wir auch diskutiert hatten. Vielleicht kannst Du den Verfasser ansprechen und Dir ein paar Anregungen für den Umgang mit Denkmalen in Wikidata holen? Gruß --Dirts(c) (Diskussion) 19:43, 10. Jan. 2023 (CET)[Beantworten]

Ich hab mir das mal angeschaut, aber ich glaube, da sind wir schon weiter. Vor allem geht es ja bei uns um einen Datenabgleich - das ist schon etwas anspruchsvoller, als die Liste einfach gnadenlos nach Wikidata zu exportieren. --Reinhard Kraasch (Diskussion) 01:52, 19. Jan. 2023 (CET)[Beantworten]