Benutzer Diskussion:Gymel/GND-Probleme
Grandios, danke für die Listen. --AndreasPraefcke (Diskussion) 10:26, 22. Sep. 2012 (CEST)
Austauschankündigung
[Quelltext bearbeiten]Die aktuellen Listen wurden im September generiert, die dafuer benutzten GND-Daten stammten vom April. Anhand des Dumps dewiki-20121215 und tagesaktuellen Stand der GND will ich im Laufe der Woche die Listen neu einstellen (beim Vorbereiten fiel mir auf, dass der Gesamtbestand wohl nicht den verlautbarten Stand 4. Oktober hat, sondern etwa ein bis zwei Wochen früher, derzeit sammele ich die fehlenden Sätze noch ein). Absehbar ist bereits jetzt, dass wir eine vierstellige Zahl von Umlenkungen hier nachvollziehen müssen, das dürfte dann ein Fall für einen Botlauf sein. -- Thomas Berger (Diskussion) 09:13, 18. Dez. 2012 (CET)
- Schon mal Danke! Bin gespannt, was alles dazugekommen ist. --Kolja21 (Diskussion) 23:34, 18. Dez. 2012 (CET)
Sieht gut aus: Danke für das Update! --Kolja21 (Diskussion) 22:59, 20. Dez. 2012 (CET)
Hinweis
[Quelltext bearbeiten]Hallo Thomas, Danke für die neue Liste, die mal wieder Bände spricht. Ich werde mir zwischendurch ein paar Daten auf meine Unterseite verschieben, um hier keinen Bearbeitungskonflikt entstehen zu lassen. Ich hoffe, dieses ist so ok. Viele Grüße --Silke (Diskussion) 21:13, 23. Mär. 2014 (CET)
Neue Liste
[Quelltext bearbeiten]Danke für die neuen Listen. Da hat uns vor allem Benutzer:JackUser ganz schön was eingebrockt. --FA2010 (Diskussion) 14:52, 31. Mär. 2014 (CEST)
- Du meist vermutlich die zahlreichen Namenseinträge; ich habe mr. Jack auf der Diskussionsseite darauf angesprochen. Schnarks Helferlein setzt leider auch immer noch VIAFs, deren einziger Eintrag "undifferentiated" lautet. --Kolja21 (Diskussion) 08:34, 1. Apr. 2014 (CEST)
Auch toll: Benutzer:Pelz (der im Gegensatz zu den anderen Kandidaten das wirklich langsam wissen müsste, er ist immerhin Admin!) hat zigfach völlig richtige Tp im Zuge seiner unerwünschten Ersetzungsaktion von PND zu TYP=p|GND in völlig falsche Tn verändert. --FA2010 (Diskussion) 18:32, 3. Apr. 2014 (CEST)
- Hm. Das löst die offene Frage in Diskussion:Normdaten. Magst Du Benutzer:Pelz einmal interviewen, wie so etwas zustande kommt (ich könnte mir vorstellen: 'von normdaten.js gezogene Tn-Nummer ist stärker als vorhandener "PND"-Parameter, der eigentlich nur umzusetzen wäre')? -- Thomas Berger (Diskussion) 20:22, 3. Apr. 2014 (CEST)
- Ich habe mich hier zu meinen Fehlern geäußert --Pelz (Diskussion) 22:00, 3. Apr. 2014 (CEST)
Wann gibts mal wieder ne neue Liste?? 85.212.26.132 23:30, 25. Aug. 2014 (CEST)
- Vielleicht bald, da gerade 210.000 neue GNDs eingespielt wurden. Mitarbeiter werden dringend noch für folgende Listen gesucht: Benutzer:Gymel/NDmiss und Benutzer:APPER/Bands. Gruß --Kolja21 (Diskussion) 20:58, 26. Aug. 2014 (CEST)
- Komplette Listen habe ich vor im Oktober zu generieren, wenn mal wieder ein Gesamtabzug der GND aufgelegt wird (so ganz traue ich der von mir per OAI fortgeschriebenen Version nicht). Ende nächster Woche (oder wann der nächste Dump von dewiki bereit steht) kann ich aber provisorisch Listen von Tn's und nicht mehr gültigen GND-Nummern einstellen. -- Thomas Berger (Diskussion) 21:57, 26. Aug. 2014 (CEST)
DNB-Portal?
[Quelltext bearbeiten]In analoger Manier habe ich einmal die Verwendung der Vorlage:DNB-Portal ausgewertet:
- 690 unbekannte Nummern (plus ca. 270, wo Text statt einer Nummer eingetragen ist). Oft funktioniert der Link aber, weil zwar nicht die GND-Nummer aber die zugehörige DNB-Nummer (PPN) in die Vorlage eingetragen ist, und die Vorlage (derzeit) eine Stichwortsuche nach der Nummer auslöst. Beispiele etwa Itchy Poopzkid (Körperschaft, kann toleriert werden) oder bei Agora42 (kein Normsatz, ist zu löschen). Leider gibt es hier auch false positives, etwa bei Freies Deutsches Hochstift, wo dem GND-Satz der Code für den Entitätstyp fehlt und seine Nummer bei meiner Auswertung dann nicht als "gute" Nummer bekannt ist (ca. 25.000 Sätze scheinen betroffen, überwiegend Körperschaften)
- ca. 730 Nummern, die zwischenzeitlich auf bessere umgelenkt wurden, etwa Landkreis Mainz: Hier verkehrt sich der Vorteil des vorigen Punktes ins Gegenteil: Gefunden wird aufgrund der Stichwortsuche nach der Nummer nur der Zielsatz der Umlenkung (plus oft ein "Datensatz kann nicht angezeigt werden", das dürfte der noch nicht vollständig ausgetragene Satz mit der alten Nummer sein)
- ca. 6400 Nummern, die Tn-Sätzen entsprechen. Das können dann welche sein, zu denen es keinen Tp gibt bzw. ein oder mehrere Tp vorhanden ist, die Literatur aber beim Tn steht (das wäre bei WP:PND/F zu melden, oder es ist dort bereits gemeldet), oder aber es gibt einen Tp und die Literatur steht gar nicht mehr beim Tn-Satz (aufgrund Veränderungen unabhängig von WP:PND/F, oder weil noch nicht durch die DNB zurückgemeldet oder weil wir beim Nacharbeiten der Rückmeldungen zwar die Vorlage:Normdaten aber nicht die Vorlage:DNB-Portal korrigiert haben...)
Die Überschneidungen mit den Problemen in der Vorlage:Normdaten scheinen nicht besonders groß (knapp 100 Fälle, ich weiss nicht, inwieweit das mit den lt. catscan 634 Fällen korreliert, wo die Vorlage:DNB-Portal ohne die Vorlage:Normdaten eingetragen ist), da werde ich einen entsprechenden Hinweis in die Auswertung bzgl. Vorlage:Normdaten einbauen:
- Umlenkung von 4028349-5 TYP=k zu GND 2032298-7 für Eremitenpresse (+DNB-Portal: Umlenkung von 4028349-5)
Die große Frage ist, ob ich diese Listen hier einmal auflegen sollte, damit sie "abgearbeitet" werden können. Oder ob uns die DNB-Portal-Vorlage eher egal ist und wir die Tn- und sonstigen nicht korrekten Verwendungen einfach irgendwann maschinell entfernen lassen. -- Thomas Berger (Diskussion) 15:48, 27. Aug. 2014 (CEST)
- Früher oder später sollten wir das wohl mal machen. Problematisch find ich grad ein wenig den "Wartungsstau" (wir sind ja sehr wenige...). In der Kategorie:Wikipedia:Normdaten-Wartung wäre noch so einiges zu erledigen, aktuell am lohnendsten ist wohl Benutzer:APPER/VIAF mit vielen vielen der Wikipedia noch unbekannten GND. --Mai-Sachme (Diskussion) 20:40, 28. Aug. 2014 (CEST)
- Danke für den Bericht! So eine Übersicht wollte ich lange schon mal lesen. Ich denke auch, die Normdatenvorlage hat Vorrang (auf deren Daten greift Wikidata zurück; sie ist daher auch für andere Sprachversionen relevant), aber vielleicht finden sich ja neue Mitstreiter, die sich um die DNB-Portal-Vorlage kümmern. Schaden kann die Liste auf jeden Fall nicht. --Kolja21 (Diskussion) 16:44, 29. Aug. 2014 (CEST)
- Ja, vielen Dank für die Auswertungen. Stell die Liste doch mal irgendwohin. Ich hätte Interesse an der Tn-Liste (die wohl aber eher irgendwo zum Download, 6400 ist schon sehr viel). Vielleicht kann ich mal automatisiert durchchecken, zu welchen es derzeit keine Literatur gibt, das wäre vermutlich einen Blick wert. Ansonsten muss ich mich Mai-Sachme anschließen, die Arbeit im Normdatenbereich ist gigantisch. Ich könnte vermutlich sofort monatelang durcharbeiten und verschiedenste Wartungslisten abarbeiten und neue erstellen. Wikidata hat anscheinend zu >20.000 de-Artikeln VIAFs, die wir noch nicht haben... Und auch bei den GNDs, gibt es viel zu tun. Falls irgendjemand hier eine spezielle Wartungsliste wünscht, einfach mal bei mir anfragen. Vieles ist möglich, einfach mal mit den abgefahrensten Ideen auf mich zukommen, ich kann dann erläutern, inwieweit das möglich ist. --APPER\☺☹ 20:29, 29. Aug. 2014 (CEST)
- @APPER: Wünsche hat man immer ;) Zur Feier der 300.000sten GND wäre ein Update der Grafik Datei:Normdatenentwicklung-de-wikipedia.png super. --Kolja21 (Diskussion) 06:07, 30. Aug. 2014 (CEST)
- Gerne. Ist erledigt. --APPER\☺☹ 14:00, 1. Sep. 2014 (CEST)
- @APPER: Wünsche hat man immer ;) Zur Feier der 300.000sten GND wäre ein Update der Grafik Datei:Normdatenentwicklung-de-wikipedia.png super. --Kolja21 (Diskussion) 06:07, 30. Aug. 2014 (CEST)
DNB-Portal!
[Quelltext bearbeiten]Es gibt nun Benutzer:Gymel/DNB-Portal mit aktuellen Auswertungen. Ich verstehe das nicht als Wartungsliste im eigentlichen Sinne, es handelt sich um latente Probleme die - abweichend von meinen Einschätzungen oben - wohl doch größtenteils automatisiert angegangen werden können (und nach entsprechenden Erfahrungen könnte ein solcher Bot dann auch analoges für die Parameter GND und GNDName der Vorlage: Normdaten leisten).
Ich habe die Listen in meinen BNS gestellt (und nicht extern zum Download bereitgestellt), damit Anwender der (so wie angegeben funktionierenden) Skript-Skizze von @Schnark: diese Seite einbinden können und damit beim Besuch von Artikeln eingeblendet bekommen, ob für die Verwendung der Vorlage:DNB-Portal eine Änderung fällig ist. -- Thomas Berger (Diskussion) 09:28, 5. Sep. 2014 (CEST)
Veraltete Normdaten: 2. Parameter
[Quelltext bearbeiten]@Gymel: Erfasst die Liste eigentlich auch den 2. Parameter? Beispiel Alberta:
- {{Normdaten|TYP=g|GND=4001049-1|GKD=64085-2}}
Die GKD ist mittlerweile eine Weiterleitung, taucht aber nicht in der Liste auf. Außerdem sind mir in der Kategorie:Wikipedia:Veraltete Normdaten (zzt. noch 1.236 Einträge) Artikel aufgefallen, in denen nur eine GKD oder SWD (statt der GND) eingetragen war. Werden solche Fälle irgendwo erfasst? --Kolja21 (Diskussion) 14:33, 2. Aug. 2015 (CEST)
- Zu deiner zweiten Frage: Benutzer:APPER/GKD SWD. --APPER\☺☹ 14:54, 2. Aug. 2015 (CEST)
- Super. Danke für die neue Liste. Das ging schnell ;) --Kolja21 (Diskussion) 16:16 Uhr, 2. August 2015
- Habe die Liste abgearbeitet. In einigen Fälle (Geografika mit GKD) sind neue Dubletten hinzugekommen, so dass sich die Zahl der veralteten Normdateneinträge leider kaum reduziert hat (noch 1.204 Einträge). --Kolja21 (Diskussion) 22:53, 2. Aug. 2015 (CEST)
- Super. Danke für die neue Liste. Das ging schnell ;) --Kolja21 (Diskussion) 16:16 Uhr, 2. August 2015
- Habe sie dann auch wieder gelöscht. Ich hatte noch ein halbes Dutzend Fälle gefunden, in denen eine GKD/SWD angegeben war, diese aber einer angegebenen GND entsprach. Die habe ich schnell selbst erledigt. --APPER\☺☹ 00:12, 3. Aug. 2015 (CEST)
- Zur ersten Frage: Forts. unten. --Kolja21 (Diskussion) 07:04, 26. Nov. 2015 (CET)
Veraltete Normdaten
[Quelltext bearbeiten]@Gymel: Kategorie:Wikipedia:Veraltete Normdaten verweist auf diese Liste, mit dem Hinweis: "... es ist also nicht nötig, auf eigene Faust immer wieder nachzuschauen." Ich vermute allerdings, das gilt nicht für die Fälle, in denen bereits die korrekte GND (der "Gewinnerdatensatz") eingetragen ist. Zumindest habe ich eben bei einer Stichprobe auf Anhieb drei Artikel gefunden, bei denen die Dubletten bereits zusammengeführt wurde, ohne dass sie in der Liste aufgeführt sind.[1] --Kolja21 (Diskussion) 07:00, 26. Nov. 2015 (CET)
- Hallo Kolja, just heute Nacht habe ich neue Auswertungen vorgenommen und werde die Seiten nachher aktualisieren. -- Thomas Berger (Diskussion) 07:04, 26. Nov. 2015 (CET)
- Perfekt! Bin gespannt. --Kolja21 (Diskussion) 07:05, 26. Nov. 2015 (CET)
@Gymel: Danke für die neue Liste, aber ... ;) Die von der DNB abgearbeiteten Dubletten sind dort weiterhin nicht erfasst, s. Deutsche Fortschrittspartei mit "SWD in der DNB: 4011640-2". --Kolja21 (Diskussion) 18:24, 26. Nov. 2015 (CET)
- Es kam mir leicht merkwürdig vor, dass die entsprechenden Reports leer waren, aber dann dachte ich, dass die Parameter evtl. schon so stark abgeschmolzen sind, dass es plausibel ist. Weit gefehlt... Jetzt habe ich "SWD" und "GND"-Umlenkungen ergänzt, da hat sich ja allerhand gesammelt! -- Thomas Berger (Diskussion) 21:18, 26. Nov. 2015 (CET)
Update
[Quelltext bearbeiten]@Gymel: Hast du Zeit, die Liste zu aktualisieren? Die GND-Redaktion hat bei der Zusammenlegung von Dubletten Forschritte gemacht, s. Kategorie:Wikipedia:Veraltete Normdaten. Grüße --Kolja21 (Diskussion) 16:10, 15. Jul. 2016 (CEST)
- PS: Ein Teil-Update, das nur diese Wartungskat betrifft, würde mir reichen. --Kolja21 (Diskussion) 16:10, 15. Jul. 2016 (CEST)
- @Kolja21:, die Produktion hatte ich angeworfen, sie ist übers Wochenende aber leider nicht fertig geworden, d.h. jetzt heißt es Geduld bis zum nächsten Wochenende haben. -- Thomas Berger (Diskussion) 21:51, 25. Jul. 2016 (CEST)
- Keine Sorge, es eilt nicht ;) Mich treibt nur die Neugierde. --Kolja21 (Diskussion) 20:44, 26. Jul. 2016 (CEST)
- @Kolja21:, die Produktion hatte ich angeworfen, sie ist übers Wochenende aber leider nicht fertig geworden, d.h. jetzt heißt es Geduld bis zum nächsten Wochenende haben. -- Thomas Berger (Diskussion) 21:51, 25. Jul. 2016 (CEST)
Danke für die neuen Listen! --Kolja21 (Diskussion) 16:52, 31. Jul. 2016 (CEST)
Systematik "00m Platzhalter"
[Quelltext bearbeiten]@Gymel: Ich kann mich dunkel erinnern, mehrmals Tps verlinkt zu haben, die nicht oder nur spärlich individualisiert waren. Da wir diese Platzhalter mittlerweile selbst ergänzen können, wäre es hilfreich zu wissen, welche Tp6 mit dem Hinweis "keine Angaben zur Person bei der maschinellen Übernahme vorhanden" in der Normdatenvorlage erfasst sind (Beispiel: GND 189463732). Kannst du so eine Liste erstellen? --Kolja21 (Diskussion) 22:38, 23. Jan. 2017 (CET)
- Ich weiss nicht, wie aussagekräftig die Zahlen sind: Die (RDF/Turtle-)Gesamtlieferung vom Herbst 2015, auf der ich operiere, enthielt nur 9067 Datensätze mit dieser Formulierung (gndo:biographicalOrHistoricalInformation "keine Angaben zur Person bei der maschinellen Übernahme vorhanden"). Die Datenbank, in die ich alle Änderungen seitdem eingemischt habe, kommt auf nur noch 8767 Treffer. Die Schnittmenge mit den hier in der Normdatenvorlage gelisteten sind
5461 Sätze:
- Erledigt189409061
- Erledigt189416424
- Erledigt189419555 (Quelle: deWP)
- Erledigt189421606 war bereits aufgearbeitet
- Erledigt189425741
- Erledigt189430710 Dublette, jetzt GND 118813722 (eingetragen auf WP:GND/F, Januar 2017)
- Erledigt189431652
- Erledigt189432268 war bereits aufgearbeitet
- Erledigt189433299 (Quelle: deWP)
- Erledigt189447613
- Erledigt189449462 Dublette, jetzt GND 133952266 (eingetragen auf WP:GND/F); war in deWP der falschen Person zugeordnet
- Erledigt189449802
- Erledigt18944987X
- Erledigt189450754
- Erledigt189453486
- Erledigt189453672 war in deWP der falschen Person (Robert von Bemberg-Flamersheim) zugeordnet
- Erledigt189454784
- Erledigt189455926
- Erledigt18945802X
- Erledigt18945914X
- Erledigt189462248 Dublette, jetzt GND 135552583 (eingetragen auf WP:GND/F)
- Erledigt189463953 war in deWP der falschen Person (Werner Bierbaum) zugeordnet
- Erledigt189465778 Dublette, jetzt GND 142522155 (eingetragen auf WP:GND/F)
- Erledigt189465786 Dublette GND 111485140X mit abweichendem Todesjahr (eingetragen auf WP:GND/F)
- Erledigt189471476
- Erledigt189471638
- Erledigt189472006
- Erledigt189473053
- Erledigt189474521 war in deWP der falschen Person (Hermann Höger) zugeordnet
- Erledigt189476648
- Erledigt189484411 Dublette, jetzt GND 1089763832 (eingetragen auf WP:GND/F)
- Erledigt189485086
- Erledigt189488743
- Erledigt189490101
- Erledigt189490365
- Erledigt189491302
- Erledigt189496053
- Erledigt189496827 Dublette, jetzt GND 189416823 (eingetragen auf WP:GND/F)
- Erledigt189499648 (zur weiteren Bearbeitung eingetragen auf WP:GND/F)
- Erledigt189500956 war bereits aufgearbeitet
- Erledigt189503637
- Erledigt189504609
- Erledigt189504935 war in deWP der falschen Person (Peter Winkelnkemper) zugeordnet
- Erledigt189505222
- Erledigt189505621
- Erledigt189510250 war bereits aufgearbeitet
- Erledigt189511052
- Erledigt189512180
- Erledigt189513136
- Erledigt189518243 Dublette, jetzt GND 118889281 (eingetragen auf WP:GND/F)
- Erledigt189523468 gelöscht, da Zuordnung nicht eindeutig; vgl. GND 189523425
- Erledigt189523956 gelöscht, da Zuordnung nicht eindeutig
- Erledigt189570547
- Erledigt189571349 Dublette, jetzt GND 174133316 (eingetragen auf WP:GND/F)
- Erledigt189572078
- Erledigt189573570
- Erledigt189576499
- Erledigt189576979 war bereits aufgearbeitet
- Erledigt189577711
- Erledigt189578319
- Erledigt189579714 war bereits (falsch?) aufgearbeitet (zur Überprüfung eingetragen auf WP:GND/F, März 2017)
- Mit der alternativen Anfrage "gndo:gndSubjectCategory <http://d-nb.info/standards/vocab/gnd/gnd-sc#00m>", also auf die Systematikstelle `00m` (auf individualisierte Personen eingeschränkt), bekomme ich 7604 Treffer, die Menge ist nicht komplett in der anderen enthalten, weiter habe ich es aber nicht untersucht. -- Thomas Berger (Diskussion) 20:09, 28. Jan. 2017 (CET)
- Danke für die Liste! Sie ist zum Glück kürzer als ich dachte und lässt sich gut per Hand abarbeiten. Laut OGND sind zzt. noch 9.050 Personen mit der Systematik "00m" erfasst.[2] --Kolja21 (Diskussion) 21:36, 28. Jan. 2017 (CET)
- Noch einmal neu generiert: APPERs GND-Nummern-Dump von heute enthielt 80.000 Nummern mehr als der von vor zwei Wochen (damals nur ca. 300.000), den ich vorhin zum Filtern genutzt hatte. Evtl. ist auch diese Datenbank gerade mit Regenerieren beschäftigt, leider habe ich vergessen, wieviele Einträge eigentlich zu erwarten wären. -- Thomas Berger (Diskussion) 22:35, 28. Jan. 2017 (CET)
- Am Beispiel Peter Nettekoven (Generalvikar) finde ich aber, dass (weil der GND-Satz kein Werk nennt) jede Individualisierung in der GND spekulativ wäre. Diese Spekulation haben wir in Wikipedia:PND/Fehlermeldung/Februar 2015 zwar der Redaktion gegenüber mit Evidenz unterfüttert (Quelle bzw. einzige Nutzung HBZ, dort einschlägig verknüpfte(r) Titel...), aber dürfen wir bei unseren GND-Edits soo mutig sein? -- Thomas Berger (Diskussion) 22:47, 28. Jan. 2017 (CET)
- Ja, wird dürfen! Ich habe bei der GND-Schulung nachgefragt. Es ist ja auch kein Mut, sondern "nur" saubere Recherche gefragt. Wir wissen, welche Bibliothek den Datensatz angelegt hat (DE-Kn28 = Erzbischöfliche Diözesan- und Dombibliothek), und die OGND nennt die Werke, auf die sich der Datensatz bezieht ("Peter Nettekoven. - 1976" ist etwas dürftig, aber in der Regel steht dort mehr). Bei den rund 30 Zufallstreffern (ohne WP-Artikel), die ich mir in den letzten Wochen "per Hand" rausgesucht habe, hat die Zuordnung einwandfrei geklappt. Um sicher zu gehen, dass der Tp zwischenzeitlich nicht zweckentfremdet wurde, nutze ich zusätzlich den AKS-Link. - Hier das Ergebnis: GND 189578319 & danke noch mal für deine Hilfe. --Kolja21 (Diskussion) 23:32, 28. Jan. 2017 (CET)
- Imho hat sich die Arbeit gelohnt. Zwar hat auch die LCAuth Normdateneinträge, bei denen nur ein Namen und der Fundort erwähnt wird, aber diese mageren Tps stellen nicht nur VIAF vor ein Problem, sondern werden auch "intellektuell", d.h. von Bibliothekaren häufig falsch zugeordnet. Von den 61 GNDs waren 5 in Wikipedia der falschen Person zugeordnet; außerdem konnten 9 Dubletten bereinigt werden. Danke an Thomas Berger. --Kolja21 (Diskussion) 02:50, 6. Mär. 2017 (CET)