Wikipedia Diskussion:Archiv/Dateien ohne Lizenzangabe
Hinweise zum Update, 6. April 2005
[Quelltext bearbeiten]Ich (SirJective) habe folgende Abfrage laufen lassen:
-- Sammle alle Bildbeschreibungsseiten ohne Lizenzen. drop table if exists bilderohnelizenzangabe; create table bilderohnelizenzangabe select cur_title from cur where cur_namespace = 6 and not( cur_text like '%{{Bild-%' or cur_text like '%{{WikimediaCopyright%' or cur_text like '%{{Doppellizenz%' or cur_text like '%public domain%' or cur_text like '%public-domain%' or cur_text like '%gemeinfrei%' or cur_text like '%{{L__schantragBild}}%' or cur_text like '%nowcommons%' or cur_text like '%gnu%' or cur_text like '%fdl%' or cur_text like '%pd%' ); -- Samme die Hochlader zu den gefundenen Bildern. drop table if exists hochlader; create table hochlader( title varchar(255) binary not null, user varchar(255) binary not null ); insert into hochlader select cur_title, img_user_text from bilderohnelizenzangabe inner join image on cur_title = img_name order by img_user_text, cur_title; -- Gib die Bilder mit Hochladern aus. select concat("@@@==[[Benutzer:",user,"|",user, "]] [[Benutzer_Diskussion:",user,"|Diskussion]]==@@@"), group_concat(concat("[[:Bild:",title,"]]"), "@@@") from hochlader group by user;
Diese Abfrage liefert eine Liste, in der zwei Spalten durch einen Tabulator getrennt sind. Mit sed werden die "@@@" durch Zeilenumbrüche ersetzt und der Tabulator entfernt (mein MySQL kann leider keine Zeilenumbrüche im Ergebnis ausgeben):
sed -e "s/@@@/\n/g;s/\t//g" ergebnis.txt >ergebnis2.txt
Die Ergebnisdatei habe ich auf die 27 Unterseiten verteilt.
Im IRC wurde bereits angemerkt (und ich hab's auch auf die Seite geschrieben), dass die Zeichenketten "pd" u.ä. Probleme machen. Wir sollten die nächste Abfrage so ändern, dass statt "like" ein "rlike" (alias "regexp") mit einem geeigneten Ausdruck verwendet wird. Ich denke,
cur_text regexp '(^|[^A-Za-z])pd($|[^A-Za-z])'
sollte weiterhelfen (der Vergleich auf String-Anfang und -Ende ist nötig).
--SirJective 21:44, 10. Apr 2005 (CEST)
- Hinweis: es gibt in SQL (zumindest in MySQL) character classes für word boundaries, also cur_text regexp '[[:<:]]pd[[:>:]]' sollte das beste sein. --APPER\☺☹ 04:57, 8. Jun 2005 (CEST)
Update möglich
[Quelltext bearbeiten]Mit dem aktuellen Dump wäre ein Update dieser Liste möglich. Das letzte Update ist 5 Monate her.
Der Dump vom 9. September 2005 enthält Angaben über etwa 84.000 Bilder (in der image-Tabelle) und 90.300 Bildbeschreibungsseiten. Etwa 7.400 Bilder haben Bildbeschreibungsseiten ohne irgendeine erkennbare kompatible Lizenzangabe (die bisherige Zielgruppe dieser Liste). Etwa 26.000 weitere Bilder haben zwar keine Lizenzvorlage (*), aber eine Lizenzangabe als normalen Text (**). Die 33.400 Bilder ohne Lizenzvorlagen wurden von etwa 5.200 Benutzern hochgeladen.
Durch die Betrachtung der image-Tabelle wird eine korrekte Zuordnung der Hochlader zu den Bildern möglich und auch ein Problem mit Commons-Bildern umgangen: Bilder, die aus commons: geladen werden, zeichnen sich dadurch aus, dass sie auf de: keinen Eintrag in der image-Tabelle haben.
(*) Als Lizenzvorlage wird jeder der folgenden Texte aktepziert, ohne Beachtung von Groß-/Kleinschreibung:
- "{{bild-", "{{wappen-pd-de", "{{steinmetz", "{{wikimediacopyright", "{{löschantragbild"
(**) Die folgenden Lizenzangaben werden erkannt:
- Die Vorlage:Doppellizenz cc-by-sa, die besser nur für Benutzerseiten gebraucht werden sollte; siehe dortige Diskussionsseite. Wird als "Doppellizenz cc-by-sa" aufgelistet.
- Den Satz "Dieses Bild wurde unter der '''''[[Gnu-Lizenz für freie Dokumentation]]''''' veröffentlicht" zusammen mit dem Text "Free Software Foundation" (beides ohne Beachtung von Groß-/Kleinschreibung), was als "GFDL-Vorlage kopiert" aufgelistet wird.
- Den regulären Ausdruck "(\\w*public[- ]*domain\\w*|\\w*gemeinfrei\\w*|\\w*now *commons\\w*|\\w*lizenz für freie dokumentation\\w*|\\b(?:gnu *fdl|fdl|pd)\\b)" (ist ein Java-String), der ohne Beachtung von Groß-/Kleinschreibung gesucht wird. Jeder Treffer wird einzeln aufgelistet. Nach diesem Ausdruck wird aber nur gesucht, wenn keine kopierte GFDL-Vorlage erkannt wurde.
Eine Auflistung der Bilder ohne Lizenzvorlage wurde auf Wikipedia:Datenbankabfragen/Wünsche#Bilder ohne Lizenzbausteine gewünscht, ich könnte sie entweder zusammen mit dem "Bildern ohne Lizenzangabe" oder separat als "Bilder mit Lizenzangabe aber ohne Lizenzvorlage" (ein besserer Titel wäre willkommen) auflisten. --SirJective 14:06, 16. Sep 2005 (CEST)
(Der folgende Abschnitt wurde von Benutzer Diskussion:Timo Müller hierher verschoben. SirJective)
- Oh, danke. Benutzer:Filzstift wollte eventuell die Commons-Datenbank bie Wikisign integrieren. Es ist nämlich doch möglich, auf mehrere Datenbännke in einer Abfrage zuzugreifen. Ich hätte dann also selbst eine Abfage durchführen können. Wenn du das jetzt aber erledigst, kann ich ihm bescheit sagen, dass er das nicht machn braucht. -- Timo Müller Diskussion 21:03, 18. Sep 2005 (CEST)
- Die Abfrage ist bereits erledigt. Ich frage mich nun, in welcher Form ich die Daten hochlade. Momentan hab ich drei Teillisten:
- 2488 Benutzer, deren 13154 Bilder ohne Lizenzvorlagen allesamt einen Lizenztext haben,
- 2156 Benutzer, deren 4407 Bilder ohne Lizenzvorlagen allesamt keinen Lizenztext haben,
- 592 Benutzer, deren 15843 Bilder ohne Lizenzvorlagen teilweise einen Lizenztext haben (12806) teilweise nicht (3037).
- Die Bilder in 1. könnte man nach Durchsicht selbständig mit einer Vorlage versehen (aber nicht stumpf ungeprüft mit einem Bot drübergehen, sondern einzeln anschauen und diese Entscheidung fällen). Die Bilder in 2. gehen komplett auf die bisherige Liste. Die Bilder in 3. würden nach bisheriger Vorgehensweise nur teilweise auf die bisherige Liste gehen (4407 von 2. und 3037 von 3.).
- Wenn wir (wie bisher) stumpf nach "mit Lizenztext" und "ohne Lizenztext" trennen, stehen 592 Benutzer auf beiden Listen und müssten auf zwei Listen hingewiesen werden, sie würden u.U. sogar zweimal angeschrieben werden.
- Welche Ideen für eine Aufteilung der 33404 Bilder von 5236 Benutzern hast du? :) --SirJective 22:02, 18. Sep 2005 (CEST)
- Ich habe nicht gedacht, dass es so viele sind! (Das wird eine Arbeit! Wo ich doch gerade so wenig Zeit habe...) Gute Idee, nach Hochladern zu ordnen, damit nicht jeder x-mal angeschrieben werden muss. Die Listen mit einem Bot durchzugehen, halte ich auch nicht für sinnvol, dafür ist das Thema zu komplex. Zu der Frage, wie man mit der dritten Teilliste umgeht: Ich denke, man kann die Liste einzeln stehn lassen, dass spart Arbeit, weil man sich nicht um jeden zweimal kümmern muss. Die Listen sollen ja sowieso nicht mit einem Bot durchgegeangen werden, deswegen sollte es eigentlich nicht stören, wenn es eine gemischte Liste gibt. -- Timo Müller Diskussion 22:13, 18. Sep 2005 (CEST)
- Die Abfrage ist bereits erledigt. Ich frage mich nun, in welcher Form ich die Daten hochlade. Momentan hab ich drei Teillisten:
- Im Chat [1] bespreche ich mich gerade mit einigen anderen potentiellen Bearbeitern. Der Zwischenstand:
- Die Benutzer auf Liste 2. und 3. werden durch einen Standardtext auf ihrer Diskussionsseite auf die Liste hingewiesen und eine Frist von maximal zwei Wochen gesetzt, bis zu der eine Lizenzvorlage nachgetragen werden soll. Alle Bilder, die danach keine Lizenz tragen, werden zur Löschung freigegeben. (Das wird eine Sauarbeit, die aus den Artikeln zu entfernen.)
- Die Listen 1. und 3. werden manuell durchgearbeitet, um zu entscheiden, ob die angegebene Lizenz berechtigt erscheint. In dem Fall wird die Vorlage eingesetzt, andernfalls ... mal schauen.
- --SirJective 22:30, 18. Sep 2005 (CEST)
- OK. Wann ist die Liste fertig? -- Timo Müller Diskussion 23:15, 18. Sep 2005 (CEST)
(Ende des verschobenen Teils. SirJective)
- Die erste Liste ist hiermit hochgeladen, die anderen kommen noch. Jetzt muss sich noch jemand mit einem Bot finden, der die Benutzer anschreibt. :) (Notfalls kann ich das auch machen, aber andere haben damit sicher schon Erfahrung.) --SirJective 17:10, 19. Sep 2005 (CEST)
- Warum wurde Bild:Siedeverzug.gif gefunden obwohl in der Bildbeschreibung seit Juni 2004 steht:
*Copyright Status: GNU Freie Dokumentationslizenz
Und was soll ich mit Bilder machen, die erledigt sind? Durchstreichen oder gleich aus der Liste rausnehemn? -- Timo Müller Diskussion 18:26, 19. Sep 2005 (CEST)
- Sehe es richtig, dass deine Abfrage {{PD}} und {{GFDL}} nicht als Vorlagen erkannt hat? Bei {{GFDL}} ist das auch OK, die VBorlage ist nämlich nicht für Bilder gedacht, aber {{PD}} ist ein Redirect auf {{Bild-PD}}. -- Timo Müller Diskussion 18:40, 19. Sep 2005 (CEST)
- Warum das Bild aufgeführt ist, steht oben in diesem Abschnitt: Es erfüllt einfach das Suchkriterium. Das ist in diesem Fall ein Fehler meinerseits.
- Was mit den Bildern geschehen soll, steht jetzt wieder auf der Seite: Bilder mit eingetragener Lizenz sollen aus der Liste entfernt werden.
- Die Vorlage PD wird nicht als solche erkannt - wurde ein Bild mit dieser Vorlage aufgeführt? Falls ja, dann muss ich genauer nachforschen, was Java als "word boundary" erkennt, denn das "Wort" pd sollte als Lizenzangabe erkannt werden (wenn auch nicht als Lizenzvorlage). --SirJective 19:29, 19. Sep 2005 (CEST)
- Zumindes bisher habe ich noch kein PD-Bild gefunden. Ich wollte es einfach nur mal anmerken. Wenn alle Bilder eines Benutzers weg sind, kann der Benutzer dann auch aus der Liste raus? -- Timo Müller Diskussion 19:59, 19. Sep 2005 (CEST)
- Ja, so wurde es bisher gehandhabt. --SirJective 20:41, 19. Sep 2005 (CEST)
- Dann werde ich es auch mal so handhaben. Habe eben ein Wappen-de-pd gefunden. Kann aber auch darann liegen, dass der Dump nicht ganz aktuell ist. -- Timo Müller Diskussion 20:53, 19. Sep 2005 (CEST)
Update Januar 2007, Stand 30.11.2006
[Quelltext bearbeiten]Ich habe nun - nach Emailanfrage - die Liste der Dateien ohne Lizenzangabe generiert. Leider ist der "aktuelle" Dump mehr als einen Monat alt, so dass vor allem bei den kürzlich noch bearbeiteten Buchstaben A bis C bereits erledigte Dateien erneut aufgelistet werden.
Daher habe ich hinten im Alphabet angefangen, die Dateien hochzuladen. Nun hab ich keine Lust mehr, ich hinterlege die restliche Liste aber auf http://chsemrau.de/wikipedia/bol_20061130.zip (70kb) Darin enthalten sind drei Dateien (für jede der drei Gruppen eine), die nach Buchstaben aufgetrennt und zusammen auf die noch fehlenden Seiten hochgeladen werden müssten. --SirJective 16:30, 6. Jan. 2007 (CET)
- Danke dir! // by Forrester Dateien ohne Lizenzangabe 14:28, 7. Jan. 2007 (CET)
- Allerdings bleibt die Frage, ob ein "Update vom November" Sinn macht. // by Forrester Dateien ohne Lizenzangabe 00:22, 9. Jan. 2007 (CET)
Query auf dem Toolserver
[Quelltext bearbeiten]select CONCAT("*[[:Image:",page_title,"|",page_title,"]] von [[User:",img_user_text,"]]") from page,image where page_namespace=6 AND (select count(tl_from) from templatelinks where tl_from=page_id)=0 AND img_name=page_title AND (img_description NOT RLIKE ".*[p|P]ublic [d|D]omain.*" AND img_description NOT RLIKE ".*[g|G]emeinfrei.*" AND img_description NOT RLIKE ".*[c|C]{2}-.*" AND img_description NOT RLIKE ".*[G|g][F|f][D|d][L|l].*" AND img_description NOT RLIKE ".*[g|G][n|N][u|U].*") order by img_user_text,page_title;
--DaB. 17:36, 7. Jan. 2007 (CET)
Irrelevante Bilder ohne Lizenz
[Quelltext bearbeiten]Was ist eigentlich sinnvoll, wenn Logos o.ä. von Vereinen, Firmen, Bands hochgeladen worden sind, die höchstwahrscheinlich niemals in einem Artikel verwendet werden und keine ausreichenden Lizenzinfos enthalten, aber keine Schöpfungshöhe besitzen? Soll man da den entsprechenden Baustein einfügen und die Leichen sich selbst überlassen oder soll man die Bilder als BLU markieren in der Hoffnung, daß der Hochlader die Infos nicht nachträgt und das Bild als unzureichend lizensiert gelöscht werden kann? --Noddy93 16:55, 2. Mai 2007 (CEST)
- Ich persönliche würde Variante 2 empfehlen, Ballast hilft überhaupt nicht, auch ein Bild-LA ist mMn ok --Mdangers 00:56, 9. Mai 2007 (CEST)