Wikipedia Diskussion:Technik/Labs/Tools/catscan2

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen

Ist natürlich nur ein kleiner Anfang. Hoffentlich wird die Suche bald im MediaWiki implementiert. -- Simplicius 20:34, 17. Apr 2006 (CEST)

Etwas Werbung...

[Quelltext bearbeiten]

Da ich gemerkt habe, das dieses Tool fast nur Powerusern bekannt ist, wollte ich es in der Hilfe etwas "bewerben" (vielleicht nutzen es dann mehr Leute, besonders zum Verbessern von Wartungs-Artikeln). Hat jemand einen Vorschlag, auf welcher Hilfeseite man einen Link und eine Beschreibung einbauen könnte? Eine andere Idee wäre, eine eigene Hilfeseite zum gezielten Verbessern von Artikeln einer Themenkategorie anzulegen, etwa Hilfe:Artikel verbessern. Oder gibts sowas schon? --cordobés ¿? 04:24, 3. Sep 2006 (CEST)

Link zum Tool ist veraltet, funktioniert nicht Jlorenz1@web.de 22:42, 13. Dez. 2006 (CET)Beantworten

funtionsunfähiger Catscan

[Quelltext bearbeiten]

Hallo, ich wollte mal fragen, ob jemand weiß, wie lange der Server mit dem Catscan noch funktionsunfähig bleibt (mir und bestimmt auch einigen anderen fehlt nämlich ein wichtiges Werkzeug :-) ). Gruß -- Ra'ike D C V QS 09:23, 14. Dez. 2006 (CET)Beantworten

CatScan und Infobox-Parameter

[Quelltext bearbeiten]

Mich würde interessieren, ob es nicht möglich wäre, CatScan um eine Funktion zu erweitern, welche es ermöglicht, Parameter aus Infobox-Vorlagen auszuwerten. Immer mehr Staaten werden mit nationalen Infobox-Vorlagen ausgestattet, die bereits mit zahlreichen Infos gefüttert werden, an die man sonst relativ schlecht ran kommt bzw. man erhält nur schlecht einen Überblick über alles gesammelte. Man könnte somit beispielsweise nach Ortschaften suchen, bei denen die Flächenangaben noch ausständig sind und diese gezielt nachtragen, oder gar ganze Überblicks-Tabellen (evtl. auch von Catscan) erstellen lassen. Wenn sich mal wer Zeit und Mühe nimmt, so soll er diesen Vorschlag im Auge behalten, oder gibt's schon ein ähnliches Programm? Wär bestimmt enorm nützlich, zumal Einträge in der Wikipedia meist dem neuesten Stand entsprechen. Mit Hilfe solcher Tools könnte man viel rascher aktuelle Listen erstellen oder Mankos feststellen... --Capriccio 14:34, 11. Mär. 2007 (CET)Beantworten

Schnittmengen über beliebig viele Kategorien

[Quelltext bearbeiten]

Hi, ich wurde aufgefordert "meinen" kleinen Trick hier zu veröffentlichen. Wenn man Schnittmengen von 3 oder mehr Kategorien bilden will, geht das mit CatScan alleine nicht, jedoch habe ich eine Methode mit der man das relativ einfach trotzdem hinbekommt.

Dazu muss man Unix, Linux oder Cygwin (für Windows) zur Verfügung haben.

Vorgehensweise:

  • Man erzeugt diverse Catscans mit Ausgabeformat CSV und speichert das Ergebnis in mehrere lokale Dateien ab
    • bei 3 Kategieren also z.B.
      • den Catscan von Kat:A und Kat:B in Datei "/tmp/catscan/in1.txt"
      • den Catscan von Kat:A und Kat:C in Datei "/tmp/catscan/in2.txt"
    • bei 4 Kategorien
      • den Catscan von Kat:A und Kat:B in Datei "/tmp/catscan/in1.txt"
      • den Catscan von Kat:C und Kat:D in Datei "/tmp/catscan/in2.txt"
    • bei 5 Kategorien
      • den Catscan von Kat:A und Kat:B in Datei "/tmp/catscan/in1.txt"
      • den Catscan von Kat:C und Kat:D in Datei "/tmp/catscan/in2.txt"
      • den Catscan von Kat:A und Kat:E in Datei "/tmp/catscan/in3.txt"
    • und so weiter
  • anschließend lässt man folgendes Shell-Script laufen:
cd /tmp/catscan
files="in*.txt"
count=$(echo $files | wc -w)
awk '{print $2}' $files | 
    sort |
    uniq -c |
    awk -v count=$count ' $1==count {printf "*[[%s]]\015\n",$2} ' |
    tr '_' ' ' > out.txt
  • und erhält als Ergebnis die Datei "/tmp/catscan/out.txt" in der in Wikisyntax die Schnittmenge aus allen Kategorien steht.
  • Diese kann man dann lokal weiterverwenden oder in eine Arbeitsliste mit copy&paste nach Wikipedia hochladen.

Der Code lässt sich sicherlich auch in anderen Scriptsprachen wie Perl darstellen. Das möchten aber bitte andere Leute entsprechend "übersetzen" und ggf. hier posten.

Wie das ganze entstanden ist kann man hier nachlesen. Hier ist ein Beispiel der Schnittmengen der Kategorien Frau US-Amerikaner und Autor zu sehen.

Ich habe außerdem mal lokal eine Schnittmenge aus Kategorie:Frau, Kategorie:Deutscher, Kategorie:Geboren im 18. Jahrhundert, Kategorie:Musik und Kategorie:Literatur gemacht. Also alle deutsche Frauen die im 18. Jahrhundert geboren sind und sowohl etwas mit Musik als auch mit Literatur zu tun hatten. Ergebnis: nur auf eine einzige Frau trifft dies zu: Helmina von Chézy.

Wenn man viel Zeit hat, kann man auch pro Kategorie einen "Full-Scan" machen, also "alle Seiten" anklicken, und dies jeweils in eine extra lokale Datei speichern. Das kann bei großen Kategorien oder Kategorie-Bäumen aber eine ganze Weile dauern bis der Catscan das komplett dargestellt hat. Aber danach kann man ein wenig mit den Eingabedateien spielen, in dem man "manche" für das Script ausschließt in dem man diese Dateien jeweils umbennent oder in ein anderes Verzeichnis verschiebt.

Das Ergebnis einer solchen "Spielerei":

  • ohne Kategorie:Frau; also auch alle deutschen Männer des 18. Jahrhunderts die etwas mit Musik und Literatur zu tun hatten: 37 Stück
  • ohne Kategorie:Deutscher; also alle Frauen aller Nationen des 18. Jahrhunderts die etwas mit Musik und Literatur zu tun hatten: 6 Stück
  • ohne Kategorie:Geboren im 18. Jahrhundert; also alle deutschen Frauen, egal wann geboren, die etas mit Musik und Literatur zu tun hatten: 34 Stück
  • ohne Kategorie:Musik; also alle deutschen Frauen des 18. Jahrhunderts die etwas mit Literatur zu tun hatten: 58 Stück
  • ohne Kategorie:Literatur; also alle deutschen Frauen des 18. Jahrhunderts die etwas mit Musik zu tun hatten: 11 Stück

Die einzelnen Listen habe ich nicht "hochgeladen", denn das waren ja nur Anwendungsbeispiele, kann das aber nachholen falls Interesse besteht.

Keine Ahnung ob und in welcher Form dies auch auf die "Hauptseite" passt.

Also bitte: Kommentare, Meinungen, Kritik, Verbesserungsvorschläge, ...

Gruß --JuTa() Talk 00:40, 5. Okt. 2007 (CEST)Beantworten


Hab mal ein kleines Perlchen geschrieben - könnt ihr alle gern benutzen, wie ihr wollt: funktioniert mit beliebig vielen Dateien
print "CatScanMerge.pl -- by slartidan\nUsage: perl CatScanMerge.pl <filename1> <filename2>...\n\n";
while ($file = shift and ++$filecnt) {
    open(FILE,$file) or die "Kann Datei '$file' nicht öffnen!";
    while (<FILE>) {
        $articles{(split /\t/)[1]}++;
    }
    close(FILE);
}
foreach $article (sort keys %articles) {
    print $article, "\n" if ($articles{$article} >= $filecnt);
}
Viel Spaß damit --Slartidan 17:22, 11. Dez. 2007 (CET)Beantworten

Skript bzw. Kategoriensuche per Facetten

[Quelltext bearbeiten]

Ich habe auch schon mal bei Duesentrieb gefragt, weiss aber nicht mehr den Ort und ob er jemals geantwortet hat. Wo findet man denn das Skript?
Ich würde gerne eine Suchmaske machen, in der man Ort, Zeit, Fach, ein wenig auch die Art des Objekts und ggf. auch einen Wikipedia-Status eingegeben kann - anhand von Vorwahllisten für die entsprechenden Kategorien. – Simplicius 18:44, 11. Dez. 2007 (CET)Beantworten

Was meinst du mir "das Skript"? Meinst du CatScan selber? - dann gehts hier lang...--Slartidan 16:14, 13. Dez. 2007 (CET)Beantworten
Ich würde gerne selbst eine Suchmaske bauen mit den besagten Suchmöglichkeiten.
Wie und wo ist sowas möglich? – Simplicius 21:21, 15. Dez. 2007 (CET)Beantworten

Problem?

[Quelltext bearbeiten]

Gibt es ein Problem mit CatScan? Seit einigen Tagen funktioniert das bei mir nicht mehr. Liegt das an meinem Rechner oder ist das im Moment außer Betrieb?--Ticketautomat 15:41, 28. Jan. 2008 (CET)Beantworten

Geht momentan mal wieder nicht. Siehe auch Wikipedia:Fragen_zur_Wikipedia#CatScan --Kungfuman 21:44, 28. Jan. 2008 (CET)Beantworten
Oh danke. Hätte ich mal drauf schauen sollen.--Ticketautomat 09:35, 29. Jan. 2008 (CET)Beantworten

Anliegen

[Quelltext bearbeiten]

Was ich viel wichtiger finde, als die Schnittmenge von n Kategorien, ist dass ich beim Scan einer Kategorie Unterkategorien ausschließen kann. Ich vermute mal, dass das mit einem analogen Skript wie dem Obigen funktioniert? Kann da einer was basteln, wenn er Zeit und Lust hat? Das wäre eine echte Arbeitserleichterung bei der Suche nach neuen Artikeln in den Portalen. MfG -- Ben-Oni 14:28, 20. Mär. 2008 (CET)Beantworten

mit CatScan V2.0β ist's jetzt möglich kategorien auszuschliessen -> siehe feld: Ausgeschlossene Kategorien. -- Saltose 19:09, 13. Jan. 2010 (CET)Beantworten

Suche auf Commons

[Quelltext bearbeiten]

Mir ist aufgefallen, daß man leider auf Commons nicht nach neuen Bildern in bestimmten Kategorien suchen kann. Werden die nicht als neue Seiten interpretiert oder woran liegt das? Gibt es eine alternative Möglichkeit? Ich würde z.B. gerne nach neuen Bildern auf Commons in der commons:Category:Gothic art suchen, also einer sehr großen Kat mit diversen Unterkategorien, bei der man ohne so ein tool nicht den Überblick behält. Stullkowski 15:58, 2. Jul. 2008 (CEST)Beantworten

Wegen des gleichen Anliegens komme ich auch hierher. Besteht die Möglichkeit, dass Catscan-Tool entsprechend zu erweitern? --Niteshift 11:34, 8. Nov. 2008 (CET)Beantworten

Neue Artikel

[Quelltext bearbeiten]

werden vermutlich dann nicht gefunden, wenn es sich um Übersetzungen mit Nachimport handelt. Könnte für Lücken bei den auf Neue Artikel fixierten Benutzern und Listen sorgen. Ist das schon anderen aufgefallen? Gibt's dafür 'ne Abhilfemaßnahme? Ansatz möglicherweise über neue Zuordnung zu Namensraum (die ist ja realiter neu). Oder vielleicht einen geeigneten Hinweis im Interface oder auf anderen adäquaten Seiten (z.B. bei WP:IMP?)? --Pflastertreter 22:19, 8. Dez. 2009 (CET)Beantworten

Dimension

[Quelltext bearbeiten]

gebe ich ein: "Deutscher" und "Autor", werden 1.000 Namen mit Vornamen mit A beginnend gezeigt (einige noch mit B). Wo findet man die anderen? Wo findet man die Namen nach Nachname geordnet?-- 100 Pro 14:03, 7. Apr. 2010 (CEST)Beantworten

CatScan

[Quelltext bearbeiten]

Wie kam es zu dem Namen „CatScan“? --Seth Cohen 20:47, 11. Dez. 2011 (CET)Beantworten

Möglicherweise deutet der Name an, dass man Kategorien (Cat) abtastet (Scan). Möglicherweise geht es aber auch um Computertomographie. Oder die Inpiration kam von den Peanuts: 25. Oktober 1981. --Asdert (Diskussion) 16:37, 16. Aug. 2012 (CEST)Beantworten

Hilfe!

[Quelltext bearbeiten]

Die Erklärung über die Schnittmengensuche verstehe ich nicht. Was muss ich machen, um eine Liste der Artikel von unter 25jährigen deutschen Schauspielerinnen und Schauspielern zu bekommen? Danke, --Aalfons (Diskussion) 16:02, 7. Mär. 2012 (CET)Beantworten

Dazu braucht man meines Wissens mehrere Abfragen. Die Kategorie:Schauspieler muss gekreuzt werden mit:
Da die Jahrgangszugehörigkeit sich nicht überlappt, kann man die resultierenden Teil-Listen ohne Doublettenkontrolle zusammenfügen. Eine Kategorie für die Geburtsdekade gibt es nicht. --Non mi tradir (Diskussion) 12:13, 7. Jun. 2012 (CEST)Beantworten

Die Suche nach einem bestimmten Wort

[Quelltext bearbeiten]

in allen Seiten einer Kategorie ist offenbar bisher nicht vorgesehen, wäre aber gelegentlich außerordentlich nützlich. Konkretes Beispiel: Ich suche nach dem Wort "erschossen" in allen Seiten der Kategorie:Speziallagerinsasse Gruß -- Dr.cueppers - Disk. 12:05, 5. Sep. 2012 (CEST)Beantworten

Ich hätte jetzt erwartet, dass man hierzu auch Google verwenden kann, aber die Tests enttäuschen. Der Suchbegriff Kategorien: Speziallagerhäftling erschossen site:de.wikipedia.org bringt natürlich auch Seiten, die das Wort "Speziallagerhäftling" enthalten, auch wenn es sich nicht um die Kategorie:Speziallagerhäftling handelt. Das sind also zu viele Ergebnisse. Beim nächsten Ansatz bin ich davon ausgegangen, dass ein Artikel dieser Kategorie einen Link auf die Webseite dieser Kategorie hat. Mit dem Suchbegriff erschossen site:de.wikipedia.org link:de.wikipedia.org/wiki/Kategorie:Speziallagerhäftling habe ich aber nur noch drei Fundstücke. Artikel wie Justus Delbrück werden nicht gefunden. Nanu? Ist Googles Index zu alt? --Asdert (Diskussion) 14:03, 5. Sep. 2012 (CEST)Beantworten

Maximale Tiefe?

[Quelltext bearbeiten]

Ich benutze heute zum ersten Mal CatScan. Was ich brauche ist eigentlich eine komplette Liste aller Unterkategorien einer Spezifischen Kategorie (hier mal Beispiel Fußball). CatScan bricht bei mir aber immer nach ca. 3 Leveln ab, obwohl die Kategorie noch viel tiefer geht... Kann man das irgendwie beheben, oder ist das eine Hürde im Programm? --Benedikt.achatz (Diskussion) 13:30, 20. Sep. 2012 (CEST)Beantworten

Mit dieser Abfrage komme ich auf 2077 Unterkategorien von Kategorie:Fußball. Da ist auch die Kategorie:Fußballstadion in London aufgeführt, die fünf Ebenen unter Kategorie:Fußball liegt. --Asdert (Diskussion) 16:00, 20. Sep. 2012 (CEST)Beantworten

Beispiel: Deutsche Geschichte

[Quelltext bearbeiten]

Ich möchte darauf hinweisen, dass die Abfrage mit dem Fehler: LIMIT 1000 Function: getSubcategories Error: 1317 Query execution was interrupted (sql-s5) endet. Ich weiß aber nicht ob das nur ein temporäres Problem ist. --Peter Littmann (Diskussion) 14:34, 4. Dez. 2013 (CET)Beantworten

Suche nach Bildern in Commons mit CatScan V2.0β

[Quelltext bearbeiten]

Ich würde gerne mit CatScan V2.0β nach allen Bildern suchen in der Kategorie "Stolpersteine in Germany" und all ihren Unterkategorien. Der folgende Link nähert das aber nur an, ich kriege nur eine Liste mit Links zu den Unterkategorien, nicht die Bilder selbst:

http://tools.wmflabs.org/catscan2/catscan2.php?language=commons&project=wikimedia&depth=9&categories=Stolpersteine+in+Germany&ns%5B14%5D=1&show_redirects=no&sortby=title&interface_language=de

Außerdem verstehe ich nicht, was darin der Teilstring "&ns[14]=1" bedeutet. Die eckigen Klammern darin machen das Zitieren solcher Links etwas unschön.

Kann mir da jemand weiterhelfen? --Frank C. Müller (Diskussion) 11:33, 24. Mär. 2014 (CET)Beantworten

Ich hab den Link mal repariert. Siehe dazu Hilfe:Links#Sonderzeichen in URL und Linktitel. --тнояsтеn 12:54, 24. Mär. 2014 (CET)Beantworten
NS steht für namespace (=Namensraum) und der ist bei deiner Abfrage auf Kategorien gesetzt, daher werden nur solche gefunden. Du musst auf "File" stellen: http://tools.wmflabs.org/catscan2/catscan2.php?language=commons&project=wikimedia&depth=2&categories=Stolpersteine+in+Germany&ns%5B6%5D=1&show_redirects=no&sortby=title&ext_image_data=1&file_usage_data=1&interface_language=de. Dann werden die enthaltenen Dateien gelistet. Geht bei mir allerdings nur bis zu einer Tiefe von 2, ab 3 kommt eine Fehlermeldung. --тнояsтеn 12:59, 24. Mär. 2014 (CET)Beantworten
Danke! Bei mir kam auch immer ein Fehler, nur ich dachte nicht, dass es an der Tiefe liegt. Der Fehler heißt "Fatal error: Allowed memory size of 100663296 bytes exhausted (tried to allocate 85 bytes) in /data/project/catscan2/public_html/catscan2.php on line 803". Sieht nach Überschreiten von max. 96 MB Memory aus. Da müsste vielleicht mal jemand die Grenze hochsetzen. Freiwillige? (Ob Magnus das wohl liest?) gruß, fcm. --Frank C. Müller (Diskussion) 14:30, 24. Mär. 2014 (CET)Beantworten

catscan_rewrite

[Quelltext bearbeiten]

Moins,

Bitte herausfinden, wie das unter wmflabs geht, und dann den Umherirrenden mit der zu verbessernden URL beglücken.

Schöne Feiertage --PerfektesChaos 10:18, 7. Jun. 2014 (CEST)Beantworten

CatScan2: Bezeichnungen der Kategorien aus dem Kategorienbaum kopieren funktioniert nicht

[Quelltext bearbeiten]

Ich habe auf der Seite Kategorie:Träger des Bundesverdienstkreuzes den Eintrag „Träger des Bundesverdienstkreuzes am Bande‎“ kopiert und in CatScan eingefügt. Daraus habe ich folgenden Link erhalten: http://tools.wmflabs.org/catscan2/catscan2.php?depth=2&categories=Tr%C3%A4ger+des+Bundesverdienstkreuzes+am+Bande%E2%80%8E&interface_language=de. %E2%80%8E ist wohl ein Zeilenumbruch, der beim Kopieren übernommen wird, der aber dazu führt, dass die Kategorie nicht erkannt wird. CatScan sollte verstehen, dass solche Zeilenumbrüche (und andere Steuerzeichen) nicht zum Namen der Kategorie gehören und sie automatisch entfernen. --BlackEyedLion (Diskussion) 17:22, 26. Okt. 2015 (CET)Beantworten