Wikipedia:Technik/Cloud/grep

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen
grep
(Seiten suchen)

sucht nach Seiten, deren Titel einem regulären Ausdruck entspricht.

Dieses Werkzeug war lange Zeit wichtig gewesen. Mittlerweile (seit April 2018) erlaubt die Syntax intitle: der Cirrus-Suche auch reguläre Ausdrücke in Seitentiteln; verknüpfbar mit vielen weiteren Bedingungen.

Interaktive Bedienung

[Quelltext bearbeiten]

Es stehen mehrere Datenfelder zur Verfügung.

  • Das Wiki-Projekt muss ausgewählt werden, die deutsche Sprachversion Language, ggf. auch der Namensraum Namespace.
  • Mit einem Häkchen bei Include redirects werden Weiterleitungen ausgeblendet (etwas verwirrend).

Die größte Herausforderung ist die Eingabe des Suchmusters Pattern. Einige Anregungen in verschiedenen Namensräumen:

pattern Aufruf Erwartung
ikimedia Test Alle Artikel, deren Name die Zeichenkette ikimedia enthält.
seite Test Hilfeseiten, deren Titel genau die Zeichenkette seite enthält.
[Ss]eite Hilfeseiten, deren Titel die Zeichenkette Seite oder seite enthält. Anders sind Varianten der Groß- und Kleinschreibung nicht möglich.
^ABC Seiten, deren Name mit ABC anfängt
XYZ$ Seiten, deren Name mit XYZ aufhört
FGH.*KLM Seiten, in deren Name die Zeichenkette FGH von der Zeichenkette KLM gefolgt wird; dazwischen beliebig viele Zeichen.

Eine Syntax wie /seite/i ist derzeit nicht möglich (hier: Groß- und Kleinschreibung ignorieren).

URL und URL-Parameter

[Quelltext bearbeiten]

Nachstehend sind die Parameter aufgelistet, wie sie in der URL benutzt werden.

  • Die Basis-URL lautet: https://grep.toolforge.org/
  • Daran ist mit einem vorangehenden Fragezeichen ? die Parameterliste anzuhängen.
  • Es folgen Zuweisungen name=Wert
  • Dabei darf Wert keine Leerzeichen enthalten; muss bei bestimmten Zeichen ggf. kodiert werden.
  • Die einzelnen Zuweisungen name=Wert sind durch & voneinander zu trennen.
project
Projekt-Typ
wikipedia
lang
Sprachversion
de
namespace
Nummer des Namensraums
0 – Artikel
pattern
Muster für Seitentitel: Regulärer Ausdruck (Groß- und Kleinschreibung signifikant)
Zurzeit kein URL-Decoding implementiert; eckige Klammern usw. direkt angeben.
redirects
Weiterleitungen zulassen; Vorgabe: keine
on
limit
Beschränkung auf erste 100 Treffer; Vorgabe: alle
on