Diskussion:Stoppwort
Negationen
[Quelltext bearbeiten]"nicht" würde ich nicht as echtes Stoppwort bezeichnen, schließlich kehrt eine (ungerade Anzahl von) Negation(en) die Bedeutung eines Audrucks oder Satzes gänzlich um. -- 194.25.101.37 11:12, 19. Jul. 2010 (CEST)
- Sehe ich ganz genauso! "Allen Stoppwörtern ist gemeinsam, dass sie vor allem grammatikalische/syntaktische Funktionen übernehmen und daher keine Rückschlüsse auf den Inhalt des Dokumentes zulassen." – würde bei "nicht" nicht zutreffen!--Fresh Marv (Diskussion) 20:51, 22. Sep. 2013 (CEST)
Deadlink "Liste deutscher Stoppwörter"
[Quelltext bearbeiten]Liste deutscher Stoppwörter verweist auf eine Seite von der der link auf die entsprechende .txt-Datei nicht funktioniert (404) --134.100.5.65 10:36, 4. Jan. 2011 (CET)
Artikel ist nicht mit Belegen ausgestattet sowie unpräzise und in sich widersprüchlich
[Quelltext bearbeiten]Mängel im Detail:
- Stoppwörter nennt man im Information Retrieval Wörter, die bei einer Volltextindexierung nicht beachtet werden, da sie sehr häufig auftreten und gewöhnlich keine Relevanz für die Erfassung des Dokumentinhalts besitzen.
- Besitzen sie gewöhnlich keine Relevanz oder dürfen sie per definitionem nicht inhaltlich relevant sein? Belege?
- Allgemein übliche Stoppwörter in deutschsprachigen Dokumenten sind bestimmte Artikel ('der', 'die', 'das'), unbestimmte Artikel ('einer', 'eine', 'ein'), Konjunktionen (z. B. 'und', 'oder', 'doch') und häufig gebrauchte Präpositionen (z. B. 'an', 'in', 'von') sowie die Negation 'nicht'.
- sollten definitiv belegt und vor allem in Bezug auf den Anwendungsfall erläutert werden, da sie sehr wohl auch eine inhaltliche Funktion erfüllen können. Belege?
- Obwohl eher als Stoppzeichen zu benennen, werden häufig auch der Punkt (.), das Komma (,) und der Strichpunkt (;) als Stoppwörter bezeichnet.
- häufig: wo, von wem? Belege?
- Allen Stoppwörtern ist gemeinsam, dass sie vor allem grammatikalische/syntaktische Funktionen übernehmen und daher keine Rückschlüsse auf den Inhalt des Dokumentes zulassen.
- Unscharf: lt. Einleitung: (gewöhnlich) keine Relevanz, hier: (absolut) keine Rückschlüsse. Belege?
- Eine weitere Gemeinsamkeit ist ihre große Zahl: Sie treten in jedem Dokument sehr oft auf und kommen in sehr vielen Dokumenten vor, wodurch sie bei der Erschließung der Dokumente einen hohen Aufwand verursachen würden.
- Widerspruch: "treten in jedem... und kommen in vielen vor" - in jedem, oder nur in vielen? Belege?
- Das Erkennen von Stoppwörtern macht Suchmaschinen effizienter.
- In welchem Verhältnis steht Zusatzaufwand für Erkennen und Ausfiltern? Belege?
- Würde man Stoppwörter bei einem Suchauftrag beachten, wäre nahezu jedes Dokument ein Treffer. Ein solches Suchergebnis wäre für den Anwender nutzlos.
- Belege? Zudem zweifelhaft: Durch Einbeziehen der Stoppwörter kann u.U. die Suchabfrage präzisiert werden und das Ergebnis im Gegenteil sogar grössere Relevanz haben. Simples Beispiel: Suche nach "who" oder "The Who". Oder bei Einbeziehung der Satzzeichen der Klassiker: "Hängt ihn nicht unschuldig" (nicht signierter Beitrag von 2001:A62:1016:FE01:621E:3BC6:F720:6924 (Diskussion | Beiträge) 10:42, 14. Sep. 2015 (CEST))
- Zum letzten Punkt: konkrete Phrasen wie "The Who" gibt man in Suchmaschinen ein, indem man sie in Anführungszeichen setzt. Dann beachtet die Suchmaschine auch die Stoppwörter. Wo du allerdings recht hast: Sonderzeichen werden von allen mir bekannten Suchmaschinen bis heute nicht berücksichtigt. -- 217.50.115.230 04:46, 29. Jan. 2016 (CET)
- Nicht jede Suchmaschine beachtet diese. Google hat sie anfangs ignoriert, viele Forensuchmaschinen ignorieren sie bis heute. --mfb (Diskussion) 11:08, 29. Jan. 2016 (CET)