Diskussion:Tokenisierung

aus Wikipedia, der freien Enzyklopädie
Letzter Kommentar: vor 1 Jahr von Pato-logic in Abschnitt Artikel aufteilen
Zur Navigation springen Zur Suche springen
[Quelltext bearbeiten]

Der Weblink funktioniert nicht. (nicht signierter Beitrag von 178.197.236.247 (Diskussion) 16:56, 23. Okt. 2013 (CEST))Beantworten

Tokenism

[Quelltext bearbeiten]

Es sollte ein Hinweis auf die Verwechslungsmöglichkeit mit Tokenism (https://en.wikipedia.org/wiki/Tokenism) in den Text. Datt giff datt bisher nämlich man bloß up Plattdütsch. --80.171.175.91 21:20, 2. Mär. 2017 (CET)Beantworten

Ergänzungen? Software, weitere Tokensierungsverfahren, genauere Abgrenzung des Begriffs...

[Quelltext bearbeiten]

Hallo, ich würde mir für den Text ein paar Ergänzungen wünschen, habe aber weder Zeit noch genug Expertise/Mut um diese selbst vorzunehmen:

  • vielleicht möchte man Links zu verschiedenen Software-Lösungen hinzufügen, oder - falls zu tendenziös oder ausufernd - darauf hinweisen, dass es dafür zumindest verschiedene Programme gibt, die wiederum für verschiedene Anwendungszwecke (SMS vs Roman/Zeitungstext) gedacht sind oder dass Programme, die "höhergradige" Ziele verfolgen wie bspw. Named-entity recognition oder PoS-Tagging mitunter eine eigne eingebaute/spezialisierte Tokenisierungsstrategie haben? Meiner Meinung nach könnte die Wichtigkeit einer korrekten Tokenisierung für darauf aufbauende computerlinguistische Anwendungen noch stärker betont werden (Folgefehler). Bisher ist nur im Einleitungstext ein kurzer Satz dazu zu finden.
  • im Abschnitt über Probleme werden zwei sehr simple Tokenisierungsansätze vorgestellt und dem gegenüber die 'wünschenswerte' Goldstandard-Annotation. Mir fehlen hier komplexere Strategien (vielleicht extra Abschnitt "Tokensierungsstrategien/vorgehen/...?"): was ist mit statistischen Verfahren oder gar neuronalen Netzen? Was ist der Vorteil/Nachteil der einzelnen Verfahren und welches funktioniert wie gut? Ein regelbasierter Ansatz wäre vielleicht sehr sprach- und genre-spezifisch, schwierig zu erweitern (sich widersprechende Regeln...) und zeitintensiv umzusetzen. Umgekehrt brauchen statistische Ansätze tokenisierte Trainingsdaten. Falls man nicht komplizierte Verfahren ausführen will, zumindest auf verschiede Ansätze in der Literatur oder Implementierungen verweisen?
  • außerdem scheint mir der Begriff der Tokensierung nicht immer einheitlich verwendet:
    • manchmal zählt neben dem reinen Aufteilen der Zeichenkette in Worte/Token auch die Analayse/Klassifizierung dieser Token zur Tokenisierung (normales Wort, Eigenname, Satzzeichen, Datumsangabe, ...). So heißt es zum Beispiel beim Tokenizer von Stefanie Dipper (einer meiner ersten Suchmaschinen-Treffer): "optionally provides a rather detailed analysis of the tokens (and whitespace) in the input text."
    • Verwandt mit der Tokenisierung ist das Sentence-Splitting, also das Einteilen eines Textes in Sätze. Auch hier scheint mir, dass manche Tokenizer diese Aufgabe mit übernehmen. So zum Beispiel der oben erwähnte Tokenizer, ein anderes Programm hingegen (SoMaJo - ebenfalls einer meiner ersten Treffer) erfüllt beide Aufgaben (Sentence-splitter und tokenizer), führt diese aber begrifflich separat. Falls Tokenisierung das Aufteilen von Sätzen nicht mitmeint, sondern voraussetzt, wäre vielleicht der Hinweis auf diese Voraussetzung hilfreich (wichtig um u.a. zu entscheiden wie mit Punkten umgegangen werden soll: wann markieren sie das Satzende, wann eine Abkürzung...?)

--PlusMinuscule (Diskussion) 22:07, 10. Apr. 2019 (CEST)Beantworten

[Quelltext bearbeiten]

Es existiert bereits eine Wiki-Seite für Tokenizer, allerdings geht es dort - bis auf den ersten allgemeinen Satz - nur um Tokenizer als Teil von Compilern. Vielleicht sollte man beide Artikel miteinander verlinken und evtl. ergänzen.

--PlusMinuscule (Diskussion) 22:28, 10. Apr. 2019 (CEST)Beantworten

Artikel aufteilen

[Quelltext bearbeiten]

M.E: sollte mder Artikel aufgeteilt werden in 2, je für Computerlinguistuik und Finanzwesen. --Zasterabad (Diskussion) 12:32, 11. Nov. 2022 (CET)Beantworten

Sehe ich auch so. Die Themen sind zu unterschiedlich für einen gemeinsamen Artikel. Könnte man wohl auch im Titel auffangen: "Tokenisierung (Sprachverarbeitung)" wäre ein präziserer Titel --Pato-logic (Diskussion) 11:13, 7. Nov. 2023 (CET)Beantworten