Textdeckung

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen

Textdeckung (auch: Textabdeckung) ist der Anteil, den ein einzelnes Wort oder eine definierte Wortgruppe am Wortschatz eines Textes oder auch eines Textkorpus hat.

Die Textdeckung ist das entscheidende Kriterium für die Sprachdidaktik, wenn es darum geht, den Grundwortschatz einer Sprache zu erarbeiten. Dabei ist der Grundwortschatz derjenige Teil des Wortschatzes, dessen Kenntnis es ermöglicht, einen sehr hohen Anteil der Wörter eines beliebigen Textes zu verstehen. Pfeffer unterteilt den Grundwortschatz in eine „Grundstufe“, die die 1285 häufigsten Wörter enthält, und eine darauf aufbauende „Mittelstufe“.[1] Schaut man sich die 22 Textanalysen sehr unterschiedlicher Themenbereiche[2] an, so kann man feststellen, dass mit dem Wortschatz der Grundstufe in jedem Fall über 60 %, mit dem der Grund- und Mittelstufe zusammen über 80 %, in vielen Fällen über 90 % des jeweiligen Textwortschatzes bekannt sind. In einer neueren Untersuchung heißt es: „Die wenigen Studien, die für das Deutsche publiziert sind, deuten darauf hin, dass die ersten 2 000 Wörter eine Textdeckung von 80 Prozent erreichen.“[3]

Für das Chinesische wird berichtet, dass nach Einschätzung chinesischer Wissenschaftler mit 3000 Wörtern eine Textdeckung „gewöhnlicher Texte“ von ca. 86 %, mit 5000 eine solche von ca. 91 % und mit 8000 Wörtern 95 % erreicht wird.[4]

Auch Implikationen für die Stilistik können angeführt werden: So erwähnt Kempgen, dass in der Umgangssprache eine wesentlich höhere Textdeckung zu beobachten ist als in der Sprache der Literatur.[5] Eine relativ niedrige Textdeckung durch den Grundwortschatz deutet auf einen sprachlich anspruchsvollen Text hin.[6]

Um die Textdeckung zu erarbeiten, muss geklärt werden, was als Wort (Lexem) oder Wortform berücksichtigt werden soll. So kann man etwa die verschiedenen Flexionsformen des Substantivs „Mann“ zu einem Wort zusammenfassen oder auch je einzeln werten. Auch die Bewertung von Homonymen und Polysemen muss geklärt werden, um nur einige Aspekte zu erwähnen. Rosengren wird dem insofern gerecht, als sie die Textdeckung der sogenannten laufenden Wörter und getrennt davon die der verschiedenen Wörter aufführt.[7]

Siehe auch

Wiktionary: Textdeckung – Bedeutungserklärungen, Wortherkunft, Synonyme, Übersetzungen

Einzelnachweise

[Bearbeiten | Quelltext bearbeiten]
  1. J. Alan Pfeffer: Grunddeutsch. Erarbeitung und Wertung dreier deutscher Korpora. Narr, Tübingen 1975, ISBN 3-87808-627-X, Seite 10ff.
  2. Pfeffer, Seite 85–125.
  3. Winnerlöv 2012, Seite 28.
  4. Cornelia Schindelin: Die quantitative Erforschung der chinesischen Sprache und Schrift. In: Reinhard Köhler, Gabriel Altmann, Rajmund G. Piotrowski (Hrsg.): Quantitative Linguistik – Quantitative Linguistics. Ein internationales Handbuch. de Gruyter, Berlin/ New York 2005, S. 947–970, Bezug: S. 952f. zur Textabdeckung. ISBN 3-11-015578-8.
  5. Sebastian Kempgen: Russische Sprachstatistik. Systematischer Überblick und Bibliographie. Otto Sagner, München 1995. Seite 51. ISBN 3-87690-617-2.
  6. Pfeffer, Seite 20.
  7. Inger Rosengren: Ein Frequenzwörterbuch der deutschen Zeitungssprache. Die Welt, Süddeutsche Zeitung. 1. CWK Gleerup, Lund 1972. "laufende Wörter", "verschiedene Wörter": Seite XVIIIf, deren Textdeckung: XXXVIIIf.