Diskussion:Gesetz der Verteilung von Wortlängen
Definition fehlt
[Quelltext bearbeiten]Und worin besteht denn nun dieses Gesetz genau (wie lautet die Formel für die Häufigkeitsverteilung)? Für welche Sprachen gilt es? grüße, HaeB 17:12, 25. Jan. 2007 (CET)
Bei rd. 4000 Texten aus rd. 50 Sprachen sehr oft Hyperpoisson-Verteilung, aber auch andere Modelle (Poisson, pos. Poisson etc). Der Ansatz ist einheitlich; aus ihm lassen sich aber unterschiedliche Verteilungen ableiten. (s. Literatur) Gruß Dr. Karl-Heinz Best 20:41, 11. Feb. 2007 (CET)
Hyperpoissonverteilung
[Quelltext bearbeiten]Wie sieht diese Verteilung aus? Wikipedia (deutsch und englisch) schreibt nichts, und ein hier greifbares Statistikbuch (Bortz) läßt diese Verteilung ebenfalls unerwähnt. Phelixxx 14:57, 12. Mär. 2007 (CET)
- Die Verteilung ist ziemlich flexibel. Meist hat sie Hyperbelform. Es geht aber auch so, dass die ersten Werte ansteigen und dann in eine abfallende Kurve übergehen. Bei deutschen Wortlängen immer nur monoton fallend. Dr. Karl-Heinz Best 17:28, 12. Mär. 2007 (CET)
- Oh. ein Misverständnis. Ich meinte die mathematische Gestalt der Verteilung. In Heft 13 der Göttinger Beiträge zur Sprachwissenschaft (Seite 34) findet sich die Formel . Ich wurde bisher nicht fündig, was den Term anbelangt. Phelixxx 14:01, 13. Mär. 2007 (CET)
In Deiner Formel steckt ein Fehler. "1_F_1(1;b;a)" nennt sich "konfluente hypergeometrische Verteilung". Ist in Wimmer & Altmann 1999 zu finden. Grüße Dr. Karl-Heinz Best 17:02, 13. Mär. 2007 (CET)
n(x)
[Quelltext bearbeiten]"n(x) die in diesem Text beobachtete Zahl der Silben pro Wort"
Soll das "n(x) ist die Anzahl der, in diesem Text, vorhandenen Wörter mit x Silben." bedeuten? --Moritzgedig (Diskussion) 14:52, 12. Nov. 2012 (CET)
Danke für den Hinweis! Ist korrigiert. Dr. Karl-Heinz Best (Diskussion) 17:31, 12. Nov. 2012 (CET)
Was heißt hier „Gesetz“?
[Quelltext bearbeiten]Der erste Satz liest sich so, dass es ein Gesetz gebe, das besagt, dass die Verteilung von Wortlängen in einer Sprache erkennbare Muster aufweist. Nun, das ist trivial, da natürlich nicht beliebig lange Wörter oft auftreten. Muss man das anders verstehen? --Chricho ¹ ² ³ 22:04, 9. Jan. 2013 (CET)
Die Verhältnisse in Sprachen wie dem flektierenden Latein und dem isolierenden Chinesisch sind schon unterschiedlich. "Gesetz" oder auch "Gesetzeshypothese" sind als stochastische Gesetze zu verstehen; Hintergrund ist die Auffassung von Sprache als einem selbstregulierenden System: Es gibt einen theoretischen Ansatz darüber, wie sich sprachliche Einheiten unterschiedlicher Länge (Komplexität) verhalten sollten, der sich auf Axiome stützt, daraus mathematische Modelle ableitet (s. z.B. Wimmer & Altmann 1994, 99ff.) und diese Modelle an möglichst vielen empirisch gewonnenen Daten überprüft. Die entsprechende Grundlagenliteratur ist in den Artikeln "Gesetz der Verteilung von Wortlängen" und denen zu den anderen Entitäten (Satzlänge, Morphlänge, etc.) angeführt. Ich verweise dazu vor allem auf die Arbeiten, an denen Altmann und Wimmer als Autoren beteiligt sind. Dr. Karl-Heinz Best (Diskussion) 11:40, 10. Jan. 2013 (CET)
- Was ist denn nun ein/das „Gesetz der Verteilung von Wortlängen“? Die Einleitung liest sich eben so, dass das nur diese banale, allgemeine Feststellung wäre. Oder bezeichnet man die konkret gemessenen Verteilungen in verschiedenen Sprachen als „Gesetze der Verteilung von Wortlängen“? Oder bezeichnet man die darein gefitteten Hyperpoissonverteilungen o. a. als „Gesetze der Verteilung von Wortlängen“? --Chricho ¹ ² ³ 12:13, 10. Jan. 2013 (CET)
- Das Gesetz ist in diesem Fall ein allgemeiner, mathematisch formulierter Ansatz, der variable Proportionen zwischen Einheiten benachbarter Komplexität annimmt. Daraus lässt sich neben anderen die Hyperpoisson-Verteilung ableiten. Das Gesetz ist unabhängig von Beobachtungen und ohne Bezug auf bestimmte Sprachen formuliert und wird nur anhand der Befunde in einzelnen Sprachen auf seine Bewährung hin getestet. Mit „Gesetz der Verteilung von Wortlängen“ oder den anderen entsprechenden Formulierungen wird darauf abgezielt, dass das Gesetz sich auf Wort-, Satz-, Silben- etc -längen beziehen lässt. Dr. Karl-Heinz Best (Diskussion) 17:15, 10. Jan. 2013 (CET)
- Ist mir immer noch nicht klar. Das gesetz besagt, dass das in etwa einer Hyperpoisson-Verteilung folgt, oder auch anderen Verteilungen? Also irgendeiner Verteilung folgt es doch immer? --Chricho ¹ ² ³ 22:58, 10. Jan. 2013 (CET)
- Das Gesetz lässt zu, dass z.B. im Dt. (und vielen anderen Sprachen) Wortlängen der Hyperpoisson-Verteilung folgen, im Engl. u. Frz. aber z.B. nicht, sondern andern Verteilungen. Es sind auch einzelne Texte (unter über 4000 Texten in ca 50 Sprachen) ausgewertet worden, die keiner bisher bekannten Verteilung folgen. Es ist also nicht so, dass jeder beliebige Datensatz immer irgendeiner Verteilung folgt. Das kann allerdings auch daran liegen, dass noch nicht alle Möglichkeiten der Anpassung von Verteilungen ausgeschöpft sind. So ist der Stand der Dinge, soweit ich ihn überblicke. Ich möchte aber nochmals auf die angegebene (und weitere) Fachliteratur verweisen (vgl. auch die Literatur in Sprachgesetz und weiteren Artikeln). Dr. Karl-Heinz Best (Diskussion) 11:27, 11. Jan. 2013 (CET)
- Welche Aussage macht das allgemeine Gesetz denn – irgendeine Verteilung lässt sich an jeden beliebigen Datensatz fitten? --Chricho ¹ ² ³ 12:24, 11. Jan. 2013 (CET)
- 1. Ich habe gerade darauf hingewiesen, dass es Verteilungen gibt, an die - zumindest bisher - keine Verteilung angepasst werden kann. Es gibt Versuche herauszufinden, unter welchen sprachlichen Bedingungen welche Verteilung anzunehmen ist, allerdings bisher noch nicht mit durchschlagendem Erfolg, soweit ich weiß. 2. Es besagt nach meinem Verständnis, dass Einheiten unterschiedlicher Komplexität nicht chaotisch, sondern gemäß einem Verteilungsgesetz in Sprachverwendung und -system vorkommen. Dr. Karl-Heinz Best (Diskussion) 17:16, 11. Jan. 2013 (CET)
- Was hieße das denn, wenn das Gesetz nicht gilt, was muss man sich unter einem „chaotischen Vorkommen“ der Wortlängen vorstellen, das laut diesem Gesetz eben nicht gegeben ist? Grüße --Chricho ¹ ² ³ 18:23, 26. Jan. 2013 (CET)
- Z.B. eine unstrukturierte Punktwolke, ein Trend mit zu großen Abweichungen oder eine Gleichverteilung. Gruß! Dr. Karl-Heinz Best (Diskussion) 20:38, 26. Jan. 2013 (CET)
Gesetzlos
[Quelltext bearbeiten]Begriffe (Worte) dienen dazu, die Realität in der Kommunikation abzubilden. In den bekannten Sprachen scheitert dieses Vorhaben, da aus der Sprache allein (den Wörtern) ihre Bedeutung nicht hervorgeht. Wichtige Dinge müßten eigentlich mit lauteren und längeren Wörtern abgebildet werden als unwichtige. Aus dem Klang der bekannten Sprachen läßt sich nicht auf die Bedeutung des Inhaltes schließen. Wortlängen zu analysieren in diesen Sprachen ist daher nur wie ein Stochern in unbrauchbarem Müll. --79.220.30.7 00:39, 24. Aug. 2016 (CEST)
- Ich empfehle einschlägige Lektüre, reichlich angegeben im Artikel Quantitative Linguistik. Vielleicht kann man dann ja von dir lernen? Dr. Karl-Heinz Best (Diskussion) 16:59, 24. Aug. 2016 (CEST)
Lexeme und x
[Quelltext bearbeiten]"(Dabei ist x = 1: Kompositum, bestehend aus 2 Lexemen, x = 2: Kompositum, bestehend aus 3 Lexemen, undsoweiter; n(x) ist die in diesem Textkorpus beobachtete Zahl der Komposita mit x Lexemen; NP(x) ist die Zahl der Komposita mit x Lexemen, die [...]"
In diesem erläuternden Abschnitt werden die Größen von x offenbar etwas durcheinander geworfen: n(x) müsste wohl eigentlich die Anzahl Komposita mit x + 1 Lexemen sein, ebenso bei NP(x)?! Da das Wort "Lexem" vorher nirgends im Artikel auftaucht, wäre zudem eine Verlinkung auf den entsprechenden Artikel hilfreich. --193.169.204.11 16:20, 2. Nov. 2017 (CET)
- Jeder darf verbessern. Dr. Karl-Heinz Best (Diskussion) 17:02, 2. Nov. 2017 (CET)