Gesetz der Verteilung von WortlängenDas Gesetz der Verteilung von Wortlängen bedeutet, dass Wörter unterschiedlicher Länge in Texten und/oder in Wörterbüchern nicht chaotisch, sondern gesetzmäßig verteilt sind. Die Wortlänge kann man verschieden definieren; am geläufigsten wird sie durch die Zahl der Buchstaben, Laute, Morphe oder der Silben je Wort angegeben. Gleich, welche Wahl man trifft, ist zu erwarten, dass die Häufigkeiten, mit denen die nach Länge geordneten Wörter in einem Text oder im Lexikon vertreten sind, gesetzmäßig verteilt sind. Das Gesetz der Verteilung von Wortlängen ist einer von vielen Gesetzesvorschlägen der Quantitativen Linguistik. Das entsprechende Gesetz haben zuletzt Altmann, Wimmer u. a.[1] abgeleitet; die Vorschläge zu diesem Gesetz, die seit den 1940er Jahren[2] zuerst von Sergei Tschebanow (1947), William Palin Elderton (1949)[3] und Wilhelm Fucks (1955) gemacht wurden, sind in dieser neuen Theorie als Spezialfälle enthalten. Eine Fülle von Überprüfungen an deutschen und über 50 weiteren Sprachen (über 4000 Texte und einige Wörterbücher) bestätigen die Theorie (Best 1997, 2001, 2003; Schmidt 1997). Wortlängen sind damit die bei weitem am besten erforschte Sprachgröße. Zur Geschichte des Gesetzes von den 1940er Jahren an und zu seiner Kritik vergleiche Grzybek (2006). Es hat sich gezeigt, dass die Hyperpoisson-Verteilung ein besonders häufig anwendbares Modell ist. Je nach Sprache, Autor, Zeit, Textsorte müssen aber oft auch andere Modelle eingesetzt werden. Das Gesetz gilt analog für andere Spracheinheiten wie Morphe, rhythmische Einheiten, Sätze und Silben (siehe Gesetz der Verteilung von Morphlängen, Gesetz der Verteilung rhythmischer Einheiten verschiedener Länge, Gesetz der Verteilung von Satzlängen, Gesetz der Verteilung von Silbenlängen). Untersuchungen zu Wortlängenverteilungen im DeutschenDer empirische Befund für das Deutsche ist, dass die einsilbigen Wörter immer, von althochdeutscher Zeit an, bei allen Autoren, in allen Textsorten etc. am häufigsten sind, es folgen als nächsthäufige die zweisilbigen usw. Bei knapp 2000 Texten gab es immer dasselbe Ergebnis. Alle Texte bis auf 5 entsprechen der Hyperpoisson-Verteilung. Ein Beispiel für eine Wortlängenverteilung (gemessen als Zahl der Silben pro Wort) in einem Brief von Kurt Tucholsky:[4]
(Dabei ist x: Zahl der Silben pro Wort, n(x) die in diesem Text beobachtete Zahl der Wörter mit x Silben; NP(x) die Zahl der Wörter mit x Silben, die berechnet wird, wenn man die Hyperpoisson-Verteilung an die beobachteten Daten anpasst. Ergebnis: die Hyperpoisson-Verteilung ist für diesen Text ein gutes Modell mit dem Testkriterium P = 0,85, wobei P als gut erachtet wird, wenn es größer/gleich 0,05 ist. Für ausführlichere Erläuterungen sei auf die angegebene Literatur verwiesen.) Die Wortlängenverteilung dieses Textes ist für das Deutsche recht typisch: am häufigsten sind die Wörter, die aus nur einer Silbe bestehen; es folgen die zwei-, dann die dreisilbigen usw. Nur bei den seltenen Klassen der langen Wörter treten Unregelmäßigkeiten auf. Solche Unregelmäßigkeiten verschwinden, wenn man sehr umfangreiche Dateien hat. Als Beispiel möge der Hinweis auf Kaedings Häufigkeitswörterbuch dienen, das im Artikel Wortlänge vorgestellt wird. Auch an diese Daten kann man die Hyperpoisson-Verteilung mit einem sehr guten Ergebnis anpassen.[5] Sonderfall: Länge von KompositaAls Sonderfall von Wortlängen kann man die Länge von Komposita betrachten. Ihre Länge lässt sich danach bestimmen, aus wie vielen Lexemen sie zusammengesetzt sind. Am Beispiel von Komposita in einem Korpus von Werbetexten[6] wurde folgendes Ergebnis erzielt:[7]
(Dabei ist x = 1: Kompositum, bestehend aus 2 Lexemen, x = 2: Kompositum, bestehend aus 3 Lexemen, undsoweiter; n(x) ist die in diesem Textkorpus beobachtete Zahl der Komposita mit x Lexemen; NP(x) ist die Zahl der Komposita mit x Lexemen, die berechnet wird, wenn man die Hyperpoisson-Verteilung an die beobachteten Daten anpasst. Ergebnis: die Hyperpoisson-Verteilung ist für dieses Textkorpus ein gutes Modell mit dem Testkriterium P = 0,34, wobei P als gut erachtet wird, wenn es größer/gleich 0,05 ist.) Eine Untersuchung zur Länge von Komposita in Pressetexten aus GeoEpoche und FAZ[8] zeigte, dass der Unterschied zwischen den Komposita, die aus 2 Lexemen bestehen, und den dreigliedrigen Komposita wesentlich stärker war als bei den Werbetexten. Auch hier ließ sich eine Verteilung mit Erfolg anpassen. Das Ergebnis konnte durch weitere Untersuchungen an deutschen Pressetexten bestätigt werden.[9] (Für ausführlichere Erläuterungen sei auf die angegebene Literatur verwiesen.) Befunde in anderen SprachenIn anderen Sprachen sind oft nicht die einsilbigen Wörter die häufigsten, sondern die zwei- oder gar erst die dreisilbigen. Dies ist abhängig von der Morphologie der Sprachen. Zu den Sprachen, bei denen nicht die einsilbigen Wörter am häufigsten in Texten vorkommen, gehören unter anderen Finnisch und Latein. Ein weiteres Beispiel dafür ist das Japanische. Sanada[10] untersuchte einen Ausschnitt des Wörterbuchs des Japanischen, indem sie die Wortlängen gemäß der Zahl der Moren pro Wort bestimmte und feststellte, dass die 1-verschobene Binomialverteilung ein gutes Modell für dieses Phänomen abgibt:
(Dabei ist x: Zahl der Moren pro Wort, n(x) die in diesem Text beobachtete Zahl der Wörter mit x Moren; NP(x) die Zahl der Wörter mit x Moren, die berechnet wird, wenn man die 1-verschobene Binomialverteilung an die beobachteten Daten anpasst. Ergebnis: Die Binomialverteilung ist für diesen Text ein gutes Modell mit dem Testkriterium C = 0,0047, wobei C als gut erachtet wird, wenn es kleiner/gleich 0,01 ist. Das Testkriterium C wird hier bevorzugt, da die Gesamtzahl der Wörter n(x) recht hoch ist; P eignet sich eher bei einer deutlich geringeren Gesamtzahl.) Ergebnisse zu 13 indischen Sprachen, für die jeweils 2 Texte mit der Zipf-Alekseev-Funktion untersucht wurden, präsentieren Mohanty & Popescu.[11] Wortlängen in 28 Sprachen stellen Popescu u. a. (2013) vor, wobei verschiedene Modelle genutzt wurden.[12] Bedeutsam ist auch im gleichen Band die Untersuchung von Lu Wang zu Wortlängen im Chinesischen, getrennt nach Token und Types, wobei unterschiedliche Verteilungen erfolgreich getestet wurden. Zusätzlich gelang auch der Nachweis, dass Polysemie und Wortlänge zusammenhängen: Je länger ein Wort, desto geringer die Polysemie.[13] Damit bestätigt Lu Wang für das Chinesische einen Zusammenhang, der von Altmann, Beöthy und Best (1982)[14] sowie Rothe (1983)[15] für Deutsch, Französisch, Portugiesisch, Slowakisch, Spanisch und Ungarisch nachgewiesen wurde. Wortlängen, bestimmt nach der Zahl ihrer Buchstaben oder PhonemeBisher waren Wortlängen durch die Zahl ihrer Silben bestimmt. Silben können neben Morphen als direkte Konstituenten der Wörter betrachtet werden. Nimmt man aber Buchstaben oder Phoneme als Kriterium der Wortlängen, also ihre indirekten Konstituenten, so erhält man deutlich längere Tabellen, da Wörter durchaus mit knapp 70 Buchstaben vorkommen,[16] wenn auch nicht gerade sehr häufig. In einer Untersuchung zu etlichen Sprachen wurde festgestellt, dass auch in diesen Fällen ein mathematisches Modell, und zwar die Good-Verteilung, erfolgreich angewendet werden kann.[17] Ergebnis und PerspektiveDie sehr umfangreichen Befunde zu den Wortlängenverteilungen in vielen verschiedenen Sprachen und Sprachstadien unterstützen in besonderem Maße die allgemeine Hypothese der Quantitativen Linguistik, dass in Sprachsystem und -verwendung ebenso wie im Sprachwandel theoretisch begründbare Gesetze gelten. Es ist inzwischen durch etliche Untersuchungen gesichert, dass es zwischen der Wortlänge und anderen Spracheigenschaften innerhalb einzelner Sprachen eine ganze Reihe von gesetzmäßigen Abhängigkeiten gibt; vergleiche dazu vor allem den Artikel Linguistische Synergetik. Speziell zur Abhängigkeit der Wortlänge von der Worthäufigkeit siehe [18]. Literatur
Bibliographie
Siehe auch
WeblinksWiktionary: Wortlänge – Bedeutungserklärungen, Wortherkunft, Synonyme, Übersetzungen
Wiktionary: Wortlängenverteilung – Bedeutungserklärungen, Wortherkunft, Synonyme, Übersetzungen
Einzelnachweise
|
Portal di Ensiklopedia Dunia