Закон Ципфа

Закон Ципфа
Названо на честь Джордж Ципф[1]
Досліджується в теорія ймовірностей
Першовідкривач або винахідник Джордж Ципф
Формула
Підтримується Вікіпроєктом Вікіпедія:Проєкт:Математика
CMNS: Закон Ципфа у Вікісховищі

Зако́н Ци́пфа (Зіпфа) — лінгвостатистичний закон, згідно з яким відношення рангу слова в частотному словнику до частотності слова в мові становить постійну величину (константу).

Інакше кажучи, якщо всі слова мови (або просто достатньо довгого тексту) впорядкувати за спаданням частоти їхнього використання, то частота n-го слова в такому списку виявиться приблизно обернено пропорційною його порядковому номеру n (так званому рангу цього слова)[2]. Наприклад, друге за вживаністю слово трапляється приблизно вдвічі рідше, ніж перше, третє — втричі рідше, ніж перше, і так далі.

Загальна характеристика

Американський дослідник Джордж Ципф дійшов висновку, що існує залежність між числом різних значень одного слова і його відносною частотою вживання. Кількість значення наближається до квадратного кореня від частоти слова: т = f , де т — число значень, а f — відносна частота. Інша закономірність, встановлена Ципфом, має таке формулювання: відношення рангу слова в частотному словнику до частотності слова в мові становить постійну величину (константу) rf = с, де r — ранг слова в частотному словнику, f — частота слова, с — постійна величина. Тісний зв'язок існує також між частотними характеристиками слова в пам'яті та в словнику.

Застосування

Закон Ципфа може бути застосований до будь-якого тексту, записаного природною або штучною мовою, коду (наприклад, ДНК) або сигналу, при цьому правила викладення інформації можуть лишатись невідомими. Як наслідок, закон дозволяє визначити наявність інформації в повідомленні навіть у випадках, коли саме повідомлення не може бути дешифроване.

В результаті статистичного аналізу Рукопису Войнича, написаного невідомою мовою, було доведено, що цей рукопис містить осмислену інформацію. Аналіз проводився з використанням методу, що лежить в основі закону Ципфа[3].

Література

  • Кочерган М. П. Загальне мовознавство: підручник / Михайло Петрович Кочерган. — Київ: Академія, 2003. — С. 398.
  • Henri Guiter, Michail V. Arapov (Hrsg.): Studies on Zipf's Law (= Quantitative Linguistics. Bd. 16). Studienverlag Brockmeyer, Bochum 1982, ISBN 3-88339-244-8.

Примітки

  1. Крістал Д. The Cambridge Encyclopedia of LanguageВидавництво Кембриджського університету, 1987. — С. 87. — ISBN 978-0-521-42443-1
  2. Fagan, Stephen; Gençay, Ramazan (2010), An introduction to textual econometrics, у Ullah, Aman; Giles, David E. A. (ред.), Handbook of Empirical Economics and Finance, CRC Press, с. 133—153, ISBN 9781420070361. P. 139: «For example, in the Brown Corpus, consisting of over one million words, half of the word volume consists of repeated uses of only 135 words.»
  3. «Слишком много совпадений» [Архівовано 15 липня 2013 у Wayback Machine.](рос.)

Посилання