Закон Ципфа

Закон Ципфа: График для частотностей слов из статей русской Википедии с рангами от 3 до 170

Закон Ципфа («ранг — частотность») — эмпирическая закономерность распределения частотности слов естественного языка: если все слова языка (или просто достаточно длинного текста) упорядочить по убыванию частотности их использования, то частотность -го слова в таком списке окажется приблизительно обратно пропорциональной его порядковому номеру (так называемому рангу этого слова, см. шкала порядка). Например, второе по используемости слово встречается примерно в два раза реже, чем первое, третье — в три раза реже, чем первое, и так далее.

История создания

Автором открытия закономерности является французский стенографист Жан-Батист Эсту[фр.], который описал её в 1908 году в работе «Диапазон стенографии»[1]. Закон был впервые применён для описания распределения размеров городов немецким физиком Феликсом Ауэрбахом в работе «Закон концентрации населения» в 1913 году[2] и носит имя американского лингвиста Джорджа Ципфа, который в 1949 году активно популяризировал данную закономерность, впервые предложив использовать её для описания распределения экономических сил и социального статуса[2].

Объяснение закона Ципфа, основанное на корреляционных свойствах аддитивных марковских цепей (со ступенчатой функцией памяти) было дано в 2005 году[3].

Закон Ципфа математически описывается распределением Парето. Является одним из базовых законов, используемых в инфометрии.

Приложения закона

Джордж Ципф в 1949 году впервые показал распределение доходов людей по их размерам: самый богатый человек имеет вдвое больше денег, чем следующий богач, и так далее. Это утверждение оказалось справедливым для ряда стран (Англия, Франция, Дания, Голландия, Финляндия, Германия, США) в период с 1926 по 1936 год[2].

Этот закон также работает в отношении распределения городской системы: город с самым большим населением в любой стране в два раза больше, чем следующий по размеру город, и так далее[2]. Если расположить все города некоторой страны в списке в порядке убывания численности населения, то каждому городу можно приписать некоторый ранг, то есть номер, который он получает в данном списке. При этом численность населения и ранг подчиняются простой закономерности, выражаемой формулой[4]:

,

где  — население города -го ранга;  — население главного города страны (1-го ранга).

Эмпирические исследования подтверждают данное утверждение[5][6][7][8][9].

В 1999 году экономист Ксавье Габэ описал закон Ципфа как пример степенного закона: если города будут расти случайным образом с одинаковым среднеквадратичным отклонением, то в пределе распределение будет сводиться к закону Ципфа[10].

Согласно выводам исследователей по отношению к городскому расселению в Российской Федерации, в соответствии с законом Ципфа[11]:

  • большинство городов России лежит выше идеальной кривой Ципфа, поэтому ожидаемая тенденция — продолжение сокращения численности и людности средних и малых городов за счёт миграции в крупные города;
  • соответственно 7 городов-миллионников (Санкт-Петербург, Новосибирск, Екатеринбург, Нижний Новгород, Казань, Челябинск, Омск), находящиеся ниже идеальной кривой Ципфа, имеют существенный резерв роста населения и ожидают прирост населения;
  • существуют риски депопуляции первого города в ранге (Москвы), поскольку второй город (Санкт-Петербург) и последующие крупные города сильно отстают от идеальной кривой Ципфа в связи со снижением спроса на рабочую силу при одновременном росте стоимости проживания, включая, прежде всего, стоимость покупки и аренды жилья.

Критика

Американский специалист по биоинформатике Вэньтянь Ли[англ.] предложил статистическое объяснение закона Ципфа, доказав, что случайная последовательность символов также подчиняется этому закону[12]. Автор делает вывод, что закон Ципфа, по-видимому, является чисто статистическим феноменом, который не имеет отношения к семантике текста и имеет поверхностное отношение к лингвистике.

В общих чертах доказательство этой теории состоит в следующем. Вероятность случайного появления какого-либо слова длиной в цепочке случайных символов уменьшается с ростом в той же пропорции, в какой растёт при этом ранг этого слова в частотном списке (порядковой шкале). Потому произведение ранга слова на его частотность есть константа.

См. также

Примечания

  1. Alain Lelu. Jean-Baptiste Estoup and the origins of Zipf’s law: a stenographer with a scientific mind (1868-1950) (англ.) // Boletín de Estadística e Investigación Operativa. — 2014. — Vol. 30, no. 1. — P. 66—77. Архивировано 25 сентября 2015 года.
  2. 1 2 3 4 Zipf G.K. Human Behavior and the Principle of Least Effort (англ.). — Addison-Wesley Press, 1949. — P. 484-490. — 573 p.
  3. K.E. Kechedzhy, O.V. Usatenko, V.A. Yampol'skii. Rank distributions of words in additive many-step Markov chains and the Zipf law (англ.) // Phys. Rev. E.. — 2004. — Vol. 72. — P. 046138(1)-046138(6). — arXiv:physics/0406099.
  4. Занадворов В.С., Занадворова А.В. Экономика города: вводный курс. ISBN 5-94628-099-6. Академкнига (2003). Дата обращения: 31 августа 2015. Архивировано 25 сентября 2015 года.
  5. Jiang B., Jia T. Zipf's law for all the natural cities in the United States: a geospatial perspective (англ.). International Journal of Geographical Information Science 25(8), 1269-1281 (2011). Дата обращения: 31 августа 2015. Архивировано 20 сентября 2014 года.
  6. Kali R. The city as a giant component: a random graph approach to Zipf's law (англ.). — Applied Economics Letters 10: 717-720(4), 2003.
  7. Axtell, Robert L. Zipf distribution of US firm sizes (англ.). American Association for the Advancement of Science (2001). Архивировано из оригинала 23 сентября 2015 года.
  8. Rozenfeld H., Rybski D., Andrade JS., Batty M., Stanley. Laws of Population Growth (англ.). Proc. Nat. Acad. Sci. 105, 18702–18707 (2008). Архивировано из оригинала 16 февраля 2015 года.
  9. О’Салливан А. Экономика города. — М.: Инфра-М, 2002. — С. 122. — 706 с. — ISBN 5-16-000673-7.
  10. Gabaix, Xavier. Zipf’s Law for Cities: An Explanation (англ.). Quarterly Journal of Economics 114 (3): 739–67 (1999). Дата обращения: 31 августа 2015. Архивировано 24 февраля 2021 года.
  11. Фаттахов Р.В., Строев П.В. Пространственное развитие России: вызовы современности и формирование точек экономического роста. Финансовый университет при Правительстве Российской Федерации (22 июня 2015). Архивировано из оригинала 25 сентября 2015 года.
  12. Wentian Li. Закон Ципфа работает и для случайных текстов = Random Texts Exhibit Zipf’s-Law-Like Word Frequency Distribution. — Santa Fe Institute, 1991. — С. 8. Архивировано 13 декабря 2024 года.