ru %D0%97%D0%B0%D0%BA%D0%BE%D0%BD %D0%A6%D0%B8%D0%BF%D1%84%D0%B0

Закон Ципфа: График для частотностей слов из статей русской Википедии с рангами от 3 до 170

Закон Ципфа («ранг — частотность») — эмпирическая закономерность распределения частотности слов естественного языка: если все слова языка (или просто достаточно длинного текста) упорядочить по убыванию частотности их использования, то частотность $n$ -го слова в таком списке окажется приблизительно обратно пропорциональной его порядковому номеру $n$ (так называемому рангу этого слова, см. шкала порядка). Например, второе по используемости слово встречается примерно в два раза реже, чем первое, третье — в три раза реже, чем первое, и так далее.

История создания

Автором открытия закономерности является французский стенографист Жан-Батист Эсту^[фр.], который описал её в 1908 году в работе «Диапазон стенографии»^[1]. Закон был впервые применён для описания распределения размеров городов немецким физиком Феликсом Ауэрбахом в работе «Закон концентрации населения» в 1913 году^[2] и носит имя американского лингвиста Джорджа Ципфа, который в 1949 году активно популяризировал данную закономерность, впервые предложив использовать её для описания распределения экономических сил и социального статуса^[2].

Объяснение закона Ципфа, основанное на корреляционных свойствах аддитивных марковских цепей (со ступенчатой функцией памяти) было дано в 2005 году^[3].

Закон Ципфа математически описывается распределением Парето. Является одним из базовых законов, используемых в инфометрии.

Приложения закона

Джордж Ципф в 1949 году впервые показал распределение доходов людей по их размерам: самый богатый человек имеет вдвое больше денег, чем следующий богач, и так далее. Это утверждение оказалось справедливым для ряда стран (Англия, Франция, Дания, Голландия, Финляндия, Германия, США) в период с 1926 по 1936 год^[2].

Этот закон также работает в отношении распределения городской системы: город с самым большим населением в любой стране в два раза больше, чем следующий по размеру город, и так далее^[2]. Если расположить все города некоторой страны в списке в порядке убывания численности населения, то каждому городу можно приписать некоторый ранг, то есть номер, который он получает в данном списке. При этом численность населения и ранг подчиняются простой закономерности, выражаемой формулой^[4]:

P_{n}={\frac {P_{1}}{n}}

,

где $P_{n}$ — население города $n$ -го ранга; $P_{1}$ — население главного города страны (1-го ранга).

Эмпирические исследования подтверждают данное утверждение^[5]^[6]^[7]^[8]^[9].

В 1999 году экономист Ксавье Габэ описал закон Ципфа как пример степенного закона: если города будут расти случайным образом с одинаковым среднеквадратичным отклонением, то в пределе распределение будет сводиться к закону Ципфа^[10].

Согласно выводам исследователей по отношению к городскому расселению в Российской Федерации, в соответствии с законом Ципфа^[11]:

большинство городов России лежит выше идеальной кривой Ципфа, поэтому ожидаемая тенденция — продолжение сокращения численности и людности средних и малых городов за счёт миграции в крупные города;
соответственно 7 городов-миллионников (Санкт-Петербург, Новосибирск, Екатеринбург, Нижний Новгород, Казань, Челябинск, Омск), находящиеся ниже идеальной кривой Ципфа, имеют существенный резерв роста населения и ожидают прирост населения;
существуют риски депопуляции первого города в ранге (Москвы), поскольку второй город (Санкт-Петербург) и последующие крупные города сильно отстают от идеальной кривой Ципфа в связи со снижением спроса на рабочую силу при одновременном росте стоимости проживания, включая, прежде всего, стоимость покупки и аренды жилья.

Критика

Американский специалист по биоинформатике Вэньтянь Ли^[англ.] предложил статистическое объяснение закона Ципфа, доказав, что случайная последовательность символов также подчиняется этому закону^[12]. Автор делает вывод, что закон Ципфа, по-видимому, является чисто статистическим феноменом, который не имеет отношения к семантике текста и имеет поверхностное отношение к лингвистике.

В общих чертах доказательство этой теории состоит в следующем. Вероятность случайного появления какого-либо слова длиной $n$ в цепочке случайных символов уменьшается с ростом $n$ в той же пропорции, в какой растёт при этом ранг этого слова в частотном списке (порядковой шкале). Потому произведение ранга слова на его частотность есть константа.

См. также

Примечания

↑ Alain Lelu. Jean-Baptiste Estoup and the origins of Zipf’s law: a stenographer with a scientific mind (1868-1950) (англ.) // Boletín de Estadística e Investigación Operativa. — 2014. — Vol. 30, no. 1. — P. 66—77. Архивировано 25 сентября 2015 года.
↑ ¹ ² ³ ⁴ Zipf G.K. Human Behavior and the Principle of Least Effort (англ.). — Addison-Wesley Press, 1949. — P. 484-490. — 573 p.
↑ K.E. Kechedzhy, O.V. Usatenko, V.A. Yampol'skii. Rank distributions of words in additive many-step Markov chains and the Zipf law (англ.) // Phys. Rev. E.. — 2004. — Vol. 72. — P. 046138(1)-046138(6). — arXiv:physics/0406099.
↑ Занадворов В.С., Занадворова А.В. Экономика города: вводный курс (неопр.). ISBN 5-94628-099-6. Академкнига (2003). Дата обращения: 31 августа 2015. Архивировано 25 сентября 2015 года.
↑ Jiang B., Jia T. Zipf's law for all the natural cities in the United States: a geospatial perspective (англ.). International Journal of Geographical Information Science 25(8), 1269-1281 (2011). Дата обращения: 31 августа 2015. Архивировано 20 сентября 2014 года.
↑ Kali R. The city as a giant component: a random graph approach to Zipf's law (англ.). — Applied Economics Letters 10: 717-720(4), 2003.
↑ Axtell, Robert L. Zipf distribution of US firm sizes (англ.). American Association for the Advancement of Science (2001). Архивировано из оригинала 23 сентября 2015 года.
↑ Rozenfeld H., Rybski D., Andrade JS., Batty M., Stanley. Laws of Population Growth (англ.). Proc. Nat. Acad. Sci. 105, 18702–18707 (2008). Архивировано из оригинала 16 февраля 2015 года.
↑ О’Салливан А. Экономика города. — М.: Инфра-М, 2002. — С. 122. — 706 с. — ISBN 5-16-000673-7.
↑ Gabaix, Xavier. Zipf’s Law for Cities: An Explanation (англ.). Quarterly Journal of Economics 114 (3): 739–67 (1999). Дата обращения: 31 августа 2015. Архивировано 24 февраля 2021 года.
↑ Фаттахов Р.В., Строев П.В. Пространственное развитие России: вызовы современности и формирование точек экономического роста (неопр.). Финансовый университет при Правительстве Российской Федерации (22 июня 2015). Архивировано из оригинала 25 сентября 2015 года.
↑ Wentian Li. Закон Ципфа работает и для случайных текстов = Random Texts Exhibit Zipf’s-Law-Like Word Frequency Distribution. — Santa Fe Institute, 1991. — С. 8. Архивировано 13 декабря 2024 года.

[:1-1] Alain Lelu. Jean-Baptiste Estoup and the origins of Zipf’s law: a stenographer with a scientific mind (1868-1950) (англ.) // Boletín de Estadística e Investigación Operativa. — 2014. — Vol. 30, no. 1. — P. 66—77. Архивировано 25 сентября 2015 года.

[:0-2] ¹ ² ³ ⁴ Zipf G.K. Human Behavior and the Principle of Least Effort (англ.). — Addison-Wesley Press, 1949. — P. 484-490. — 573 p.

[3] K.E. Kechedzhy, O.V. Usatenko, V.A. Yampol'skii. Rank distributions of words in additive many-step Markov chains and the Zipf law (англ.) // Phys. Rev. E.. — 2004. — Vol. 72. — P. 046138(1)-046138(6). — arXiv:physics/0406099.

[4] Занадворов В.С., Занадворова А.В. Экономика города: вводный курс (неопр.). ISBN 5-94628-099-6. Академкнига (2003). Дата обращения: 31 августа 2015. Архивировано 25 сентября 2015 года.

[5] Jiang B., Jia T. Zipf's law for all the natural cities in the United States: a geospatial perspective (англ.). International Journal of Geographical Information Science 25(8), 1269-1281 (2011). Дата обращения: 31 августа 2015. Архивировано 20 сентября 2014 года.

[6] Kali R. The city as a giant component: a random graph approach to Zipf's law (англ.). — Applied Economics Letters 10: 717-720(4), 2003.

[7] Axtell, Robert L. Zipf distribution of US firm sizes (англ.). American Association for the Advancement of Science (2001). Архивировано из оригинала 23 сентября 2015 года.

[8] Rozenfeld H., Rybski D., Andrade JS., Batty M., Stanley. Laws of Population Growth (англ.). Proc. Nat. Acad. Sci. 105, 18702–18707 (2008). Архивировано из оригинала 16 февраля 2015 года.

[9] О’Салливан А. Экономика города. — М.: Инфра-М, 2002. — С. 122. — 706 с. — ISBN 5-16-000673-7.

[10] Gabaix, Xavier. Zipf’s Law for Cities: An Explanation (англ.). Quarterly Journal of Economics 114 (3): 739–67 (1999). Дата обращения: 31 августа 2015. Архивировано 24 февраля 2021 года.

[11] Фаттахов Р.В., Строев П.В. Пространственное развитие России: вызовы современности и формирование точек экономического роста (неопр.). Финансовый университет при Правительстве Российской Федерации (22 июня 2015). Архивировано из оригинала 25 сентября 2015 года.

[12] Wentian Li. Закон Ципфа работает и для случайных текстов = Random Texts Exhibit Zipf’s-Law-Like Word Frequency Distribution. — Santa Fe Institute, 1991. — С. 8. Архивировано 13 декабря 2024 года.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]