Закон ЦипфаЗакон Ципфа («ранг — частотность») — эмпирическая закономерность распределения частотности слов естественного языка: если все слова языка (или просто достаточно длинного текста) упорядочить по убыванию частотности их использования, то частотность -го слова в таком списке окажется приблизительно обратно пропорциональной его порядковому номеру (так называемому рангу этого слова, см. шкала порядка). Например, второе по используемости слово встречается примерно в два раза реже, чем первое, третье — в три раза реже, чем первое, и так далее. История созданияАвтором открытия закономерности является французский стенографист Жан-Батист Эсту[фр.], который описал её в 1908 году в работе «Диапазон стенографии»[1]. Закон был впервые применён для описания распределения размеров городов немецким физиком Феликсом Ауэрбахом в работе «Закон концентрации населения» в 1913 году[2] и носит имя американского лингвиста Джорджа Ципфа, который в 1949 году активно популяризировал данную закономерность, впервые предложив использовать её для описания распределения экономических сил и социального статуса[2]. Объяснение закона Ципфа, основанное на корреляционных свойствах аддитивных марковских цепей (со ступенчатой функцией памяти) было дано в 2005 году[3]. Закон Ципфа математически описывается распределением Парето. Является одним из базовых законов, используемых в инфометрии. Приложения законаДжордж Ципф в 1949 году впервые показал распределение доходов людей по их размерам: самый богатый человек имеет вдвое больше денег, чем следующий богач, и так далее. Это утверждение оказалось справедливым для ряда стран (Англия, Франция, Дания, Голландия, Финляндия, Германия, США) в период с 1926 по 1936 год[2]. Этот закон также работает в отношении распределения городской системы: город с самым большим населением в любой стране в два раза больше, чем следующий по размеру город, и так далее[2]. Если расположить все города некоторой страны в списке в порядке убывания численности населения, то каждому городу можно приписать некоторый ранг, то есть номер, который он получает в данном списке. При этом численность населения и ранг подчиняются простой закономерности, выражаемой формулой[4]:
где — население города -го ранга; — население главного города страны (1-го ранга). Эмпирические исследования подтверждают данное утверждение[5][6][7][8][9]. В 1999 году экономист Ксавье Габэ описал закон Ципфа как пример степенного закона: если города будут расти случайным образом с одинаковым среднеквадратичным отклонением, то в пределе распределение будет сводиться к закону Ципфа[10]. Согласно выводам исследователей по отношению к городскому расселению в Российской Федерации, в соответствии с законом Ципфа[11]:
КритикаАмериканский специалист по биоинформатике Вэньтянь Ли[англ.] предложил статистическое объяснение закона Ципфа, доказав, что случайная последовательность символов также подчиняется этому закону[12]. Автор делает вывод, что закон Ципфа, по-видимому, является чисто статистическим феноменом, который не имеет отношения к семантике текста и имеет поверхностное отношение к лингвистике. В общих чертах доказательство этой теории состоит в следующем. Вероятность случайного появления какого-либо слова длиной в цепочке случайных символов уменьшается с ростом в той же пропорции, в какой растёт при этом ранг этого слова в частотном списке (порядковой шкале). Потому произведение ранга слова на его частотность есть константа. См. такжеПримечания
|