Розподіл Парето в теорії імовірностей — двопараметрична сім'я абсолютно неперервних розподілів. Названий на честь італійського інженера з цивільного будівництва[en], економіста, і соціолога Вільфредо Парето. Це степеневийрозподіл ймовірностей, який використовується для описання соціальних, наукових, геофізичних, актуарних, та багатьох інших типів спостережуваних явищ. Початково застосовувалася для описання розподілу багатства[en] серед суспільства, що відповідає тенденції, що велика частина багатства зосереджена в руках невеликої частини населення людей. У розмовній версії розподіл Парето відомий як принцип Парето, або "правило 80—20", а також іноді може називатися "ефектом Матвія". Це правило стверджує що, наприклад, 80% багатства суспільства утримують 20% його населення. Однак, розподіл Парето дає цей результат тільки при певному значенні степеня, (α = log45 ≈ 1.16). Хоча є змінною, емпіричні спостереження установили, що розподіл 80-20 відповідає широкому загалу випадків, включаючи природні явища і діяльність людини.
Визначення
Якщо X є випадковою величиною із розподілом Парето (Типу I),[1] тоді імовірність того, що X є більшою за деяке число x, тобто функція виживання[en] (іноді називається функцією надійності), визначається як
де xm де (обов'язково додатне) мінімально можливе значення X, та α є додатнім параметром. Розподіл Парето типу I характеризується параметром масштабування xm і параметром форми α. Якщо розподіл використовують для моделювання розподілу багатства, тоді параметр α в даному контексті називають індексом Парето[en].
При відображені на графіку, функція густини нагадує вигнуту криву, яка асимптотично наближається до кожної із осей. Всі сегменти кривої є самоподібними (з урахуванням відповідних коефіцієнтів масштабування). При зображенні на логарифмічному графіку, розподіл представляється у вигляді прямої лінії.
Умовний розподіл імовірностей випадкової величини із розподілом Парето, задає подію що величина є більшою або рівною у порівнянні із певним числом , яке перевищує , є розподілом Парето із тим самим індексом Парето , але із мінімальним замість .
Характеристична теорема
Припустимо, що є незалежні однаково розподіленівипадкові величини, розподіл імовірностей яких знаходиться в інтервалі supported для деякого значення . Припустимо, що для всіх , пара випадкових величин і є незалежними. Тоді їх спільний розподіл буде розподілом Парето.
Існує ієрархія [1][3] розподілів Парето, що відомі як Парето Тип I, II, III, IV, і розподіл Феллера–Парето.[1][3][4] Парето типу IV включає Парето типів I–III як особливі випадки. Розподіл Феллера–Парето[3][5] узагальнює Парето IV типу.
Парето I–IV типів
Ієрархія розподілів Парето узагальнена у наступній таблиці, яка порівнює функції виживання[en] (доповнена кумулятивна функція розподілу).
Коли μ = 0, розподіл Парето II типу відомий також як розподіл Ломакса.[6]
В даному розділі, символ xm, що використовується для позначення мінімального значення x, замінено на символ σ.
Розподіли Парето
Умова
Параметри
Тип I
Тип II
Ломакса
Тип III
Тип IV
Параметр форми позначено як α, μ - положення, σ це масштаб, γ - параметр нерівності. Деякими особливими випадками розподілу Парето IV типу є:
Скінченність середнього значення, а також існування і скінченність дисперсії залежить від індексу α (індексу нерівності γ). Зокрема, часткові δ-моменти є скінченними для деяких δ > 0, як показано у таблиці нижче, де δ не обов'язково є цілим числом.
Моменти розподілів Парето I–IV (для випадку μ = 0)
Умова
Умова
Тип I
Тип II
Тип III
Тип IV
Розподіл Феллера–Парето
Феллер[3][5] визначає змінну Парето шляхом перетворення U = Y−1 − 1 випадкової величини Y із Бета-розподілом, функція густини розподілу якої дорівнює
тоді W має розподіл Феллера–Парето FP(μ, σ, γ, γ1, γ2).[1]
Якщо і є незалежними Гамма-розподіленими величинами, іншим способом побудувати випадково величину із розподілом Феллера–Парето (ФП) можна як[7]
і ми запишемо W ~ FP(μ, σ, γ, δ1, δ2). Особливими випадками розподілу Феллера–Парето є
Застосування
Парето спочатку застосував цей розподіл для моделювання розподілу багатства[en] між людьми оскільки здавалося він досить добре показує те, що більша частина багатства будь-якого суспільства як правило зосереджена у власності невеликого проценту осіб із даного суспільства. Він також використовував її для описання розподілу прибутку.[8] Цю ідею як правило описують в більш простій формі як принцип Парето або "правило 80—20" яке стверджує, що 20% населення контролюють 80% всіх багатств.[9] Однак, правило 80-20 відповідає частковому значенню α, і на справді, дані Парето про податки на прибуток в Британії в його роботі Cours d'économie politique вказують, що близько 30% населення мали близько 70% прибутку. Графік функції густини імовірності на початку цієї статті показу, що "імовірність" або частка населення, яка володіє невеликою кількістю багатства на людину, є досить великою, і зменшується зі зростанням кількості багатства. (Слід зауважити, що розподіл Парето не є реалістичним для випадку із невеликою величиною багатства. Насправді, чисті активи можуть бути навіть від'ємними.) Цей розподіл не обмежується використанням для описання багатства або прибутку населення, а і використовується для багатьох ситуацій, в яких знаходиться рівновага у розподіленні від "малого" до "великого". Наступні прикладі іноді розглядають як такі, що приблизно мають розподіл Парето:
Розмір населених пунктів (небагато міст, багато селищ/сіл)[10]
Розподіл розмірів файлів в Інтернет-трафіку в якому використовується протокол TCP (багато менших файлів, рідше великі)[10]
Величина значних втрат унаслідок катастроф для певного роду бізнесу, генеральні зобов'язання, комерційні авто, і компенсація робітникам.[14][15]
В Гідрології розподіл Парето застосовується для моделювання надзвичайних подій таких як щорічні максимальні опади на добу і паводок рік.[16] Зображення із синім фоном показує приклад підбору розподілу Парето для впорядкованого показнику щорічного максимуму опадів на добу показує також 90% довірчий інтервал оснований на біноміальному розподілі. Дані випадіння опадів показані за допомогою точкових позицій, що зрештою показує процес кумулятивний частотний аналіз.
Зв'язок із іншими розподілами
Зв'язок із експоненційним розподілом
Розподіл Парето пов'язаний із експоненційним розподілом наступним чином. Якщо випадкова величина X має розподіл Парето із мінімумом xm і індексом α, тоді
є експоненційно розподіленою величиною із параметром α. Аналогічно, якщо Y експоненційно розподілена випадкова величина із параметром α, тоді
має розподіл Парето із мінімумом xm та індексом α.
Це можна використовувати у стандартній процедурі заміни змінної:
Крайній вираз задає кумулятивну функцію розподілу для експоненційного розподілу із параметром α.
Зв'язок із узагальненим розподілом Парето
Розподіл Парето є особливим випадком узагальненого розподілу Парето, який є сімейством розподілів подібної форми, але містить додатковий параметр, що дозволяє обмежити розподіл знизу (в довільній точці), або бути обмеженим зверху і знизу (де обидві межі є змінними), і містить розподіл Ломакса як особливий випадок. До цього сімейства відносяться також обидва зміщений і не зміщений експоненційні розподіли.
Розподіл Парето із масштабом і формою еквівалентний узагальненому розподілу Парето із зсувом , масштабом і формою . І навпаки, можна отримати розподіл Парето із узагальненого розподілу Парето прийнявши, що і .
Зв'язок із законом Ципфа
Розподіл Парето є неперервним розподілом ймовірностей.Закон Ципфа, який іноді називають дзета-розподілом, це дискретний розподіл, який розділяє величини на просте ранжування. Обидва є простим степеневим законом із від'ємним показником, масштабовані так, що їхня кумулятивна функція розподілу дорівнює 1. Розподіл Ципфа можна отримати із розподілу Парето якщо значення (прибутки) ранговані на класів, так що кількість людей в кожному класі визначається відповідно до відношення 1/ранг. Розподіл нормалізують шляхом визначення такого , що де є узагальненим гармонічним числом. Це дозволяє отримати функцію густини імовірностей для розподілу Ципфа із розподілу Парето.
де і є цілим числом, що задає ранг від 1 до N де N є найвищим доходом. Таким чином довільно обрана особа (або слово, посилання на вебсайт, або місто) із популяції (або мови, інтернету, чи країни) має ймовірність ранжування .
Зв'язок із "Принципом Парето"
"Правило 80—20", відповідно до якого 20% всіх людей отримують 80% всього прибутку, і 20% з найбільш забезпечених 20% отримують 80% із тих 80%, і так далі, точно дотримується якщо індекс Парето становить α = log4(5) = log(5)/log(4), приблизно 1.161. Цей результат можна отримати із формули для розподілу Лоренца наведеної нижче. Крім того, було показано що наступні твердження[17] є математично еквівалентними:
Прибуток розподіляється відповідно до розподілу Парето з індексом α > 1.
Існує деяке число 0 ≤ p ≤ 1/2 таке що 100p % з усіх людей отримують 100(1 − p)% всього прибутку, і аналогічно для кожного дійсного числа (не обов'язково цілого) n > 0, 100pn % з усіх людей отримують 100(1 − p)n процентів всього доходу. α і p пов'язані між собою наступним чином
Це відноситься не тільки до прибутку, а і до багатства, або будь-чого що може моделювати цей розподіл.
Це включає також розподіли Парето що мають 0 < α ≤ 1, які, як було вказано вище, мають нескінченне математичне сподівання і таким чином не можуть достовірно моделювати розподіл прибутку.
Розподіл Лоренца і коефіцієнт Джині
Розподіл Лоренца часто використовують для характеристики розподілу доходів і багатства. Для будь-якого розподілу, розподіл Лоренца L(F) можна записати через функцію щільності f або функцію розподілу F як
де x(F) є оберненою для функції розподілу CDF. Для розподілу Парето,
а крива Лоренца розраховується як
Для знаменник буде нескінченним, що приводить до L=0. Приклади кривої Лоренца для декількох розподілів Парето показані на малюнку праворуч.
Відповідно до Оксфам (2016) найбагатші 62 людини мають стільки ж статку як найбідніша половина світової популяції.[18] Ми можемо розрахувати індекс Парето, який відповідатиме цій ситуації. Прийнявши, що ε дорівнює маємо:
або
В результаті α дорівнює близько 1.15, і близько 9% з усіх статків належать кожній з цих груп. Але насправді найбідніші 69% із дорослих людей всього світу володіють лише близько 3% статків.[19]
Коефіцієнт Джині є мірою відхилення кривої Лоренца від рівнорозподіленої прямої, що є прямою яка сполучає точки [0, 0] і [1, 1], яка на графіку праворуч показана чорним кольором (α = ∞). Конкретно, коефіцієнт Джині є подвоєною площею між кривою Лоренца і рівнорозподіленою прямою. Коефіцієнт Джині для розподілу Парето розраховується (для ) як
Таким чином, логарифмічна функція правдоподібності дорівнює
Можна побачити, що монотонно зростає із зростанням xm, таким чином, чим більшим є значення xm, тим більшим буде значення функції правдоподібності. Таким чином, оскільки x ≥ xm, ми можемо зробити висновок, що
Для того, щоб знайти статистичну оцінку для α, ми розраховуємо відповідну часткову похідну і знаходимо де вона дорівнює нулю:
Малік (1970)[21] приводить результат із точним спільним розподілом величин . Зокрема, і є незалежними а має розподіл Парето із параметром масштабу xm і параметром форми nα, тоді як має Обернений гамма-розподіл із параметрами форми і масштабу n − 1 та nα, відповідно.
Графічне представлення
Характерна крива розподілу із 'довгим хвостом' при зображенні на лінійній шкалі, приховує в собі внутрішню простоту функції при зображенні її у логарифмічній системі координат, де вона приймає форму прямої лінії із від'ємним градієнтом: Із формули для функції густини імовірностей випливає, що для x ≥ xm,
Оскільки α є додатнім, градієнт −(α + 1) є від'ємним.
Обмежений (або обрізаний) розподіл Парето має три параметри: α, L і H. Як і в стандартному розподілі Парето параметр α визначає форму. L означає мінімальне значення, а H позначає максимальне значення.
syntraf1.c [Архівовано 10 лютого 2019 у Wayback Machine.] - програма на мові програмування C для генерування штучного трафіку пакетів, із обмеженим розміром пакетів і часом між пакетами відповідно до розподілу Парето.
Примітки
↑ абвгBarry C. Arnold (1983). Pareto Distributions. International Co-operative Publishing House. ISBN978-0-89974-012-6.
↑ абJohnson NL, Kotz S, Balakrishnan N (1994) Continuous univariate distributions Vol 1. Wiley Series in Probability and Statistics.
↑ абвгJohnson, Kotz, and Balakrishnan (1994), (20.4).
↑ абFeller, W. (1971). An Introduction to Probability Theory and its Applications. Т. II (вид. 2nd). New York: Wiley. с. 50. "The densities (4.3) are sometimes called after the economist Pareto. It was thought (rather naïvely from a modern statistical standpoint) that income distributions should have a tail with a density ~ Ax−α as x → ∞."
↑Pareto, Vilfredo, Cours d'Économie Politique: Nouvelle édition par G.-H. Bousquet et G. Busino, Librairie Droz, Geneva, 1964, pp. 299–345.
↑For a two-quantile population, where approximately 18% of the population owns 82% of the wealth, the Theil index takes the value 1.
↑ абвгдReed, William J. та ін. (2004). The Double Pareto-Lognormal Distribution – A New Parametric Model for Size Distributions. Communications in Statistics – Theory and Methods. 33 (8): 1733—53. CiteSeerX10.1.1.70.4555. doi:10.1081/sta-120037438.
↑Schroeder, Bianca; Damouras, Sotirios; Gill, Phillipa (24 лютого 2010). Understanding latent sector error and how to protect against them(PDF). 8th Usenix Conference on File and Storage Technologies (FAST 2010). Архів оригіналу(PDF) за 11 січня 2011. Процитовано 10 вересня 2010. We experimented with 5 different distributions (Geometric,Weibull, Rayleigh, Pareto, and Lognormal), that are commonly used in the context of system reliability, and evaluated their fit through the total squared differences between the actual and hypothesized frequencies (χ2 statistic). We found consistently across all models that the geometric distribution is a poor fit, while the Pareto distribution provides the best fit.
↑Архівована копія. Архів оригіналу за 17 січня 2012. Процитовано 6 березня 2019.{{cite web}}: Обслуговування CS1: Сторінки з текстом «archived copy» як значення параметру title (посилання)