Гіпергеометричний розподіл в теорії імовірності моделює кількість успішних вибірок без повернення зі скінченної сукупності.
витягнуті
не витягнуті
всього
з дефектом
k
D − k
D
без дефекта
n − k
N + k − n − D
N − D
всього
n
N − n
N
Типовий приклад представлений у попередній таблиці: дано сукупність N об'єктів, з яких D мають дефект. Гіпергеометричний розподіл описує ймовірність того, що у вибірці з n різних об'єктів, витягнутих із сукупності, рівно k об'єктів є бракованими.
Загалом, якщо випадкова величинаX відповідає гіпергеометричному розподілу з параметрами N, D та n, то ймовірність отримання рівно k успіхів визначається формулою:
Ця ймовірність додатна, коли k лежить на проміжку між max{ 0, D + n − N } та min{ n, D }.
Наведену формулу можна трактувати так: існує способів заповнити залишок вибірки (без повернення). Є способів вибрати k бракованих об'єктів та способів заповнити залишок вибірки об'єктами без дефектів.
У разі, коли розмір популяції є більшим, ніж розмір вибірки, гіпергеометричний розподіл добре апроксимується біноміальним розподілом з параметрами n (кількість випробувань) та p = D / N (ймовірність успіху в одному випробуванні).
Визначення
Нехай є скінченна сукупність, яка складається з елементів. Припустимо, що із них мають потрібну нам властивість. Випадковим чином із загальної сукупності вибирається група з елементів. Нехай — випадкова величина, що дорівнює кількості вибраних елементів, які мають потрібну властивість. Тоді функція ймовірностей має вигляд:
Класичним застосуванням гіпергеометричного розподілу є вибірка без повернення. Розглянемо урну з двома типами куль: чорними і білими. Визначимо витягнення білої кульки як успіх, а чорної як невдачу. Якщо N є числом всіх кульок в урні, а D - число білих кульок, то N − D число чорних кульок.
Тепер припустимо, що в урні знаходиться 5 білих і 45 чорних кульок. Перебуваючи біля урни, ви закриваєте очі й витягуєте 10 кульок. Яка ймовірність того, що витягнуто рівно 4 білі кульки?
Задача описується в наступній таблиці:
витягнуті
не витягнуті
завжди
білі кульки
4 (k)
1 = 5 − 4 (D − k)
5 (D)
чорні кульки
6 = 10 − 4 (n − k)
39 = 50 + 4 − 10 − 5 (N + k − n − D)
45 (N − D)
всього
10 (n)
40 (N − n)
50 (N)
Ймовірність того, що будуть витягнені рівно x білих кульок (= кількості успіхів), може бути обчисленою за формулою:
Звідси в нашому прикладі (x = 4), отримаємо:
Таким чином, ймовірність витягнути рівно 4 білі кульки досить мала (приблизно 0.004). Це означає , що при проведенні експеримента (витягненні 10 кульок з урни з 50 кульками без повернення) 1000 раз ми розраховуємо отримати вищезазначений результат 4 рази.
Що стосується ймовірності витягнути 5 білих кульок, то інтуїтивно зрозуміло, що вона буде менша, ніж імовірність витягнути 4 білі кульки. Давайте підрахуємо цю ймовірність.
витягнуті
не витягнуті
всього
білі кульки
5 (k)
0 = 5 − 5 (D − k)
5 (D)
чорні кульки
5 = 10 − 5 (n − k)
40 = 50 + 5 − 10 − 5 (N + k − n − D)
45 (N − D)
всього
10 (n)
40 (N − n)
50 (N)
Таким чином, ми отримуємо ймовірність:
Симетричність
Ця симетричність стає зрозумілою, коли перефарбувати білі кульки в чорні й навпаки. Таким чином, білі й чорні кульки просто міняються ролями.
Ця симетричність стає зрозумілою, коли замість виймання ви позначаєте кульки, які б вийняли. Обидва вирази дають ймовірність того, що рівно кульок чорні й позначені як вийняті.
Нехай випадкова величина має біноміальний розподіл з параметрами та ; вона моделює кількість успіхів в аналогічній задачі з поверненням. Коли та досить великі порівняно з , а також не є близьким до 0 чи 1 числом, тоді та мають подібні розподіли, тобто .
Якщо велике, та великі порівняно з , а не є близьким до 0 чи 1, то