Середнє квадратичне відхилення середнього арифметичного

Для величини, що має вибірку із незміщеною нормально розподіленою похибкою, вищенаведене зображення показує частку вимірювань, які потраплять в інтервали величиною в 0, 1, 2, і 3 стандартних відхилень по обидві сторони від фактичного значення.

Середнє квадратичне відхилення середнього арифметичного в математичній статистиці — величина, що характеризує стандартне відхилення вибіркового середнього, розраховане по вибірці розміром із генеральної сукупності. Термін уперше ввів Удні Юл 1897 року[en]. Значення середнього квадратичного відхилення середнього арифметичного залежить від дисперсії генеральної сукупності та обсягу вибірки .

Вибірковий розподіл вибіркового середнього утворюється шляхом повторювання експериментів і фіксування щоразу отриманого середнього. Таким чином отримують розподіл різних середніх, і цей розподіл має своє власне середнє та дисперсію. Математично дисперсія отриманого вибіркового розподілу дорівнює дисперсії сукупності, поділеній на обсяг вибірки. Це тому, що за збільшення обсягу вибірки вибіркове середнє скупчується ближче до середнього сукупності.

Отже, співвідношення між середнім квадратичним відхиленням середнього арифметичного і стандартним відхиленням буде таким, що для даного обсягу вибірки середнє квадратичне відхилення середнього арифметичного дорівнює стандартному відхиленню, поділеному на квадратний корінь від обсягу вибірки. Іншими словами, середнє квадратичне відхилення середнього арифметичного є мірою розсіяння вибіркових середніх довкола центру розподілу сукупності.

У регресійному аналізі, термін "середнє квадратичне відхилення середнього арифметичного" відноситься або до квадратного кореня із скороченого критерію хі-квадрат[en] або середнього квадратичного відхилення середнього арифметичного конкретного коефіцієнту регресії (як це використовується, наприклад, в довірчих інтервалах).

Середнє квадратичне відхилення середнього арифметичного іноді називають "стандартною помилкою" або "стандартною похибкою". Ці терміни є неоднозначними і не рекомендуються до використання як такі, що можуть призвести до плутанини.

Середнє квадратичне відхилення середнього арифметичного

Середнє квадратичне відхилення середнього арифметичного пов'язане зі стандартним відхиленням генеральної сукупності наступним чином

де  — величина стандартного відхилення генеральної сукупності,  — обсяг вибірки.

Оскільки дисперсія генеральної сукупності зазвичай невідома, то використовують відповідні статистичні оцінки:

де  — статистична оцінка стандартного відхилення випадкової величини на основі незміщеної оцінки її вибіркової дисперсії.

Вибірка

Оцінки середнього квадратичного відхилення середнього арифметичного і стандартного відхилення невеликих вибірок мають тенденцію до систематичного заниження в порівнянні з їх значеннями, отриманими з генеральної сукупності: середнє квадратичне відхилення середнього арифметичного є зміщеною оцінкою. За n = 2 недооцінка значення становить близько 25%, а для n = 6 заниження оцінки становить лише 5%. Гурланд і Тріпані (1971) запропонували поправку і рівняння для врахування цього ефекту.[1] Сокал і Рольф (1981) запропонували рівняння коефіцієнту поправки для малих вибірок із обсягом n < 20.[2]

Практичний результат: Аби зменшити невизначеність в оцінці середнього значення вдвічі необхідно збільшити кількість спостережень в чотири рази, або, щоб зменшити середнє квадратичне відхилення середнього арифметичного в десять разів, необхідно в 100 раз збільшити число результатів спостережень.

Доведення

Формулу можна отримати із розрахунку дисперсії для суми незалежних випадкових величин.[3]

  • Якщо — це незалежних спостережень із сукупності, що має середнє і стандартне відхилення , тоді дисперсія величини дорівнює
  • Дисперсія для (вибіркового середнього ) повинна бути
  • Стандартне відхилення величини повинно бути

Апроксимація Стьюдента за невідомого значення σ

Нехай X1, …, Xn — це незалежні випадкові величини з розподілу N(μσ2), тобто це вибірка розміру n з генеральної сукупності з нормальним розподілом з середнім значенням μ і дисперсією σ2.

Нехай

буде середнім вибірки і нехай

буде (виправлена згідно з Бесселем) дисперсія вибірки. Тоді випадкова величина

має стандартний нормальний розподіл (тобто, з середнім 0 і дисперсією 1), а випадкова величина

(де ми підставили S замість σ) має t-розподіл Стьюдента з n − 1 ступенями свободи.

Для невеликих вибірок оцінка стандартного відхилення сукупності як правило буде заниженою, і середнє значно відрізнятиметься від середнього сукупності, а t-розподіл Стьюдента для оцінки імовірностей цих подій матиме більш масивні бокові рукави в порівнянні із розподілом Гауса. Для оцінки середнього квадратичного відхилення середнього арифметичного для t-розподілу Стьюдента достатнім буде використати вибіркове стандартне відхилення "s" замість σ, і це значення можна використати для розрахунку довірчих інтервалів.

Примітка: t-розподіл Стьюдента наближується до Гаусового розподілу зі збільшенням обсягу вибірки. Останній є значно простіший, і його можна використовувати для великих вибірок.

Застосування

Прикладом використання середнього квадратичного відхилення середнього арифметичного є побудова довірчих інтервалів для невідомого математичного сподівання генеральної сукупності. Якщо вибірка є нормально розподіленою, тоді вибіркове середнє, середнє квадратичне відхилення середнього арифметичного і квантилі нормального розподілу можливо застосувати для розрахунку довірчих інтервалів математичного сподівання. Для визначення верхньої і нижньої межі 95%-го довірчого інтервалу можна використати наступний вираз, де дорівнює вибірковому середньому, а 1,96 є 0.95 % квантилем нормального розподілу:

Верхня 95% межа і
Нижня 95% межа

Зокрема, стандартна похибка для вибіркової статистики (такої як вибіркове середнє) є фактичним або оціненим стандартним відхиленням похибки, що визначається процесом, яким вона була породжена. Іншими словами, це є фактичне чи оцінене стандартне відхилення вибіркового розподілу вибіркової статистики.

Стандартна похибка є простою мірою невизначення величини (мірою невпевненості) і часто використовується з наступних міркувань:

Середнє квадратичне відхилення середнього в порівнянні із стандартним відхиленням

В статистиці і технічній літературі дані експериментів часто оцінюють за допомогою середнього і стандартного відхилення даних вибірки або середнього і середнього квадратичного відхилення середнього. Це, як правило, приводить до хибного уявлення про те, що ці оцінки взаємозамінні. Однак середнє і стандартне відхилення відносяться до описової статистики, в той час як стандартна похибка середнього визначає опис випадкового процесу відбору вибірки. Стандартне відхилення вибіркових даних дозволяє описати варіацію в вимірюваннях, в той час як середнє квадратичне відхилення середнього - це ймовірнісне твердження про те, яким чином розмір вибірки може забезпечити кращу оцінку середнього значення сукупності, що відповідає центральній граничній теоремі, і надати його границі.[4]

Простими словами, середнє квадратичне відхилення вибіркового середнього є оцінкою того ,як далеко вибіркове середнє швише за все буде знаходитися від середнього сукупності, в той час як стандартне відхилення для вибірки - це ступінь того, як окремі події в рамках вибірки відрізняються від вибіркового середнього. Якщо стандартне відхилення вибірки є скінченним, середнє квадратичне відхилення середнього для вибірки буде прямувати до нуля за збільшення обсягу вибірки, оскільки оцінка середнього сукупності буде покращуватися, а стандартне відхилення вибірки із збільшенням її обсягу буде краще оцінювати генеральне стандартне відхилення.

Корекція для скінченної сукупності

Щодо наведеної вище формули для середнього квадратичного відхилення середнього арифметичного припускають, що обсяг вибірки менший за обсяг генеральної сукупності настільки, що можна вважати що генеральна сукупність фактично є нескінченною. Це типовий випадок навіть у випадку скінченних сукупностей, оскільки в більшості людей здебільшого цікавить управління процесом, який створив цю існуючу скінченну сукупність; відповідно до В. Едвардс Демінгу це називається аналітичним дослідженням[en]. Якщо метою є управління існуючою скінченною сукупністю, яка не змінюється із часом, тоді необхідно вводити поправку щодо розміру сукупності; це називається нумераційним дослідженням.

Коли частка вибірки є великою (приблизно 5 % або більше) за нумераційного дослідження для оцінки стандартного відхилення потрібно вводити корекцію, помноживши на "поправку для скінченної сукупності":[5] [6]

,

що для великих N буде мати вигляд:

аби врахувати додану точність, що буде отримана, якщо вибірка становитиме більший відсоток від генеральної сукупності. Суть ПСК полягає в тому, що похибка стає нульовою, коли обсяг вибірки n є рівним обсягу N генеральної сукупності.

Література

  • Hays, W. Statistics. Cengage Learning, 1994. (англ.)

Сеньо П. С. (2007). Теорія ймовірностей та математична статистика (вид. 2-ге, перероб. і доп.). Київ: Знання. с. 446.

Примітки

  1. Gurland, J; Tripathi RC (1971). A simple approximation for unbiased estimation of the standard deviation. American Statistician. American Statistical Association. 25 (4): 30—32. doi:10.2307/2682923. JSTOR 2682923.
  2. Sokal; Rohlf (1981). Biometry: Principles and Practice of Statistics in Biological Research (вид. 2nd). с. 53. ISBN 0-7167-1254-7.
  3. Hutchinson, T. P. Essentials of Statistical Methods, in 41 pages. Adelaide: Rumsby. ISBN 0-646-12621-0.
  4. Barde, M. (2012). What to use to express the variability of data: Standard deviation or standard error of mean?. Perspect Clin Res. 3 (3): 113—116. doi:10.4103/2229-3485.100662.{{cite journal}}: Обслуговування CS1: Сторінки із непозначеним DOI з безкоштовним доступом (посилання)
  5. Isserlis, L. (1918). On the value of a mean as calculated from a sample. Journal of the Royal Statistical Society. Blackwell Publishing. 81 (1): 75—81. doi:10.2307/2340569. JSTOR 2340569. (Equation 1)
  6. Bondy, Warren; Zlot, William (1976). The Standard Error of the Mean and the Difference Between Means for Finite Populations. The American Statistician. Taylor & Francis. 30: 96—97. JSTOR 2683803. (Equation 2)