Напрямкова статистика

На́прямкова стати́стика (також кругова́ стати́стика та сфери́чна стати́стика, англ. directional statistics, circular statistics, spherical statistics) — піддисципліна статистики, яка займається напрямками (одиничними векторами в евклідовому просторі, Rn), осями (прямими, що проходять крізь початок координат у Rn) або повертаннями в Rn. Загалом, напрямкова статистика має справу зі спостереженнями на компактних ріманових многовидах, включно з многовидом Штіфеля[en].

Загальну форму білка можливо параметрувати як послідовність точок на одиничній сфері. Показано два види сферичної гістограми таких точок для великої колекції білкових структур. Статистична обробка таких даних належить до сфери напрямкової статистики.[1]

Той факт, що 0 градусів і 360 градусів — ідентичні кути, тож, наприклад, 180 градусів не є осмисленим середнім значенням 2 градусів і 358 градусів, є однією з ілюстрацій того, що для аналізу деяких типів даних (у цьому випадку кутових даних) потрібні спеціальні статистичні методи. До інших прикладів даних, які можна розглядати як напрямкові, належать статистичні дані, що містять періоди часу (наприклад, час доби, тиждень, місяць, рік тощо), напрямки за компасом, двогранні кути в молекулах, орієнтації, повертання тощо.

Кругові розподіли

Будь-яку функцію густини ймовірності (ФГЙ) на прямій можливо «намотати[en]»[2][3][4][5][6] (англ. wrap) на коло одиничного радіуса.[7] Тобто ФГЙ намотаної змінної

це

Цю концепцію можливо розширити на багатовимірний контекст шляхом розширення простої суми до низки сум, які охоплюють усі виміри в просторі ознак:

де  — -й базисний вектор евклідового простору.

В наступних розділах показано декі доречні кругові розподіли.

Круговий розподіл фон Мізеса

Розподіл фон Мізеса (англ. von Mises distribution) — це круговий розподіл, який, як і будь-який інший круговий розподіл, можна розглядати як намотування певного розподілу ймовірності на прямій на коло. Розподіл імовірності на прямій, що лежить в основі розподілу фон Мізеса, математично непіддатливий; проте для статистичних цілей немає потреби мати справу з лінійним розподілом в основі. Корисність розподілу фон Мізеса подвійна: він математично найпіддатливіший серед усіх кругових розподілів, що уможливлює простіший статистичний аналіз, і він є близьким наближенням до намотаного нормального розподілу[en],[3][4][5] який, як і нормальний розподіл на прямій, важливий, оскільки це граничний випадок для суми великої кількості малих кутових відхилень. Насправді розподіл фон Мізеса часто називають «круговим нормальним» (англ. "circular normal") розподілом через його легкість у використанні та тісний зв'язок із круговим нормальним розподілом.[8]

ФГЙ розподілу фон Мізеса:

де  — видозмінена функція Бесселя порядку 0.

Круговий рівномірний розподіл

ФГЙ кругового рівномірного розподілу (англ. circular uniform distribution) задають як

Її також можливо розглядати як випадок розподілу фон Мізеса, наведеного вище.

Намотаний нормальний розподіл

ФГЙ намотаного нормального розподілу:

де μ та σ — математичне сподівання та стандартне відхилення ненамотаного розподілу відповідно, а  — тета-функція Якобі

де , а

Намотаний розподіл Коші

ФГЙ намотаного розподілу Коші[9][3][4][5] (англ. wrapped Cauchy distribution, WC) така:

де  — коефіцієнт масштабу, а  — позиція піку.

Намотаний розподіл Леві

ФГЙ намотаного розподілу Леві[4] (англ. wrapped Lévy distribution, WL):

де значення доданка береться нульовим, коли ,  — коефіцієнт масштабу, а  — параметр розташування.

Проєктований нормальний розподіл

Проєктований нормальний розподіл (англ. projected normal distribution) — це круговий розподіл, що подає напрямок випадкової величини з багатовимірним нормальним розподілом, отримуваний шляхом радіальної проєкції цієї змінної на одиничну (n-1)-сферу. Через це, на відміну від інших широко використовуваних кругових розподілів, він ані симетричний, ані одномодовий.

Розподіли на многовидах вищої вимірності

Три набори точок, вибрані з різних розподілів Кента на сфері.

Також існують розподіли на двовимірній сфері (як-от розподіл Кента[en][10]), N-вимірній сфері (розподіл фон Мізеса — Фішера[en][11]) й на торі (двовимірний розподіл фон Мізеса[en][12]).

Матричний розподіл фон Мізеса — Фішера[en][13] — розподіл на многовиді Штіфеля[en], який можливо використовувати для побудови ймовірнісних розподілів за матрицями повороту.[14]

Розподіл Бінгема[en] — це розподіл над осями в N вимірах або, що еквівалентно, над точками на (N − 1)-вимірній сфері з ототожненими антиподами.[15] Наприклад, якщо N = 2, осі — неорієнтовані прямі, що проходять крізь початок координат на площині. У цьому випадку кожна вісь перетинає одиничне коло на площині (яке є одновимірною сферою) у двох точках, що є антиподами одна одної. Для N = 4 розподіл Бінгема є розподілом у просторі одиничних кватерніонів (версо́рів[en]). Оскільки версор відповідає матриці повороту, розподіл Бінгема для N = 4 можливо використовувати для побудови розподілу ймовірності в просторі обертань, як і матричний розподіл фон Мізеса — Фішера.

Ці розподіли, наприклад, використовують у геології,[16] кристалографії[17] та біоінформатиці.[1][18][19]

Моменти

Необроблені векторні (або тригонометричні) моменти кругового розподілу визначають як

де це будь-який інтервал довжини , це ФГЙ кругового розподілу, а . Оскільки інтеграл одиничний, а інтервал інтегрування скінченний, з цього випливає, що моменти будь-якого кругового розподілу завжди скінченні й добре визначені.

Моменти вибірки визначають аналогічно:

Результуючий вектор сукупності, довжину та середній кут визначають за аналогією з відповідними параметрами вибірки.

Крім того, довжини старших моментів визначають як

а кутові частини вищих моментів це просто . Довжини всіх моментів лежатимуть між 0 та 1.

Міри розташування та розсіяння

Як для сукупності, так і для вибраної з цієї сукупності вибірки, можна визначити різні показники центральної тенденції та статистичної дисперсії.[8]

Центральна тенденція

Докладніше: Кругове середнє[en]

Найпоширенішою мірою розташування є кругове середнє (англ. circular mean). Кругове середнє сукупності — це просто перший момент розподілу, тоді як середнє вибірки — це перший момент вибірки. Вибіркове середнє слугуватиме незміщеною оцінкою середнього сукупності.

Коли дані зосереджені, медіану та моду можна визначати за аналогією з лінійним випадком, але для розсіяніших або багатомодових даних ці поняття не несуть користі.

Дисперсія

Найпоширенішими мірами кругового розсіяння є:

  • Кругова дисперсія (англ. circular variance). Для вибірки кругову дисперсію визначають як

а для генеральної сукупності як

Обидві матимуть значення між 0 та 1.
  • Кругове стандартне відхилення (англ. circular standard deviation).

зі значеннями від 0 до нескінченності. Це визначення стандартного відхилення (замість квадратного кореня з дисперсії) корисне, оскільки для намотаного нормального розподілу воно є оцінкою стандартного відхилення нормального розподілу в основі. Таким чином, це дозволить стандартизувати круговий розподіл, як у випадку на прямій, для малих значень стандартного відхилення. Це також стосується розподілу фон Мізеса, який дуже наближений до намотаного нормального розподілу. Зверніть увагу, що для малого буде .
  • Кругове розсіяння (англ. circular dispersion).

зі значеннями від 0 до нескінченності. Ця міра розсіяння корисна для статистичного аналізу дисперсії.

Розподіл середнього

За набору N вимірювань середнє значення z визначають як

що можна виразити як

де

або, іншим чином, як:

де

Розподіл середнього кута () для кругової ФГЙ P(θ) буде задано як

де знаходиться на будь-якому інтервалі довжини і на інтеграл поширюється обмеження, що та сталі, або, іншим чином, що та сталі.

Розрахунок розподілу середнього для більшості кругових розподілів аналітично неможливий, і для здійснення дисперсійного аналізу потрібні числові або математичні наближення.[20]

До цього розподілу вибіркових середніх можна застосовувати центральну граничну теорему. (основна стаття: Центральна гранична теорема для напрямкової статистики[en]). Можливо показати,[20] що розподіл при границі розміру великої вибірки наближається до двовимірного нормального розподілу.

Перевірка допасованості та значущості

Для циклічних даних — (наприклад, чи вони рівномірно розподілені) :

Див. також

Примітки

  1. а б Hamelryck, Thomas; Kent, John T.; Krogh, Anders (2006). Hamelryck, T., Kent, J., Krogh, A. (2006) Sampling realistic protein conformations using local structural bias. PLoS Comput. Biol., 2(9): e131. PLOS Computational Biology (англ.). 2 (9): e131. Bibcode:2006PLSCB...2..131H. doi:10.1371/journal.pcbi.0020131. PMC 1570370. PMID 17002495.
  2. а б Бабак та ін., 2019, с. 80.
  3. а б в г Куц, Ю.В.; Шенгур, С.В. (2010). Програмний комплекс для моделювання та статистичного опрацювання результатів кутових та фазових спостережень (PDF). Інформаційні системи, обчислювана й електронна техніка, системи зв'язку та приладобудування. Вісний Інженерної академії України (укр.). Київ (3-4). Архів (PDF) оригіналу за 21 березня 2022.
  4. а б в г д Куц, Ю.В.; Шенгур, С.В. (2011). Знаходження довірчого інтервалу в задачах кутометрії за апроксимацією емпіричних даних розподілом Джонсона. Відбір і обробка інформації (укр.). Київ: ФМІ. 35 (111). Архів (PDF) оригіналу за 23 березня 2022.
  5. а б в г Куц, Ю.В.; Шенгур, С.В. (2011). Віртуальний прилад для генерування вибірок випадкових кутів. Електроніка та системи управління (укр.). Київ: НАУ. 1 (27). Архів (PDF) оригіналу за 23 березня 2022.
  6. а б Куц, Ю.В.; Лисенко, Ю.Ю.; Левченко, О.Е.; Редька, М.О. (2020). Вираження невизначеності вимірювань фазового зсуву сигналів. Метрологія та вимірювальна техніка (укр.). Харків: ННЦ «Інститут метрології». с. 148. Архів оригіналу за 12 квітня 2022.
  7. Bahlmann, C., (2006), Directional features in online handwriting recognition, Pattern Recognition (англ.), 39
  8. а б Fisher, 1993.
  9. Бабак та ін., 2019, с. 81.
  10. Kent, J (1982) The Fisher–Bingham distribution on the sphere[недоступне посилання]. (англ.) J Royal Stat Soc, 44, 71–80.
  11. Fisher, RA (1953) Dispersion on a sphere. (англ.) Proc. Roy. Soc. London Ser. A., 217, 295—305
  12. Mardia, KM. Taylor; CC; Subramaniam, GK. (2007). Protein Bioinformatics and Mixtures of Bivariate von Mises Distributions for Angular Data. Biometrics (англ.). 63 (2): 505—512. doi:10.1111/j.1541-0420.2006.00682.x. PMID 17688502.
  13. Pal, Subhadip; Sengupta, Subhajit; Mitra, Riten; Banerjee, Arunava (September 2020). Conjugate Priors and Posterior Inference for the Matrix Langevin Distribution on the Stiefel Manifold. Bayesian Analysis (англ.). 15 (3): 871—908. doi:10.1214/19-BA1176. ISSN 1936-0975.
  14. Downs (1972). Orientational statistics. Biometrika (англ.). 59 (3): 665—676. doi:10.1093/biomet/59.3.665.
  15. Bingham, C. (1974). An Antipodally Symmetric Distribution on the Sphere. Ann. Stat. (англ.). 2 (6): 1201—1225. doi:10.1214/aos/1176342874.
  16. Peel, D.; Whiten, WJ.; McLachlan, GJ. (2001). Fitting mixtures of Kent distributions to aid in joint set identification (PDF). J. Am. Stat. Assoc. (англ.). 96 (453): 56—63. doi:10.1198/016214501750332974.
  17. Krieger Lassen, N. C.; Juul Jensen, D.; Conradsen, K. (1994). On the statistical analysis of orientation data. Acta Crystallogr (англ.). A50 (6): 741—748. doi:10.1107/S010876739400437X.
  18. Kent, J.T., Hamelryck, T. (2005). Using the Fisher–Bingham distribution in stochastic models for protein structure [Архівовано 2024-01-20 у Wayback Machine.]. In S. Barber, P.D. Baxter, K.V.Mardia, & R.E. Walls (Eds.), Quantitative Biology, Shape Analysis, and Wavelets (англ.), pp. 57–60. Leeds, Leeds University Press
  19. Boomsma, Wouter; Mardia, Kanti V.; Taylor, Charles C.; Ferkinghoff-Borg, Jesper; Krogh, Anders; Hamelryck, Thomas (2008). A generative, probabilistic model of local protein structure. Proceedings of the National Academy of Sciences (англ.). 105 (26): 8932—8937. Bibcode:2008PNAS..105.8932B. doi:10.1073/pnas.0801715105. PMC 2440424. PMID 18579771.
  20. а б Jammalamadaka та Sengupta, 2001.

Книги з напрямкової статистики