Робастність у статистиці

Вступ

Якщо в параметричних постановках на дані накладаються занадто жорсткі вимоги — їх функції розподілу повинні належати визначеному параметричному сімейству, то в непараметричних, навпаки, зайво слабкі — потрібно лише, щоб функції розподілу були неперервними. При цьому ігнорується апріорна інформація про те, який є «приблизний вигляд» розподілу. Апріорі можна чекати, що обчислення цього «приблизного вигляду» поліпшить показники якості статистичних процедур. Розвитком цієї ідеї є теорія стійкості (робастності) статистичних процедур, у якій передбачається, що розподіл вихідних даних мало відрізняється від деякого параметричного сімейства. З 1960-х років цю теорію розробляли П.Хубер, Ф.Хампель та інші. З монографій російською мовою, що трактують про робастності і стійкість статистичних процедур, найранішою і найзагальнішою була книга, що випливає — монографія. Окремими випадками реалізації ідеї робастності (стійкості) статистичних процедур є розглянуті нижче статистика об'єктів нечислової природи та інтервальна статистика.

Існує велика розмаїтість моделей робастності залежно від того, які саме відхилення від заданого параметричного сімейства допускаються. Найпопулярнішою виявилася модель викидів, у якій вихідна вибірка «засмічується» малим числом «викидів», що мають принципово інший розподіл. Однак ця модель представляється «тупиковою», оскільки в більшості випадків великі викиди або неможливі через обмеженість шкали приладу, або від них можна позбутися, застосовуючи лише статистики, побудовані по центральній частині варіаційного ряду. Крім того, у подібних моделях звичайно вважається відомою частота засмічення, що разом зі сказаним вище робить їх малопридатними для практичного використання. Перспективнішою представляється модель Ю. Н. Благовіщенського, у якій відстань між розподілом кожного елемента вибірки і базовим розподілом не перевершує заданої малої величини.

Робастність у статистиці надає підходи, спрямовані на зниження впливу викидів і інших відхилень у досліджуваній величині щодо моделей класичних методів статистики. На практиці наявність у вибірках навіть невеликого числа різких викидів може призвести до того, що результати можуть перестати нести в собі який-небудь зміст. Для уникннення цього необхідно якимось чином знизити вплив «поганих» спостережень, або зовсім вилучити їх. Однак виникає питання: «Як відрізнити „погане“ спостереження від „доброго“?». Навіть найпростіший з підходів — суб'єктивний (заснований на внутрішніх відчуттях статистика) — може принести значну користь, однак для відбраковування все-таки краще застосовувати методи, що мають строге математичне обґрунтування, а не тільки інтуїтивні припущення дослідника. Цей процес являє собою дуже нетривіальну задачу для статистика і визначає собою один з напрямків статистичної науки.

Поняття робастності

Під робастністю в статистиці розуміють нечутливість до різних відхилень і неоднорідностям у вибірці, зв'язаним з тими чи тими, у загальному випадку невідомими, причинами. Це можуть бути помилки детектора, що реєструє спостереження, чиїсь сумлінні чи не дуже спроби «підігнати» вибірку до того, як вона потрапить до статистики, помилки оформлення, неочікувані помилки та багато чого іншого. Наприклад, найбільш робастною оцінкою параметра зрушення закону розподілу є медіана, що на інтуїтивному рівні цілком очевидно (для строгого доказу варто скористатися тим, що медіана є усіченою М-оцінкою). Крім безпосередньо «бракованих» спостережень також може бути певна кількість спостережень, що мають інший розподіл. Через умовність законів розподілів, а це не більш, ніж моделі опису, сама по собі вибірка може містити деякі розбіжності з ідеалом.

Проте, параметричний підхід настільки вжився, довівши свою простоту і доцільність, що безглуздо від нього відмовлятися. Тому і виникла необхідність пристосувати старі моделі до нових завдань.

Варто окремо підкреслити і не забувати, що відбраковані спостереження потребують окремої, більш пильної, уваги. Спостереження, що здаються «поганими» для однієї гіпотези, можуть цілком відповідати інший. Нарешті, аж ніяк не завжди спостереження, що різко виділяються, є «браком». Одне таке спостереження для генної інженерії, приміром, варте мільйонів інших, подібних один до одного.

Основні підходи

Для того, щоб обмежити вплив неоднорідностей, або ж зовсім його вилучити, є безліч різних підходів. Серед них виділяються два основних напрями:

  • Згрупувати дані, не відбраковуючи окремі спостереження, у такий спосіб значно знизивши можливість псування вибірки окремими випадами. Після чого з достатнім ступенем упевненості користатися класичними методами статистики.
  • Відслідковувати викиди безпосередньо в процесі аналізу. Наприклад, для визначення параметрів закону розподілу використовувати ітераційну процедуру з усіченими чи th- зниженими M-оцінками.

Групування даних як метод робастної статистики

За допомогою групування вибірки можна різко знизити вплив окремих спостережень, не відкидаючи їх. Розбивка на інтервали не представляє особливих труднощів і дає дуже відчутний результат. Є три найпоширеніших способи розбивки:

  • Розбивка на інтервали рівної довжини. Найбільш простий і тому розповсюджений спосіб.
  • Розбивка на інтервали рівної імовірності, також називане рівночастотним групуванням, що відбиває практичну реалізацію цього методу. У результаті такого групування вибірки здійснюється максимізація величини інформаційної ентропії , де і досягається найбільша асимптотична потужність критерію згоди , або критерію відношення правдоподібності.
  • Розбивка на асимптотично оптимальні інтервали. При такій розбивці мінімізуються втрати інформації внаслідок групування, тобто максимізується фішеровська інформація , де  — оцінюваний параметр закону. Для багатьох законів розподілу вдалося одержати інваріантні щодо параметрів межі інтервалів, і були складені відповідні таблиці. Така розбивка дає змогу максимізувати потужність критерію.

Підхід, заснований на функції впливу

Уведення

У даному розділі розглядаються аспекти, що стосуються оцінювання параметрів закону розподілу по «засміченій» вибірці з використанням підходу, запропонованого Хампелем. Для того, щоб вивчити вплив окремо узятого спостереження на оцінку (розглянуту статистику) того чи іншого параметра закону розподілу Хампелем уводиться так називана функція впливу (influence function), що являє собою ні що інше, як похідну цієї статистики.

Основні поняття

Уведемо функціонал , як функцію від деякої вибірки з розподілу c параметром (воно ж ). залежить від . Значить є функцією від закону і від параметра . Нехай також задовольняє деяким умовам заможності і регулярності:

Визначимо похідну цього функціонала у точці з розподілом у такий спосіб:

де  — деяка функція, зміст якої проясниться на наступному кроці, а  — деякий закон розподілу, відмінний від .

Підставимо , що приписує одиничну масу події , замість , у результаті чого від інтеграла в правій частині виразу залишиться тільки , і перепишемо результат, що вийшов, у наступному вигляді:

Цю функцію і називають функцією впливу.

Щоб пояснити зміст уведеного поняття підставимо замість , замінивши межу. У результаті вираження перетвориться в , що відповідає ситуації, коли у вибірку, що складається з спостереження, що підкоряються розподілу , додають ще одне нове. У такий спосіб відслідковує реакцію використовуваного функціонала на внесене додавання, показуючи вплив від внеску окремого спостереження на оцінку по всій сукупності даних.

Для характеристики впливу окремих спостережень також уводять поняття чутливості до великої помилки  :

Якщо функція впливу обмежена, то відповідну оцінку називають B(бэ)-робастною.

М-оцінки

Найбільш ефективними і широко використовуваними оцінками параметрів законів розподілів є оцінки максимальної правдоподібності (ОМП), що визначаються однією з наступних умов:

де у випадку негрупованої вибірки , а у випадку групованої —

М-оцінки — є деяке узагальнення ОМП. Вони визначаються аналогічно одним зі співвідношень:

Якщо накласти умову регулярності в підстановці і продиференціювать його по у 0:


::

те не представляє великої праці одержати вираження функції впливу для M-оцінок:

Зазначений вираз дозволяє зробити висновок про те, що M-оцінки еквівалентні з точністю до ненульового множника-константи.

Нескладно перевірити, що для ОМП стандартного нормального закону розподілу функції впливу параметра зрушення і параметра масштабу виглядають відповідно:

Ці функції необмежені, а це значить, що ОМП не є робастной у термінах B-робастности.

Для того, щоб це виправити, M-оцінки штучно обмежують, а значить і обмежують її (див. вираження для M-оцінок), установлюючи верхній бар'єр на вплив різко виділяються (далеко віддалених від передбачуваних значень параметрів) спостережень. Робиться це введенням так званих усічених M-оцінок, обумовлених вираженням:

де , і  — оцінки параметрів зрушення і масштабу відповідно.

Серед усічених M-оцінок оптимальними з погляду B-робастности є усічені ОМП.

Процедура оцінювання параметрів

Щоб розв’язати рівняння необхідно скористатися яким-небудь чисельним методом. Для цього знадобиться вибрати початкові наближення. Нульовим параметром зрушення звичайно служить медіана, параметром масштабу — значення, кратне медіані відхилень від медіани.

Наприклад, якщо необхідно оцінити параметр зрушення, скажемо, нормального закону розподілу, можна скористатися методом Ньютона чисельного перебування коренів рівняння. У результаті вся процедура перебування параметра зводиться до ітеративного обчислення вираження:

,

де  — деяка оцінка параметра масштабу, що потрібна для того, щоб зрівняти розподілу з різним розмахом.

Див. також

Джерела

Read other articles:

この記事は検証可能な参考文献や出典が全く示されていないか、不十分です。出典を追加して記事の信頼性向上にご協力ください。(このテンプレートの使い方)出典検索?: コルク – ニュース · 書籍 · スカラー · CiNii · J-STAGE · NDL · dlib.jp · ジャパンサーチ · TWL(2017年4月) コルクを打ち抜いて作った瓶の栓 コルク(木栓、蘭&…

El biogás es un combustible que se genera en medios naturales o en dispositivos específicos, por las reacciones de biodegradación de la materia orgánica, mediante la acción de microorganismos y otros factores, en ausencia de oxígeno (esto es, en un ambiente anaeróbico).[1]​ Este gas se ha venido llamando gas de los pantanos. El biogás se obtiene de desperdicios orgánicos, puesto que en ellos se produce una biodegradación de residuos vegetales semejante a la descrita. La producci…

Cet article est une ébauche concernant une unité ou formation militaire française. Vous pouvez partager vos connaissances en l’améliorant (comment ?) selon les recommandations des projets correspondants. 78e régiment d'Infanterie Insigne régimentaire du 78e régiment d'infanterie Création 1854 Pays France Branche Armée de terre Type Régiment d'infanterie Rôle Infanterie Devise Sans peur sans tache Inscriptionssur l’emblème Valmy 1792Gênes 1800Wagram 1809Isly 1844Solfér…

Halaman ini berisi artikel tentang gulat dalam bentuk hiburan olahraga. Untuk gulat dalam bentuk pertandingan olahraga, lihat Gulat. Gulat pro beralih ke halaman ini. Untuk kegunaan lain, lihat Gulat pro (disambiguasi). Gulat profesionalSebuah pertandingan gulat profesional di Sikeston, Missouri pada Mei 1938, menampilkan dua pegulat bertanding dalam ring sementara wasit (pakaian putih, kanan) memperhatikan pertandinganSeni pendahuluKarnavalGulat tangkapCommedia dell'arteVaudevilleBalai musikSen…

2021 Indian television series by Venkat Prabhu Live TelecastPromotional posterGenreHorrorThrillerCreated byVenkat PrabhuWritten byVenkat PrabhuDirected byVenkat PrabhuStarring Kajal Aggarwal Vaibhav Anandhi Ashwin Kumar Lakshmikanthan Daniel Annie Pope Priyanka Nair Theme music composerPremgi AmarenComposerPremgi AmarenCountry of originIndiaOriginal languageTamilNo. of seasons1No. of episodes7ProductionProducerV RajalakshmiProduction locationIndiaRunning time29-41 minutesProduction companyBlack …

هنودمعلومات عامةنسبة التسمية الهند التعداد الكليالتعداد قرابة 1.21 مليار[1][2]تعداد الهند عام 2011ق. 1.32 مليار[3]تقديرات عام 2017ق. 30.8 مليون[4]مناطق الوجود المميزةبلد الأصل الهند البلد الهند  الهند نيبال 4,000,000[5] الولايات المتحدة 3,982,398[6] الإمارا…

Sound change law in some West Germanic languagesThis article includes a list of references, related reading, or external links, but its sources remain unclear because it lacks inline citations. Please help improve this article by introducing more precise citations. (July 2017) (Learn how and when to remove this message) The distribution of the primary Germanic dialect groups in Europe in around AD 1:   North Germanic   North Sea Germanic, or Ingvaeonic   Weser–Rhi…

Voce principale: Giro d'Italia 1983. Il vincitore dell'edizione, Giuseppe Saronni, nella cronometro finale Gorizia-Udine del 5 giugno 1983. Elenco dei partecipanti al Giro d'Italia 1983. Il Giro d'Italia 1983 fu la sessantaseiesima edizione della corsa. Alla competizione presero parte 18 squadre, ciascuna delle quali composta da nove corridori, per un totale di 162 ciclisti. La corsa partì il 17 maggio da Brescia e terminò il 10 giugno a Udine; in quest'ultima località portarono a termine la …

Lophostemon Lophostemon suaveolens Klasifikasi ilmiah Domain: Eukaryota Kerajaan: Plantae (tanpa takson): Tracheophyta (tanpa takson): Angiospermae (tanpa takson): Eudikotil (tanpa takson): Rosid Ordo: Myrtales Famili: Myrtaceae Subfamili: Amygdaloideae Tribus: Spiraeeae Genus: LophostemonSchott Spesies[1] Lophostemon confertus (R.Br.) Peter G.Wilson & J.T.Waterh. Lophostemon grandiflorus (Benth.) Peter G.Wilson & J.T.Waterh. Lophostemon lactifluus (F.Muell.) Peter G.Wilson &…

County in Indiana, United States County in IndianaFulton CountyCountyFulton County courthouse in RochesterLocation within the U.S. state of IndianaIndiana's location within the U.S.Coordinates: 41°02′N 86°16′W / 41.04°N 86.26°W / 41.04; -86.26Country United StatesState IndianaFounded1836Named forRobert FultonSeatRochesterLargest cityRochesterArea • Total371.26 sq mi (961.6 km2) • Land368.39 sq mi (954.1…

Astronomical observatory in Southern California For the instrumental track by Wellwater Conspiracy, see Declaration of Conformity. ObservatoryPalomar Mountain ObservatoryAlternative names675 PA OrganizationCalifornia Institute of Technology Observatory code 675 LocationSan Diego County, CaliforniaCoordinates33°21′23″N 116°51′54″W / 33.3564°N 116.865°W / 33.3564; -116.865Altitude1,712 m (5,617 ft) Established1928 Websitewww.as…

Human rights institution of the Australian Government Not to be confused with Australian Human Rights Institute. Equal Opportunity Commission redirects here. For the United States' Equal Employment Opportunity Commission, see Equal Employment Opportunity Commission. Australian Human Rights CommissionCommission overviewFormed1986 (1986)Preceding commissionHuman Rights and Equal Opportunity CommissionJurisdictionAustraliaHeadquartersSydneyEmployees126[1]Minister responsibleMark Dreyfu…

Pour les articles homonymes, voir Rêve (homonymie). Le Rêve de Dickens (Dickens' Dream) tableau inachevé de Robert William Buss - Musée Charles Dickens de Londres. Le rêve de l'eunuque par Jean-Jules-Antoine Lecomte du Nouÿ. Le rêve est une disposition de l'esprit généralement nocturne, survenant au cours du sommeil, et qui procure à l'individu éveillé des souvenirs nommés rêves. Au cours de l'histoire et des civilisations, le rêve a été un moyen de s'affranchir du temps et de l…

  لمعانٍ أخرى، طالع الحكومة السورية (توضيح). 33°30′9.00″N 36°16′10.62″E / 33.5025000°N 36.2696167°E / 33.5025000; 36.2696167 حكومة محمد أمين الحافظ الثانيةمعلومات عامةنظام الحكم مجلس الوزراء الحادي والسبعون لسوريةرئيس الجمهورية محمد أمين الحافظ (رئيس مجلس الرئاسة)رئيس الحكومة محمد…

兄貴 Big Brother ポスター監督 アラン・ドワン製作 ジェシー・L・ラスキーアドルフ・ズコール出演者 トム・ムーアエディス・ロバーツレイモンド・ハットンジョー・キングミッキー・ベネットチャールズ・ヘンダーソンポール・パンサー製作会社 フェイマス・プレイヤーズ=ラスキー(英語版)配給 パラマウント映画公開 1923年12月23日 (1923-12-23) 上映時間 70分製作国 …

Agriculture en France Orientation technique des communes en France en 2020. Statistiques Principales cultures blémaïssucreorge  % du PIB 3,5 % (2016)  % de la population active occupée 1,5 % (2018) Exportation 59,5 milliards d'euros (2015) Importation 50 milliards d'euros (2015) Superficie cultivée 292 800 km2  % d'agriculture biologique 8 % de la surface agricole, 10% des exploitations modifier Champ de blé aux corbeaux, Van Gogh, 1890 (peint à Auve…

Dalam nama yang mengikuti kebiasaan penamaan Slavia Timur ini, patronimiknya adalah Dmitriyevich dan nama keluarganya adalah Protasevich. Roman ProtasevichNama asalРоман Протасевич Раман ПратасевічLahirRoman Dmitryevich Protasevich5 Mei 1995 (umur 29)[1]Minsk,[butuh rujukan] BelarusPendidikanUniversitas Negeri BelarusPekerjaanWartawanaktivisfotograferTahun aktif2011–saat iniOrganisasiNextaGerakan politikFront PemudaPasanganSofia …

هذه المقالة بحاجة لصندوق معلومات. فضلًا ساعد في تحسين هذه المقالة بإضافة صندوق معلومات مخصص إليها. القنب الهندي في ليبيريا غير قانوني. تاريخ خلال الحرب الأهلية الليبيرية الأولى, جمع تشارلز تيلور الأموال لمقاتليه عن طريق بيع الحشيش من الأراضي الخاضعة لسيطرة الجبهة الوطنية ا…

Subway line in Tokyo, Japan This article needs additional citations for verification. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: Tokyo Metro Yūrakuchō Line – news · newspapers · books · scholar · JSTOR (May 2008) (Learn how and when to remove this message) Tokyo Metro Yurakucho LineA Yūrakuchō Line 17000 series trainOverviewOther name(s)YNative name東京メ…

英国議会議事堂(ビッグ・ベン) 1923年イギリス総選挙(1923ねんイギリスそうせんきょ、英語:United Kingdom general election of 1923)は、1923年12月に行われたイギリスの選挙で、イギリス議会(正式名称:グレートブリテン及び北アイルランド連合王国議会)の議員を選出するために行われたものである。 概要 ボールドウィン首相 選挙当時の首相:スタンリー・ボールドウィ…