Похибки та залишки

У статистиці та оптимізації по́хибки (англ. errors) та за́лишки (англ. residuals) є тісно пов'язаними мірами відхилення спостережуваного значення елементу вибірки від його «теоретичного значення», які легко сплутати. Похибка (або збу́рення) спостережуваного значення є відхиленням цього спостережуваного значення від (не спостережуваного) істинного значення досліджуваної величини (наприклад, середнього значення генеральної сукупності), а залишком спостережуваної змінної є різниця між цим спостережуваним значенням та оцінкою значення досліджуваної величини (наприклад, середнім значенням вибірки). Найважливішою ця відмінність є в регресійному аналізі, де вона приводить до поняття стьюдентизованих залишків[en].

Введення

Припустімо, що є ряд спостережень з одновимірного розподілу[en], і ми хочемо оцінити середнє значення цього розподілу (так звану модель зсуву). В цьому випадку похибки є відхиленнями спостережень від середнього значення сукупності, а залишки є відхиленнями спостережень від середнього значення вибірки.

Статистична похибка (або збурення) є величиною, на яку спостереження відрізняється від його математичного сподівання, коли останнє ґрунтується на всій сукупності, з якої було випадково вибрано об'єкт статистичного спостереження. Наприклад, якщо середній зріст в загальній сукупності 21-річних чоловіків є 1.75 метрів, і один випадково вибраний чоловік має зріст 1.80 метрів, то «похибка» є 0.05 метрів; якщо випадково вибраний чоловік має зріст 1.70 метрів, то «похибка» є -0.05 метрів. Математичне сподівання, будучи середнім арифметичним всієї сукупності, є зазвичай неспостережним, і отже статистичну похибку також неможливо спостерігати.

З іншого боку, залишком (або відхиленням допасованості) є спостережувана оцінка неспостережуваної статистичної похибки. Розгляньмо попередній приклад зі зростами чоловіків, і припустімо, що ми маємо випадкову вибірку з n людей. Гарною оцінкою середнього значення сукупності могло би слугувати вибіркове середнє. В такому разі ми маємо:

  • Відмінність зросту кожного чоловіка у вибірці від неспостережуваного середнього значення сукупності є статистичною похибкою, тоді як
  • Відмінність зросту кожного чоловіка у вибірці від спостережуваного середнього значення вибірки є залишком.

Зауважте, що сума залишків у випадковій вибірці обов'язково є нульовою, і тому залишки є обов'язково не незалежними. З іншого боку, статистичні похибки є незалежними, і їхня сума в межах випадкової вибірки майже напевно є ненульовою.

Можна стандартизувати статистичні похибки (особливо нормального розподілу) за z-оцінкою (або «стандартизованою оцінкою»), і стандартизувати залишки за t-статистикою[en], або, загальніше, стьюдентизованими залишками[en].

В одновимірних розподілах

Якщо ми розглядаємо нормально розподілену сукупність із середнім значенням μ та стандартним відхиленням σ, і вибираємо осіб незалежно, то ми маємо

і середнє значення вибірки

є випадковою змінною, розподіленою таким чином:

Тоді статистичні похибки є

а залишки є

Сума квадратів статистичних похибок, поділена на σ2, має розподіл хі-квадрат з n ступенями вільності:

Проте ця величина не є спостережною. З іншого боку, сума квадратів залишків є спостережною. Частка від ділення цієї суми на σ2 має розподіл хі-квадрат з лише n − 1 ступенями вільності:

Ця різниця між n та n − 1 ступенями вільності має наслідком поправку Бесселя для оцінки дисперсії вибірки із сукупності з невідомим середнім значенням та невідомою дисперсією, хоча якщо середнє значення є відомим, то поправка не потрібна.

Зауваження

Примітно, що може бути показано, наприклад, за допомогою теореми Басу[en], що сума квадратів залишків[en] та середнє значення вибірки є незалежними одне від одного. Цей факт, а також наведені вище нормальний та хі-квадратичний розподіли, формують основу обчислень із залученням дробу

який, як правило, називають t-статистикою[en].

Розподіли ймовірності чисельника та знаменника окремо залежать від значення неспостережуваного стандартного розподілу сукупності σ, але σ з'являється як в чисельнику, так і в знаменнику, і скорочується. Це вдача, оскільки це означає, що, незважаючи на те, що ми не знаємо σ, ми знаємо розподіл імовірності цієї частки: вона має t-розподіл Стьюдента з n − 1 ступенями вільності. Отже, ми можемо застосовувати цю частку для знаходження довірчого інтервалу μ.

Регресії

В регресійному аналізі відмінність між похибками та залишками є тонкою та важливою, і приводить до поняття стьюдентизованих залишків[en]. Якщо дано неспостережувану функцію, що ставить у відповідність незалежну змінну до залежної, — скажімо, лінію, — то відхилення спостережень залежної змінної від цієї функції є неспостережуваними похибками. Якщо запустити регресію на якихось даних, то відхилення спостережень залежної змінної від допасованої функції є залишками.

Проте термінологічна різниця проявляється у вираженні середньоквадратичної похибки (СКП, англ. MSE). Середньоквадратична похибка регресії є числом, обчисленим як сума квадратів обчислених залишків, а не неспостережуваних похибок. Якщо цю суму квадратів поділити на n, кількість спостережень, то результатом буде середнє значення квадратичних залишків. Оскільки це є упередженою оцінкою дисперсії неспостережуваних похибок, упередження усувається множенням середнього значення квадратичних залишків на n / df, де df є числом ступенів вільності (n мінус кількість оцінюваних параметрів). Цей метод дає такий точно результат, як і метод із застосуванням середнього значення квадратичних похибок. Крайня формула служить неупередженою оцінкою дисперсії неспостережуваних похибок, і називається середньоквадратичною похибкою.[1]

Інший метод обчислення середнього квадрату похибки при аналізі дисперсії лінійної регресії із застосуванням такого прийому, як застосовується в дисперсійному аналізі (вони однакові, оскільки дисперсійний аналіз є одним з типів регресії), сума квадратів залишків (відома також як сума квадратів похибки) ділиться на ступені вільності (де ступені вільності дорівнюють n-p-1, де p є числом «параметрів», або провісників, що використовуються в моделі, тобто кількістю змінних у рівнянні регресії). Також можна обчислювати середній квадрат моделі діленням суми квадратів моделі мінус ступені вільності, що є просто кількістю параметрів. Тоді значення F може обчислюватися діленням СК(моделі) на СК(похибки), і ми можемо визначати значущість (ось для чого починати з середніх квадратів.).[2]

Тим не менш, через поведінку процесу регресії розподіли залишків у різних точках даних (вхідного масиву) можуть різнитися, навіть якщо самі похибки мають ідентичні розподіли. Конкретно, в лінійній регресії, в якій похибки мають ідентичні розподіли, мінливість залишків входів у середині області визначення буде вищою, ніж мінливість залишків на її краях:[джерело?] лінійна регресія допасовується до крайових точок краще, ніж до середніх. Це відбивається також і на функціях впливу різних точок даних на коефіцієнти регресії: крайові точки мають більший вплив.

Таким чином, для порівняння залишків на різних входах необхідне регулювання залишків очікуваною мінливістю залишків, що називається стюдентизацією. Це особливо важливо у випадку виявлення викидів: великий залишок може бути очікуваним в середині області визначення, але розглядатися як викид на її краях.

Інші застосування слова «похибка» у статистиці

Термін «похибка» при обговоренні в попередніх розділах застосовується в сенсі відхилення значення від гіпотетичного неспостережуваного значення. У статистиці зустрічаються щонайменше два інших застосування, і обидва мають на увазі похибки спостережуваного передбачення:

Середньоквадратична похибка, або середня квадратична похибка (скорочується як СКП, англ. MSE) та кореневе середньоквадратичне відхилення[en] (КСКП, англ. RMSE) розглядають суму, на яку значення, передбачені оцінювачем, відрізняються від оцінюваних значень (зазвичай за межами вибірки, з якої робиться оцінка моделі).

Сума квадратичних похибок (англ. sum of squared errors, SSE або SSe), розглядає залишкову суму квадратів[en] (суму квадратичних залишків) регресії; вона є сумою квадратів відхилень фактичних значень від передбачених в межах вибірки, що застосовується для оцінки. Аналогічно, сума абсолютних похибок (англ. sum of absolute errors, SAE) розглядає суму модулів значень залишків, що мінімізується в підході до регресії методом найменших модулів[en].

Див. також

Примітки

  1. Steel, Robert G. D.; Torrie, James H. (1960). Principles and Procedures of Statistics, with Special Reference to Biological Sciences. McGraw-Hill. с. 288. (англ.)
  2. Zelterman, Daniel (2010). Applied linear models with SAS (вид. [Online-Ausg.].). Cambridge: Cambridge University Press. ISBN 9780521761598. (англ.)

Література

Read other articles:

SDN 8 TilongkabilaSekolah Dasar Negeri 8 TilongkabilaInformasiJenisSekolah DasarNomor Pokok Sekolah Nasional40500922Kepala SekolahIskandar SalehModeratorSiti QomariaJumlah kelas8Rentang kelasI-VIStatusNegeriAlamatLokasiJalan Dr. Zainal Umar Sidiki, Bone Bolango, Gorontalo, IndonesiaTel./Faks.085240691377Koordinat0°34′29″N 123°06′55″E / 0.5746000°N 123.1153000°E / 0.5746000; 123.1153000Surelsdela1973@gmail.comMoto SD Negeri 8 Tilongkabila atau nama le…

Yomi atau Yomi no Kuni menurut mitologi Jepang merupakan nama yang digunakan untuk menyebut tempat beradanya orang-orang yang telah mati. Dalam catatan lain, selain orang-orang yang telah mati Yomi juga dihuni oleh dewa kegelapan.[1] Berbagai literasi mendeskripsikan istilah Yomi sebagai neraka, jurang tak berdasar, atau kerajaan kegelapan yang terletak di bawah bumi. Dalam beberapa versi, Yomi dikuasai atau dpimpin oleh Tsuikiyomi-no-Mikoto, yang sering disebut Tsuki-yomi. Tsuki-yomi ad…

Katedral Reims, tempat tradisional penobatan raja Prancis. Reims, atau Rheims, adalah kota di utara Prancis, 144 km timur laut Paris. Kota ini berada dalam wilayah régions Champagne-Ardenne. Menurut sensus 1999, penduduk kota berjumlah 187.206 di wilayah perkotaan, dan 291.735 di seluruh daerah metropolitannya. Sejarah kota Reims dapat ditelusuri hingga periode Kekaisaran Romawi. Kota ini, khususnya Katedral Reims, yang sempat rusak karena serangan Jerman pada Perang Dunia I, juga memiliki…

هذه المقالة يتيمة إذ تصل إليها مقالات أخرى قليلة جدًا. فضلًا، ساعد بإضافة وصلة إليها في مقالات متعلقة بها. (مايو 2023) كأس الإنتركونتيننتال تحت 20 سنة 2022 بينارول بنفيكا 0 1 التاريخ21 اغسطس 2022الملعبملعب سينتيناريو، مونتيفيديوالحكمDerlis López (باراغواي)الحضور40,570[1]الطقسمشمس15 °م…

Lapo ElkannElkann, 2014LahirLapo Edovard Elkann[1]7 Oktober 1977 (umur 46)New York City, New York, U.S.PekerjaanPresiden, Italia Independentpresident, Independent Ideas, founding partner, LA Holdingdirector of brand promotion, Fiat GroupDikenal atasCucu dari Gianni Agnelli, keponakan dari Umberto Agnelli, sepupu dari Donna Bianca Brandolini d’Adda,Orang tuaCountess Margherita Agnelli de Pahlen Alain Elkann Lapo Edovard Elkann (lahir 7 Oktober 1977) adalah seorang pengusaha Italia …

American college basketball season 2013–14 Arizona State Sun Devils men's basketballNCAA tournament, round of 64ConferencePac-12 ConferenceRecord21–12 (10–8 Pac-12)Head coachHerb Sendek (8th season)Assistant coaches Dedrique Taylor Eric Musselman Larry Greer Home arenaWells Fargo ArenaSeasons← 2012–132014–15 → 2013–14 Pac-12 Conferencemen's basketball standings Conf Overall Team W   L   PCT W   L   PCT No. 4 Arizona 15 – 3 …

2000 television film directed by David Carson In His Life: The John Lennon StoryCover of an NBC press kit about the filmWritten byMichael O'HaraDirected byDavid CarsonStarringPhilip McQuillan, Blair BrownMusic byDennis McCarthyCountry of originUnited StatesOriginal languageEnglishProductionProducerColin McKeownCinematographyLawrence JonesEditorLisa BromwellRunning time85 minutesProduction companiesMichael O'Hara ProductionsNBC StudiosOriginal releaseReleaseDecember 3, 2000 (2000-1…

سعود بن عبد العزيز بن متعب الرشيد   معلومات شخصية الميلاد سنة 1897   حائل  تاريخ الوفاة مارس 1920 (22–23 سنة)  مواطنة شبه الجزيرة العربية  الزوجة فهدة بنت العاصي الشريم  الأب سعود بن حمود بن عبيد الرشيد  عائلة آل رشيد  مناصب أمير   في المنصب14 سبتمبر 1908  – ما…

Mountain range in Asia, separating Indo-Gangetic plain from Tibetan Plateau This article is about a mountain range. For other uses, see Himalaya (disambiguation). The HimalayasThe arc of the Himalayas (also Hindu Kush and Karakorams) showing the eight-thousanders (in red); Indo-Gangetic Plain; Tibetan plateau; rivers Indus, Ganges, and Yarlung Tsangpo-Brahmaputra; and the two anchors of the range (in yellow)Highest pointPeakMount Everest,    Nepal ChinaElevation8,848…

Resin plastic, popular 1930s-1950s For the drug with trade name Catalin, see Pirenoxine. For the Romanian first name, see Cătălin. This article needs additional citations for verification. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: Catalin – news · newspapers · books · scholar · JSTOR (January 2015) (Learn how and when to remove this message) Catalin is a brand…

This article needs additional citations for verification. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: Pocket Planes – news · newspapers · books · scholar · JSTOR (December 2012) (Learn how and when to remove this message) 2012 video gamePocket PlanesGame logoDeveloper(s)NimbleBitPublisher(s)NimbleBitPlatform(s)iOSAndroidReleaseiOS16 June 2012Android22 September 20…

.fm

.fm البلد ولايات ميكرونيسيا المتحدة  الموقع الموقع الرسمي  تعديل مصدري - تعديل   fm. هو امتداد خاص بالعناوين الإلكترونية (نطاق) domain للمواقع التي تنتمي إلى ميكرونيزيا، وهي دولة جزرية مستقلة تقع في المحيط الهادئ.[1][2] مراجع ^ النطاق الأعلى في ترميز الدولة (بالإنجليز…

American actress (1909–2001) Ann SothernSothern in 1960BornHarriette Arlene Lake(1909-01-22)January 22, 1909Valley City, North Dakota, U.S.DiedMarch 15, 2001(2001-03-15) (aged 92)Ketchum, Idaho, U.S.Resting placeKetchum CemeteryOther namesHarriet ByronHarriet LakeEducationMacPhail SchoolAlma materUniversity of WashingtonOccupationActressYears active1927–1987Political partyRepublican[1]Spouses Roger Pryor ​ ​(m. 1936; div. 1943…

Taxation in Scotland Scottish Government agencies Revenue Scotland Registers of Scotland National Taxation Income Tax Land and Buildings Transaction Tax Landfill Tax Air Departure Tax Local Taxation Council Tax Business rates vte Taxation in Scotland today involves payments that are required to be made to three different levels of government: to the UK government, to the Scottish Government and to local government. Currently 32.4% of taxation collected in Scotland is in the form of taxes under t…

Overview of conscription in Australia Conscription1780 caricature of a press gang Related concepts Alternative civilian serviceCivil conscriptionConscientious objectorConscription crisisCounter-recruitmentDraft-card burningDraft evasionImpressmentMilitary serviceNational serviceWar resister By historical country Ottoman EmpireRussian EmpireSoviet Union By modern country ArgentinaAustraliaAzerbaijanBermudaBrazilCanadaChinaCongo-Kinshasa (child soldiers)CubaCyprus (reduction)DenmarkEgyptEritreaFin…

English canal linking the south Cheshire town of Nantwich with the River Dee at Chester Chester CanalChester Canal basin, on the Wirral Line of the Ellesmere Canal, at Raymond Street, near the junction with the Chester Canal and the River DeeSpecificationsMaximum boat length72 ft 0 in (21.95 m)(originally 80 ft 0 in or 24.38 m)Maximum boat beam9 ft 0 in (2.74 m)(originally 14 ft 9 in or 4.50 m)Locks14StatusNavigableNavigation authorityC…

Reporter of Decisions of CaliforniaIncumbentLawrence W. Strileysince 2014Reports toSupreme Court of CaliforniaInaugural holderEdward NortonFormation1850 The California Reporter of Decisions is a reporter of decisions supervised by the Supreme Court of California responsible for editing and publishing the published opinions of the judiciary of California. The Supreme Court's decisions are published in official reporters known as California Reports and the decisions of the Courts of Appeal ar…

George Calvert redirects here. For other uses, see George Calvert (disambiguation). English peer and politician (1580–1632) The Right HonourableThe Lord BaltimoreA portrait of Lord Baltimore by Daniël MijtensSecretary of StateIn office1618–1625Proprietor of the Avalon Colony (Newfoundland)In office1620–1632 Personal detailsBorn1580Kiplin, North Yorkshire, EnglandDied15 April 1632(1632-04-15) (aged 52–53)Lincoln's Inn Fields, London, EnglandSpouse(s)Anne Mynne (m. 1604) JoaneChildre…

Category 4 Atlantic hurricane in 1982 Hurricane Debby Debby at peak intensity south of Nova Scotia on September 18, 1982Meteorological historyFormedSeptember 13, 1982DissipatedSeptember 20, 1982Category 4 major hurricane1-minute sustained (SSHWS/NWS)Highest winds130 mph (215 km/h)Lowest pressure950 mbar (hPa); 28.05 inHgOverall effectsFatalities1Areas affectedPuerto Rico, Hispaniola, Turks and Caicos Islands, Bermuda, Eastern United States, Eastern Canada, EuropeIBTrACSP…

Brasenose CollegePrésentationType Collège de l'université d'Oxford, complexe immobilierPartie de Université d'OxfordFondation 1509Site web www.bnc.ox.ac.ukLocalisationLocalisation OX1 4AJ Oxford, Oxfordshire, Angleterre Royaume-UniCoordonnées 51° 45′ 11″ N, 1° 15′ 17″ Omodifier - modifier le code - modifier Wikidata L'entrée de Brasenose College, avec la Radcliffe Camera en arrière-plan Le Brasenose College, autrefois nommé Brazen Nose College…