Визначення розмірів вибірки

Визначення розмірів вибірки — це процес вибору числа спостережень або повторюваностей з метою включення його у статистичну вибірку. Розмір вибірки є важливою характеристикою будь-якого емпіричного дослідження, мета якого полягає в тому, щоб зробити логічний висновок щодо популяції виходячи з результатів вибірки. На практиці розмір вибірки, що використовується у дослідженні, визначається на основі витрат на збір даних та необхідності мати достатню статистичну потужність. У складних дослідженнях може бути кілька різних розмірів вибірки, що використовуються у дослідженні: наприклад, у стратифікованому опитуванні були б різні розміри вибірки для кожного шару. При проведенні перепису дані збираються по всьому населенню, отже, розмір вибірки дорівнює розміру населення. В експериментальному проекті, де дослідження може бути розділене на різні експериментальні групи, для кожної окремої групи може існувати свій розмір вибірки.

Розміри вибірки можна обрати декількома різними способами:

  • Досвід — наприклад, включати легко доступні або зручні у збиранні елементи. Добір вибірок невеликого розміру, хоча іноді це необхідно, може призвести до широких довірчих інтервалів або ризиків помилитися у перевірці статистичних гіпотез.
  • Використовувати цільову дисперсію для оцінки, яка походить із отриманої зрештою вибірки.
  • Використовувати ціль для потужності статистичного дослідження, яка повинна застосовуватися після того, як вибірка зібрана.
  • Використовувати рівень достовірності, що визначає, наскільки точний результат вийде з більш низькими шансами похибки.

Введення

Великі розміри вибірки, як правило, призводять до збільшення точності при оцінці невідомих параметрів. Наприклад, якби ми хотіли з'ясувати частку деяких видів риб, які інфіковані патогенним мікроорганізмом, ми, як правило, мали б більш точну оцінку цієї частки, якщо б підібрали і дослідили 200, а не 100 риб. Кілька фундаментальних фактів математичної статистики можуть описати це явище, в тому числі закон великих чисел і центральної граничної теореми.

У деяких ситуаціях, підвищення точності для великих розмірів вибірки мінімальне або навіть не існує. Це може бути результатом наявності систематичних помилок або сильної залежності від даних, або якщо дані слідують розподілу з повільно спадаючим «хвостом».

Розміри вибірки оцінюються на підставі якості одержуваних оцінок. Наприклад, якщо частка в даний час оцінюється, людина, можливо, забажає, аби 95 % довірчий інтервал (довірчий інтервал для довірчої ймовірності 0,95) був менше, ніж 0,06 одиниць в ширину. Як альтернатива, розмір вибірки може бути визначений на основі потужності критерію для перевірки гіпотези. Наприклад, якщо ми порівняємо підтримку певного політичного кандидата серед жінок з підтримкою цього ж кандидата серед чоловіків, ми, можливо, хотіли б мати 80 % потужності, аби виявити в рівнях підтримки різницю у 0,04 одиниць.

Оцінка

Досить простою ситуацією є оцінка частки. Наприклад, ми хочемо оцінити частку жителів у громаді, яким хоча б 65 років.

Формула оцінки частки: , де X являє собою число «позитивних» спостережень (тобто, кількість людей із n вибраних людей, яким хоча б 65 років). Коли спостереження незалежні, то ця формула має (масштабний) біноміальний розподіл (і є також вибірковим середнім даних із розподілу Бернуллі). Максимальне відхилення цього розподілу становить 0,25/n, яке виникає, коли істинний параметр p = 0,5. На практиці, коли p невідоме, максимальне відхилення часто використовується для оцінки розміру вибірки.

При досить великому n розподіл буде дуже близьким за значенням до нормального розподілу. Використовуючи це наближення, можна показати, що близько 95 % ймовірностей цього розподілу лежить в межах 2-х стандартних відхилень від середнього значення. Використовуючи метод Wald для біноміального розподілу, інтервал виду:

формуватиме 95 % довірчий інтервал для істинної частки. Якщо цей інтервал повинен бути не більше, ніж W одиниці в ширину, рівняння:

може бути вирішене при n, що дає n = 4/W2 = 1/B2 , де B — похибка межі оцінки, тобто оцінка зазвичай дається в межах ± B. Таким чином, при B = 10 % вимагається n = 100, при B = 5 % потрібно n = 400, при B = 3 % вимога наближається до n= 1000, в той час як при B = 1 % потрібен розмір вибірки у n = 10000. Ці цифри часто цитуються у випусках новин щодо опитувань громадської думки та інших вибіркових вимірах.

Засоби

Частка є окремим питанням середнього значення. При оцінці середньої чисельності населення з використанням незалежного і однаково розподіленого (НОР) розміру n, де кожне значення даних має дисперсію σ2, стандартна похибка середнього значення вибірки є:

Цей вираз кількісно описує, що оцінка стає точнішою пропорційно з тим, як збільшується розмір вибірки. Використовуючи центральну граничну теорему, щоб виправдати приблизне вибіркове середнє з нормальним розподілом дає приблизний 95 % довірчий інтервал виду:

Якщо ми хочемо мати довірчий інтервал, який W одиниць в ширину, ми вирішимо

для n, яке видає розмір вибірки n = 16σ2/W2.

Наприклад, якщо ми зацікавлені в оцінці кількості, за якою препарат знижує кров'яний тиск суб'єкта з довірчим інтервалом у шість одиниць шириною, і ми знаємо, що стандартне відхилення артеріального тиску в населення становить 15, то шуканий розмір вибірки є 100.

Необхідні розміри вибірки для перевірки гіпотез

Загальною проблемою, що стоїть перед статистиками, є обчислювання розміру вибірки, необхідної для отримання певної потужності у випробуванні, враховуючи задану похибку першого роду α. Отже, це можна оцінити за допомогою заздалегідь визначених таблиць для певних значень за рівнянням ресурсу Міда або, в більш загальному плані, за допомогою кумулятивної функції розподілу:

Таблиці


 
Потужність
d Коена
0.2 0.5 0.8
0.25 84 14 6
0.50 193 32 13
0.60 246 40 16
0.70 310 50 20
0.80 393 64 26
0.90 526 85 34
0.95 651 105 42
0.99 920 148 58

Таблиця показана праворуч може бути використана у двовибіркових критеріях Ст'юдента для оцінки розмірів вибірки з експериментальної групи і контрольної групи, які мають однаковий розмір, тобто, загальне число особин у випробуванні вдвічі більше, числа даних, і бажаний рівень значущості дорівнює 0,05. Параметри, що використовуються, є:

  • Потрібна статистична потужність випробування показана в колонці зліва.
  • d Коена (= розмір ефекту), що є очікуваною різницею між середніми значеннями цільових значень між експериментальною групою та контрольною групою, розділена на очікуване стандартне відхилення.

Рівняння ресурсу Міда

Рівняння ресурсу Міда часто використовується для оцінки розмірів вибірки з лабораторних тварин, а також у багатьох інших лабораторних експериментах. Результат може бути не настільки точним, як при використанні інших методів в оцінці розміру вибірки, але він дає підказку, який розмір вибірки є доречним, якщо такі параметри як очікувані стандартні відхилення або очікувані відмінності в значеннях між групами є невідомими або їх дуже важко оцінити.

Всі параметри у рівнянні є, фактично, ступенями свободи числа їх понять, і, отже, від їх числа віднімається 1 перед введенням у рівняння.

Рівняння має вигляд:

де:

  • N — загальне число осіб або підрозділів в дослідженні (мінус 1)
  • B — компонент блокування, відображає вплив на навколишнє середовище, дозволений при проектуванні (мінус 1)
  • T — компонент експерименту, що відповідає числу експериментальних груп (в тому числі контрольна група), які використовуються, або кількості питань, що задаються (мінус 1)
  • E — ступінь свободи компонента похибки, і повинен бути приблизно між 10 і 20.

Наприклад, якщо дослідження з використанням лабораторних тварин планується з чотирма експериментальними групами (T = 3), з вісьмома тваринами на групу, тобто 32 тварин (N = 31), без будь-якої подальшої стратифікації (B = 0), то E буде дорівнювати 28, що є більше за відсічення 20, що вказує, що розмір вибірки може бути занадто великим, і шість тварин на кожну групу може бути достатньо та більш доречно.[1]

Інтегральна функція розподілу

Нехай Xi, i = 1, 2, …, n незалежні спостереження взяті з нормального розподілу з невідомим середнім μ і відомою дисперсією σ2. Розглянемо дві гіпотези, нульову гіпотезу:

й альтернативну гіпотезу:

для деякої «найменшої значущої різниці» μ* >0. Це найменше значення, яким мі цікавимось при спостереженні різниці. Тепер, якщо ми хочемо (1) відхилити H0 з ймовірністю принаймні 1-β , коли Ha істинно (тобто потужність 1-р), і (2) відхилити Ha з ймовірністю α, коли Ha вірна, тоді нам необхідно наступне: Якщо zα є верхньою відсотковою точкою α стандартного нормального розподілу, то

і таким чином

'Відхилити H0, якщо середнє нашої вибірки () більше, ніж '

це вирішальне правило, яке задовольняє умові (2). (Зверніть увагу, що це односторонній експеримент).

Тепер ми хочемо, щоб це сталося з ймовірністю принаймні 1- β, коли Ha істинно. У цьому випадку, середнє нашої вибірки буде походити з нормального розподілу із середнім значенням μ*.. Тому ми вимагаємо

Завдяки точним маніпуляціям, можна побачити, що станеться, коли

де нормальна інтегральна функція розподілу.

Стратифікований розмір вибірки

З більш складною організацією вибірки, такою як стратифікована (розшарована) вибірка, вибірку часто можна розділити на підвибірки. Як правило, якщо існують такі H підвибірки (від H різних шарів), то кожен з них буде мати розмір вибірки nh, h = 1, 2, …, H. Ці nh повинні відповідати правилу n1 + n2 + … + nH = n (тобто, загальний розмір вибірки визначається сумою розмірів підвибірок). Вибір цих nh оптимально може бути зробленим різними шляхами, використовуючи (наприклад) оптимальний розподіл Неймана.

Є багато причин використовувати стратифіковану вибірку: щоб зменшити дисперсії вибіркових оцінок, щоб використовувати частково невипадкові методи, або для вивчення шарів окремо. Частково невипадковий метод мав би бути корисним для вибірки осіб, яких легко дістати, але, якщо ні, то краще використовувати гніздову вибірку, щоб заощадити на витратах на поїздки.

Загалом, для H шарів, зваженим вибірковим середнім є

з

[2]

Вагові функції, , часто, але не завжди, відображають пропорції елементів населення в шарах, і . Для фіксованого розміру вибірки, тобто, size, that is ,

[3]

який може бути виконаний, якщо частота дискретизації в межах кожного шару проводиться пропорційно стандартному відхиленню в кожному шарі : , де і є константами, як .

«Оптимальний розподіл» досягається, коли частоти дискретизації в межах шарів виробляються прямо пропорційно стандартним відхиленням в межах шарів і обернено пропорційно квадратному кореню з вартості вибірки для кожного елемента в межах шарів, :

[4]

де це константа, як , або в більш загальному плані, коли

[5]

Якісне дослідження

Визначення розмірів вибірки в якісних дослідженнях використовує інший підхід. Як правило, це суб'єктивне судження, взяте як діагностичні засоби. Один з підходів полягає у подальшому включенні в себе додаткових учасників або матеріалів доки не досягнуто насичення. Кількість, необхідна для досягнення насичення, була досліджена емпірично.

Існує мала кількість надійних вказівок по оцінці розмірів вибірки перед початком дослідження з цілою низкою наведених пропозицій. Метод близький до розрахунку кількісної потужності на основі негативного біноміального розподілу був запропонований для тематичного аналізу.

Див. також

Примітки

  1. Isogenic.info > Resource equation [Архівовано 23 вересня 2016 у Wayback Machine.] by Michael FW Festing. Updated Sept. 2006
  2. Kish (1965), p.78.
  3. Kish (1965), p.81.
  4. Kish (1965), p.93.
  5. Kish (1965), p.94.

Посилання

Література

Read other articles:

Сельское поселение России (МО 2-го уровня)Новотитаровское сельское поселение Флаг[d] Герб 45°14′09″ с. ш. 38°58′16″ в. д.HGЯO Страна  Россия Субъект РФ Краснодарский край Район Динской Включает 4 населённых пункта Адм. центр Новотитаровская Глава сельского посел…

Soviet/Russian Icebreaker (1965-2021) Yuriy Lisyanskiy in Kiel in September 1970 History → Soviet Union → Russia Name Ledokol-9 (Ледокол-9) (1965–1966) Yuriy Lisyanskiy (Юрий Лисянский) (1966–2021) NamesakeYuri Lisyansky Owner Baltic Sea Shipping Company (1965–1996) Balttrans (1996–2004) Tangra-Oil (2004–2009) Olimar (2009–2010) Rosmorport (2010–2021)[2] Port of registry Leningrad, Soviet Union (1965–1992) Saint Petersburg, Russia (1992–2021) Bui…

Edward LuAstronauta della NASANazionalità Stati Uniti StatusRitirato Data di nascita1º luglio 1963 Selezione1994 (Gruppo 15 NASA) Primo lancio15 maggio 1997 Ultimo atterraggio28 ottobre 2003 Altre attivitàFisico Tempo nello spazio205 giorni, 23 ore e 18 minuti Numero EVA1 Durata EVA6h 14m Missioni Expedition 7 STS-106 STS-84 Sojuz TMA-2 Data ritiroAgosto 2007 Modifica dati su Wikidata · Manuale Edward Tsang Lu (in cinese semplificato: 卢杰; in cinese tradizionale: 盧傑) (Webste…

Republik Puntland adalah sebuah sebuah negara pengakuan terbatas di bagian timur laut Somalia yang tidak diakui oleh siapapun. Nama Puntland diambil dari Negeri Punt, kini mencakupi wilayah Somalia, yang berasal dari narasumber pada zaman Mesir kuno. Republik PuntlandJamhuuriyadda Putland Bendera Lambang Semboyan: Nabad iyo nolol(Indonesia: Kedamaian dan kehidupan)Lagu kebangsaan:  Qolobaa Calankeed (Indonesia: Memuji Tanah Air) Ibu kotaGarooweBahasa resmiSomali, Arab, InggrisAgama Isl…

الاتحاد الكوماني الكيبتشاكي في أوراسيا حوالي 1200م الكومان أو القومان (بالتركية: kuman والجمع kumanlar [1][2][3] (بالرومانية: cuman / plural cumani)‏, (بالبولندية: Połowcy, Plauci (Kumanowie))‏, (بالروسية: Половцы)‏ - بولوفتسي، (بالأوكرانية: Половці)‏, (بالبلغارية: Кумани)‏، بالتشيكية: Plavci، (بالجو…

本條目存在以下問題,請協助改善本條目或在討論頁針對議題發表看法。 此條目需要編修,以確保文法、用詞、语气、格式、標點等使用恰当。 (2013年8月6日)請按照校對指引,幫助编辑這個條目。(幫助、討論) 此條目剧情、虛構用語或人物介紹过长过细,需清理无关故事主轴的细节、用語和角色介紹。 (2020年10月6日)劇情、用語和人物介紹都只是用於了解故事主軸,輔助讀…

الخطوط الجوية الأفريقية إياتا8U إيكاوAAW رمز النداءAFRIQIYAH تاريخ الإنشاء 2001 الجنسية ليبيا  المطارات الرئيسية مطار معيتيقة الدولي المطارات الثانوية مطار مصراتة الدولي مطار بنينا الدولي برنامج المسافر الدائم رحال حجم الأسطول 13 الشركة الأم الشركة الليبية الأفريقية القابضة لل…

نادي الاعتماد السعودي الألوان السماوي و الأسود تأسس عام 1981 م - 1401 هـ الملعب سدير  السعودية البلد السعودية  الدوري دوري الدرجة الثالثة السعودي 2015-2016 2015-2016 مجموعات الداعمين افوجادو الإدارة المالك الهيئة العامة للرياضة مشعل عبدالعزيز المدرب كليبي الموقع الرسمي حسابهم بال…

Bones Inc.Nama asli株式会社 ボンズNama latinKabushiki-gaisha BonzuJenisKabushiki-gaishaIndustriAnimeDidirikanOktober 1998; 25 tahun lalu (1998-10)Kantorpusat3-1-12 Sanbiru Igusa, Suginami, Tokyo, JapanTokohkunciMasahiko MinamiHiroshi ŌsakaToshihiro KawamotoSitus webwww.bones.co.jp Bones Inc. (Jepang: 株式会社 ボンズcode: ja is deprecated , Hepburn: Kabushiki-gaisha Bonzu) adalah sebuah studio anime Jepang. Bones telah memproduksi banyak seri, termasuk Noragami, Wolf's Rain, S…

Lower house of the parliament of Uzbekistan Legislative Chamber of the Oliy Majlis of the Republic of Uzbekistan Oʻzbekiston Respublikasi Oliy Majlisi Qonunchilik palatasi (Uzbek)5th Oliy MajlisTypeTypeLower house of the Oliy Majlis Term limitsNoneHistoryFounded2005LeadershipChairmanNuriddinjon Ismailov since 12 January 2015 StructureSeats150(elected for 5-year terms in single-seat constituencies using)Political groupsGovernment coalition (89)  UzLiDeP (53)  Milliy Tiklanish (36)…

American musician (1924–2012) Earl ScruggsScruggs in 2005Background informationBirth nameEarl Eugene ScruggsBorn(1924-01-06)January 6, 1924Cleveland County, North Carolina, U.S.DiedMarch 28, 2012(2012-03-28) (aged 88)Nashville, Tennessee, U.S.GenresBluegrassprogressive country[1]gospelOccupation(s)MusicianInstrument(s)5-string banjoguitarYears active1945–2012LabelsMercuryColumbiaOKehMCA NashvilleWebsiteearlscruggs.comMusical artist Earl Eugene Scruggs (January 6, 1924 – M…

American baseball player (1918–2002) For other people named Ted Williams, see Ted Williams (disambiguation). Baseball player Ted WilliamsWilliams in 1949Left fielder / ManagerBorn: (1918-08-30)August 30, 1918San Diego, California, U.S.Died: July 5, 2002(2002-07-05) (aged 83)Inverness, Florida, U.S.Batted: LeftThrew: RightMLB debutApril 20, 1939, for the Boston Red SoxLast MLB appearanceSeptember 28, 1960, for the Boston Red SoxMLB statisticsBatting average.34…

19th-century American geologist Clarence King1st Director of the United States Geological SurveyIn office1879 (1879)–1881 (1881)Succeeded byJohn Wesley Powell Personal detailsBorn(1842-01-06)January 6, 1842Newport, Rhode Island, USDiedDecember 24, 1901(1901-12-24) (aged 59)Phoenix, Arizona, USSignatureAlma materYale UniversityKnown forExploration of the Sierra NevadaScientific careerFieldsGeologyInstitutionsU.S. Geological Survey Clarence Rivers King (January 6, 18…

العلاقات المجرية المغربية المجر المغرب   المجر   المغرب تعديل مصدري - تعديل   العلاقات المجرية المغربية هي العلاقات الثنائية التي تجمع بين المجر والمغرب.[1][2][3][4][5] جدد وزير الشؤون الخارجية والتجارة الهنغاري، بيتر زيجارتو، في 15 نونبر 2023 بالرب…

Random mating Panmixia (or panmixis) means uniform random fertilization.[1][2] A panmictic population is one where all potential parents may contribute equally to the gamete pool, and that these gametes are uniformly distributed within the gamete population (gamodeme). This assumes that there are no hybridising restrictions within the parental population : neither genetics, cytogenetics nor behavioural; and neither spatial nor temporal (see also Quantitative genetics for fur…

You can help expand this article with text translated from the corresponding article in Chinese. (November 2022) Click [show] for important translation instructions. Machine translation, like DeepL or Google Translate, is a useful starting point for translations, but translators must revise errors as necessary and confirm that the translation is accurate, rather than simply copy-pasting machine-translated text into the English Wikipedia. Do not translate text that appears unreliable or low-…

Funicular railway in Neuchâtel, Switzerland Funiculaire Ecluse - PlanAt Ecluse (2010)OverviewStatusIn operationOwnerTransports publics Neuchâtelois (TransN, TRN)LocaleNeuchâtel SwitzerlandTerminiNeuchâtel, Ecluse (FUNI)Neuchâtel, Plan (FUNI)Stations4WebsiteTransNServiceTypeFunicularServices112[1]Operator(s)Transports publics NeuchâteloisRolling stock2 for 30 persons each[2] (32 originally)[3]HistoryOpened1890[2][4]TechnicalLine length399 m (1,30…

区徽 地图 战神广场(義大利語:Campo Marzio)是罗马的第四区,所涵盖范围小于古代的战神广场地区。该区的标志是蓝色背景上的银色月牙。 参考文献 此区的历史、地图与图像 (页面存档备份,存于互联网档案馆) 维基共享资源上的相关多媒体资源:战神广场 41°54′N 12°28′E / 41.900°N 12.467°E / 41.900; 12.467 这是一篇关于意大利的小作品。您可以通过编辑或修…

Fish used for eating Salmon sashimi Salmon is a common food fish classified as an oily fish[1] with a rich content of protein and omega-3 fatty acids.[2] Norway is a major producer of farmed and wild salmon, accounting for more than 50% of global salmon production. Farmed and wild salmon differ only slightly in terms of food quality and safety, with farmed salmon having lower content of environmental contaminants, and wild salmon having higher content of omega-3 fatty acids.[…

دستور إسبانيا 1876 البلد إسبانيا  تعديل مصدري - تعديل   كانوباس ديل كاستيو. صدر الدستور الإسباني 1876 في 30 يونيو 1876 في عهد رئيس وزراء إسبانيا كانوباس ديل كاستيو. وقد استند هذا الدستور إلى مشروع دستوري وضعته مجموعة من 600 من الأعيان وأعضاء سابقين لمجلس الشيوخ ونواب المجالس التش…