Функція правдоподібностіУ статистиці фу́нкція правдоподі́бності (англ. likelihood function, часто звана просто правдоподі́бністю, англ. likelihood) вимірює допасованість статистичної моделі до вибірки даних для заданих значень невідомих параметрів. Її утворюють зі спільного розподілу ймовірності цієї вибірки, але розглядають та використовують як функцію лише від цих параметрів, відтак розглядаючи випадкові змінні як зафіксовані в спостережуваних значеннях.[a] Функція правдоподібності описує гіперповерхню, чий пік, якщо він існує, представляє поєднання значень параметрів моделі, які максимізують імовірність витягування отриманої вибірки.[1] Процедура отримання цих аргументів максимізації функції правдоподібності є відомою як оцінювання максимальною правдоподібністю, яке, заради обчислювальної зручності, зазвичай застосовують з використанням натурального логарифма правдоподібності, відомого як фу́нкція логарифмі́чної правдоподі́бності (англ. log-likelihood function). Крім того, форма та кривина поверхні правдоподібності несуть інформацію про стійкість цих оцінок, через що як частину статистичного аналізу часто здійснюють побудову графіку функції правдоподібності.[2] Варіант використання правдоподібності першим зробив Рональд Фішер,[3] який мав переконання, що він є самодостатньою системою для статистичного моделювання та висновування. Згодом Барнард[en] та Бірнбаум[en] очолили наукову школу, яка виступила за принцип правдоподібності, постулюючи, що вся доречна інформація для висновування міститься у функції правдоподібності.[4][5] Але навіть і в частотницькій та баєсовій статистиці функція правдоподібності відіграє́ фундаментальну роль.[6] ОзначенняФункцію правдоподібності зазвичай означують по-різному для дискретних та неперервних розподілів імовірності. Загальне означення також є можливим, як обговорено нижче. Дискретний розподіл імовірностіНехай буде дискретною випадковою змінною з функцією маси ймовірності , залежною від параметра . Тоді функція що розглядають як функцію від , є функцією правдоподібності для заданого результату[en] випадкової змінної . Іноді ймовірність «значення випадкової змінної для значення параметра » записують як P(X = x | θ) або P(X = x; θ). не слід плутати з : правдоподібність дорівнює ймовірності спостерігання певного результату , коли справжнім значенням параметра є , і відтак дорівнює густині ймовірності над результатом , а не над параметром . ПрикладРозгляньмо просту статистичну модель підкидання монети: єдиний параметр , що виражає «справедливість» цієї монети. Цей параметр є ймовірністю того, що монета після підкидання впаде аверсом (англ. heads, H) догори. може набувати будь-якого значення в проміжку з 0.0 по 1.0. Для ідеально справедливої монети[en] . Уявімо підкидання справедливої монети двічі, й спостерігання наступних даних: два аверси за два підкидання (HH). Якщо виходити з припущення, що кожне наступне підкидання монети є н. о. р., то ймовірністю спостерігання HH є Отже, за заданих даних спостережень HH, правдоподібністю того, що параметр моделі дорівнює 0.5, є 0.25. Математично це записують як Це не те ж саме, що й сказати, що ймовірністю того, що , за заданого спостереження HH є 0.25. (Для цього ми можемо застосувати теорему Баєса, яка означає, що апостеріорна ймовірність є пропорційною до правдоподібності, помноженої на апріорну ймовірність.) Припустімо, що ця монета не є справедливою, але натомість має . Тоді ймовірністю отримання двох аверсів є Отже, Загальніше, для кожного значення ми можемо обчислити відповідну правдоподібність. Результати таких обчислень показано на Рис. 1. На Рис. 1. інтегралом правдоподібності над проміжком [0, 1] є 1/3. Це висвітлює важливий аспект правдоподібностей: правдоподібності не мають інтегруватися (чи підсумовуватися) до 1, на відміну від імовірностей. Неперервний розподіл імовірностіНехай буде випадковою змінною, що слідує абсолютно неперервному розподілові ймовірності з функцією густини , залежною від параметра . Тоді функція що розглядають як функцію від , є функцією правдоподібності (параметра для заданого результату[en] змінної ). Іноді функцію густини для «значення змінної для значення параметра » записують як . не слід плутати з : правдоподібність дорівнює густині ймовірності на певному результаті , коли справжнім значенням параметра є , і відтак вона дорівнює густині ймовірності над результатом , а не над параметром . Загальний випадокВ теорії ймовірностей на основі теорії мір[en] функцію густини означують як похідну Радона — Нікодима розподілу ймовірності відносно спільної домінантної міри.[7] Функція правдоподібності є цією густиною, інтерпретованою як функція від параметра (можливо, векторного), а не від можливих результатів.[8] Це забезпечує функцію правдоподібності для будь-якої статистичної моделі з усіма розподілами, чи то дискретними, абсолютно неперервними, сумішшю, чи чимось ще. (Правдоподібності буде можливо порівнювати, наприклад, для оцінювання параметрів, лише якщо вони є похідними Радона — Нікодима по відношенню до однієї й тієї ж домінантної міри.) Наведене вище обговорення правдоподібності з дискретними ймовірностями є окремим випадком цього із застосуванням лічильної міри, яка робить імовірність будь-якого одиничного результату рівною густині ймовірності для цього результату. Якщо не задано жодної події (немає даних), то ймовірністю, і відтак правдоподібністю, є 1.[джерело?] Будь-яка нетривіальна подія матиме нижчу правдоподібність. Функція правдоподібності параметризованої моделіІз багатьох застосувань ми розглянемо тут одне, що має широку теоретичну та практичну важливість. Для заданого параметризованого сімейства[en] функцій густини ймовірності (або функцій маси ймовірності у випадку дискретних розподілів) де є параметром, фу́нкцією правдоподі́бності (англ. likelihood function) є що записують як де є спостережуваним результатом експерименту. Іншими словами, коли розглядають як функцію від за незмінного , вона є функцією густини ймовірності, а коли її розглядають як функцію від за незмінного , вона є функцією правдоподібності. Це не є тим же, що й імовірність того, що ці параметри є правильними за заданої спостережуваної вибірки. Намагання інтерпретувати правдоподібність гіпотези за заданого спостережуваного свідчення як її імовірність є поширеною помилкою з потенційно катастрофічними наслідками. Як приклад цього див. помилку прокурора. З геометричної точки зору, якщо ми розглядаємо як функцію від двох змінних, то сімейство розподілів імовірності можливо розглядати як сімейство кривих, паралельних до осі , тоді як сімейство функцій правдоподібності є перпендикулярними кривими, паралельними до осі . Правдоподібності для неперервних розподілівЗастосування густини ймовірності у визначенні функції правдоподібності вище може бути пояснено наступним чином. Для заданих спостережень правдоподібність для проміжку , де є сталою, задають як . Зверніть увагу, що
оскільки є додатною та сталою. Оскільки де є функцією густини ймовірності, з цього випливає, що
Перша фундаментальна теорема інтегрального числення та правило Лопіталя разом забезпечують, що Тоді Отже, і відтак максимізування густини ймовірності в є рівносильним максимізуванню правдоподібності конкретного спостереження . Правдоподібності для змішаних неперервно-дискретних розподілівНаведене вище може бути в простий спосіб розширено так, щоби дозволяти розгляд розподілів, що містять як дискретні, так і неперервні складові. Припустімо, що такий розподіл складається з якоїсь кількості дискретних мас імовірності та з густини , де сума всіх , додана до інтегралу , завжди є одиницею. За припущення, що можливо розрізняти спостереження, що відповідає одній з цих дискретних мас імовірності, від того, що відповідає складовій густини, функцію правдоподібності для спостереження з неперервної складової можливо розглядати наведеним вище чином. Для спостереження з дискретної складової функцією правдоподібності для спостереження з цієї дискретної складової є просто де є індексом маси дискретної ймовірності, що відповідає спостереженню , оскільки максимізування маси ймовірності (або ймовірності) в є рівносильним максимізуванню правдоподібності цього конкретного спостереження. Той факт, що функцію правдоподібності може бути визначено в спосіб, що включає не порівнянні внески (густина та маса ймовірності), випливає зі способу її визначення, в якому функцію правдоподібності визначено з точністю до сталої пропорційності, де ця «стала» може змінюватися зі спостереженням , але не з параметром . Умови регулярностіВ контексті оцінювання параметрів зазвичай виходять з того, що функція правдоподібності задовольняє певні умови, відомі як умови регулярності (англ. regularity conditions). З цих умов виходять у багатьох доведеннях, що включають функції правдоподібності, і їх потрібно перевіряти в кожному конкретному застосуванні. Для методу максимальної правдоподібності надзвичайно важливим є існування глобального максимуму функції правдоподібності. Згідно другої теореми Веєрштраса, неперервна функція правдоподібності на компактному просторі параметрів є достатньою для існування оцінювача максимальною правдоподібністю.[9] В той час як припущення про неперервність зазвичай виконується, припущення про компактність простору параметрів часто не виконується, оскільки межі справжніх значень параметрів є невідомими. В такому випадку ключову роль відіграє угнутість функції правдоподібності. Конкретніше, якщо функція правдоподібності є двічі неперервно диференційовною на k-вимірному просторі параметрів , що вважають відкритою зв'язаною підмножиною , то унікальний максимум існує, якщо
Макелайнен та ін. доводять цей результат, застосовуючи теорію Морса, неформально звертаючись до властивості гірського перевалу.[10] Машкареньяш підтверджує їхнє доведення, застосовуючи теорему про гірський перевал[en].[11] В доведенні слушності та асимптотичної нормальності оцінювача максимальною правдоподібністю роблять додаткові припущення про густи́ни ймовірностей, які складають основу певної функції правдоподібності. Ці умови було вперше встановлено Чандою.[12] Зокрема, для майже всіх , та для всіх існують для всіх , щоби забезпечити існування розкладу Тейлора. По-друге, для майже всіх та для кожного мусить бути де є такою, що . Ця обмеженість похідних є потрібною, щоби уможливити диференціювання під знаком інтегралу[en]. І, нарешті, передбачається, що інформаційна матриця є додатно визначеною, а є скінченною. Це забезпечує скінченність дисперсії внеску.[13] Наведені вище умови є достатніми, але не необхідними. Тобто, модель, що не задовольняє ці умови регулярності, може мати, а може й не мати оцінювача максимальною правдоподібністю згаданих вище властивостей. Крім того, у випадку не незалежно або не однаково розподілених спостережень може бути потрібно очікувати додаткових властивостей. Відношення правдоподібностей та відносна правдоподібністьВідношення правдоподібностейВідно́шення правдоподі́бностей (англ. likelihood ratio) — це відношення будь-яких двох вказаних правдоподібностей, що часто записують як Відношення правдоподібностей є центральним для правдоподібницької статистики: закон правдоподібності встановлює, що ступінь, до якого дані (що розглядають як свідчення) підтримують один параметр проти іншого, вимірюється відношенням правдоподібностей. В частотницькому висновуванні відношення правдоподібності є основою для статистичного критерію, так званої перевірки відношенням правдоподібностей. Згідно леми Неймана — Пірсона[en], вона є найпотужнішою перевіркою для порівнювання двох простих гіпотез на заданому рівні значущості. Численні інші критерії можливо розглядати як перевірки відношенням правдоподібностей, або його наближеннями.[14] Асимптотичний розподіл логарифмічного відношення правдоподібностей, що розглядають як статистичний критерій, задано теоремою Уїлкса. Відношення правдоподібностей також має центральне значення в баєсовім висновуванні, де воно є відомим як коефіцієнт Баєса, і застосовується в правилі Баєса. Викладене в термінах шансів[en] (англ. odds), правило Баєса полягає в тім, що апостеріорні шанси двох альтернатив, та , за умови події , є апріорними шансами, помноженими на відношення правдоподібностей. У вигляді рівняння: Відношення правдоподібності не використовують в статистиці на основі ІКА напряму. Натомість використовують відносну правдоподібність моделей (див. нижче). Відмінність від відношення шансівВідношення правдоподібностей двох моделей, коли задано одну й ту ж подію, може бути протиставлено з шансами[en] двох подій, коли задано одну й ту ж модель. В термінах параметризованої функції маси ймовірності , відношенням правдоподібностей двох параметрів та за заданого результату є тоді як шансами двох результатів, та , за заданого значення параметра , є Це підкреслює різницю між правдоподібностями та шансами: в правдоподібностях порівнюють моделі (параметри), тримаючи дані незмінними, тоді як в шансах порівнюють події (результати, дані), тримаючи незмінною модель. Відношення шансів[en] є відношенням двох умовних шансів (події, за заданої присутності або відсутності іншої події). Проте відношення шансів також можливо інтерпретувати як відношення двох відношень правдоподібностей, якщо розглядати одну з подій як спостережувану легше за іншу. Див. діагностичне відношення шансів, де результат перевірки для встановлення діагнозу спостерігати легше, ніж наявність або відсутність медичного стану, що лежить в його основі. Функція відносної правдоподібностіОскільки фактичне значення функції правдоподібності залежить від вибірки, часто зручно працювати зі стандартизованою мірою. Припустімо, що оцінкою максимальною правдоподібністю для параметра θ є . Відносні достовірності (англ. plausibilities) інших значень θ може бути знайдено порівнюванням правдоподібностей цих інших значень з правдоподібністю . Відно́сну правдоподі́бність (англ. relative likelihood) θ означують як[15][16][17][18][19] Таким чином, відносна правдоподібність є відношенням правдоподібностей (обговореним вище) з незмінним знаменником . Це відповідає унормуванню цієї правдоподібності, щоби вона мала за максимум 1. Область правдоподібностіО́бласть правдоподі́бності (англ. likelihood region) — це множина всіх значень θ, чиї відносні правдоподібності є більшими або рівними заданому порогові. В термінах відсотків, p%-ву область правдоподібності для θ означують як[15][17][20] Якщо θ є єдиним дійснозначним параметром, то p%-ва область правдоподібності зазвичай становить проміжок дійсних значень. Якщо ця область дійсно становить проміжок, то її називають про́міжком правдоподі́бності (англ. likelihood interval).[15][17][21] Проміжки правдоподібності, та, загальніше, області правдоподібності використовують для проміжкового оцінювання[en] в правдоподібницькій статистиці: вони є подібними до довірчих проміжків у частотницькій статистиці та ймовірних проміжків у баєсовій статистиці. Проміжки правдоподібності тлумачать безпосередньо в термінах відносної правдоподібності, а не в термінах ймовірності накриття[en] (частотництво) чи апостеріорної ймовірності (баєсівство). Для заданої моделі проміжки правдоподібності можливо порівнювати з довірчими проміжками. Якщо θ є єдиним дійснозначним параметром, то, за певних умов 14.65%-й проміжок правдоподібності (правдоподібність близько 1:7) для θ буде таким же, як і 95%-й довірчий проміжок (ймовірність накриття 19/20).[15][20] У дещо відмінному формулюванні, пристосованому для використання логарифмічних правдоподібностей (див. теорему Уїлкса), перевірна статистика є подвоєною різницею логарифмічних правдоподібностей, а розподіл імовірності цієї перевірної статистики приблизно є розподілом хі-квадрат зі ступенями вільності, що дорівнюють різниці в ступенях вільності між цими двома моделями (тому проміжок правдоподібності e−2 є таким же, як і довірчий проміжок 0.954, за припущення, що різницею в ступенях вільності є 1).[20][21] Правдоподібності, що усувають завадні параметриВ багатьох випадках правдоподібність є функцією більш ніж одного параметра, але інтерес зосереджується на оцінюванні лише одного, або щонайбільше декількох з них, з розглядом інших як завадних параметрів[en]. Було розроблено декілька альтернативних підходів для усування таких завадних параметрів таким чином, щоби функцію правдоподібності могло бути записано як функцію лише параметра (або параметрів), що становлять інтерес: головними підходами є профільна (англ. profile), умовна (англ. conditional) та відособлена (англ. marginal) правдоподібності.[22][23] Ці підходи є також корисними, коли потрібно звужувати поверхні правдоподібності високої вимірності до одного чи двох параметрів, що становлять інтерес, щоби уможливити побудову графіку. Профільна правдоподібністьМожливо знижувати розмірності, зосереджуючи функцію правдоподібності на підмножині параметрів шляхом виражання завадних параметрів як функцій від параметрів, що становлять інтерес, і заміни їх у функції правдоподібності.[24][25] Загалом, для функції правдоподібності, що залежить від вектору параметрів , який можливо розбити на , і де відповідність можливо визначити явно, зосереджування знижує обчислювальне навантаження первинної задачі максимізації.[26] Наприклад, в лінійній регресії з нормально розподіленими похибками, , вектор коефіцієнтів може бути розбито на (а матрицю плану[en], відповідно, на ). Максимізування відносно видає функцію оптимального значення . Із застосуванням цього результату оцінювач максимальною правдоподібністю для може бути виведено як де є проєктивною матрицею[en] . Цей результат є відомим як теорема Фріша — Во — Ловелла[en]. Оскільки графічно процедура зосереджування є рівнозначною нарізанню поверхні правдоподібності по хребту значень завадного параметра , яке максимізує функцію правдоподібності, створюючи ізометричний профіль[en] функції правдоподібності для заданого , результат цієї процедури є також відомим як про́фільна правдоподі́бність (англ. profile likelihood).[27][28] На додачу до графічного зображування, профільну правдоподібність також можливо використовувати для обчислювання довірчих проміжків, які часто мають кращі властивості на малих вибірках, ніж основані на асимптотичних стандартних похибках, обчислюваних із повної правдоподібності.[29][30] Умовна правдоподібністьІноді для завадних параметрів можливо знайти достатню статистику, і обумовлювання цією статистикою дає в результаті правдоподібність, що не залежить від завадних параметрів.[31] Один із прикладів трапляється в таблицях 2×2, де обумовлювання усіма чотирма відособленими підсумками веде до умовної правдоподібності на основі нецентрального гіпергеометричного розподілу. Цей вид обумовлювання є також основою точного тесту Фішера[en]. Відособлена правдоподібністьІноді ми можемо усувати завадні параметри, розглядаючи правдоподібність на основі лише частини інформації з даних, наприклад, застосуванням набору порядків замість числових значень. Інший приклад трапляється в лінійних змішаних моделях, де розгляд правдоподібності лише для залишків після допасовування фіксованих впливів веде до оцінювання залишковою максимальною правдоподібністю[en] складових відхилення. Часткова правдоподібністьЧасткова правдоподібність (англ. partial likelihood) — це таке пристосування повної правдоподібності, що в ньому є лише частина параметрів (параметри, що становлять інтерес).[32] Вона є ключовою складовою моделі пропорційних ризиків[en]: з використанням обмеження на функцію ризиків, правдоподібність не містить фігури ризику в часі. Добуток правдоподібностейПравдоподібність за заданих двох або більше незалежних подіях є добутком правдоподібностей кожної з цих окремих подій: Це випливає з означення незалежності в теорії ймовірностей: імовірністю трапляння двох незалежних подій за заданої моделі є добуток цих імовірностей. Це є особливо важливим, коли події походять від незалежних однаково розподілених випадкових змінних, таких як незалежні спостереження або вибирання з повертанням[en]. В такій ситуації функція правдоподібності розкладається на добуток окремих функцій правдоподібностей. Порожній добуток має значення 1, яке відповідає правдоподібності за відсутності події, що становить 1: перед будь-якими даними правдоподібністю завжди є 1. Це є подібним до рівномірного апріорного в баєсовій статистиці, але в правдоподібницькій статистиці це не є некоректним апріорним, оскільки правдоподібності не інтегруються. Логарифмічна правдоподібністьДетальніші відомості з цієї теми ви можете знайти в статті Логарифмічна ймовірність. Фу́нкція логарифмі́чної правдоподі́бності (англ. log-likelihood function) — це логарифмічне перетворення функції правдоподібності, яке часто позначують маленькою l або , на противагу до великої L або для самої правдоподібності. Оскільки угнутість відіграє́ в максимізації ключову роль, а більшість поширених розподілів імовірності, зокрема, експоненційного сімейства[en], є лише логарифмічно угнутими,[33][34] зазвичай набагато зручніше працювати з функціями логарифмічних правдоподібностей. Також, логарифмічна правдоподібність є особливо зручною в оцінюванні максимальною правдоподібністю. Оскільки логарифми є строго висхідними функціями, максимізування правдоподібності є рівнозначним максимізуванню логарифмічної правдоподібності. За умови незалежності кожної з подій, загальна логарифмічна правдоподібність перетину дорівнює сумі логарифмічних правдоподібностей окремих подій. Це є аналогічним тому фактові, що загальна логарифмічна ймовірність є сумою логарифмічних імовірностей цих окремих подій. На додачу до математичної зручності, яку це дає, процес додавання логарифмічних правдоподібностей має інтуїтивну інтерпретацію, яку часто виражають як «підтримку» даними. Коли параметри оцінюють, застосовуючи логарифмічну правдоподібність для оцінювання максимальною правдоподібністю, кожну точку даних використовують додаванням до підсумкової логарифмічної правдоподібності. Оскільки ці дані можливо розглядати як свідчення, що підтримують оцінювані параметри, цей процес можливо інтерпретувати як «підтримка від незалежних свідчень додається», а логарифмічна правдоподібність є «вагою свідчення». Якщо інтерпретувати від'ємну логарифмічну правдоподібність як власну інформацію, або несподіваність, то підтримка (логарифмічна правдоподібність) моделі, за заданої події, є від'ємною несподіваністю цієї події за заданої моделі: модель підтримувано подією в тій мірі, в якій ця подія не є несподіваною за заданої моделі. Вибір основи b для логарифма відповідає виборові масштабу.[b] Зазвичай використовують натуральний логарифм, й основу залишають незмінною, але іноді основу роблять змінною, в разі чого записуючи основу як , коефіцієнт β можливо інтерпретувати як холодність[en].[c] Логарифм відношення правдоподібностей дорівнює різниці логарифмічних правдоподібностей: Точно як і правдоподібність, що за відсутності події є 1, логарифмічною правдоподібністю за відсутності події є 0, що відповідає значенню нульової суми: без бодай якихось даних не існує підтримки для жодної моделі. Рівняння правдоподібностіЯкщо функція логарифмічної правдоподібності є гладкою, то її градієнт відносно параметра, відомий як внесок і записуваний як , існує й дозволяє застосовувати диференціальне числення. Базовим способом максимізувати диференційовну функцію є знаходити стаціонарні точки (такі, де її похідна є нульовою). Оскільки похідна суми є просто сумою похідних, а похідна добутку вимагає правила добутку, простіше обчислювати стаціонарні точки логарифмічної правдоподібності окремих подій, ніж правдоподібності окремих подій. Рівняння, що визначає стаціонарна точка функції внеску, слугують оцінними рівняннями[en] для оцінювача максимальною правдоподібністю. В цьому сенсі оцінювач максимальною правдоподібністю неявно визначається значенням в оберненої функції , де є d-вимірним евклідовим простором. Шляхом застосування теореми про обернену функцію можливо показати, що є однозначно означеною[en] у відкритому околі[en] навколо з імовірністю, що прямує до одиниці, а є слушною оцінкою . Як наслідок, існує така послідовність , що асимптотично майже напевно, і .[35] Аналогічний результат можливо встановити, застосувавши теорему Ролля.[36][37] Друга похідна, обчислювана в , відома як інформація за Фішером, визначає кривину поверхні правдоподібності,[38] і відтак показуючи прецизійність[en] оцінки.[39] Експоненційні сімействаДетальніші відомості з цієї теми ви можете знайти в статті Експоненційне сімейство[en]. Логарифмічна правдоподібність є також надзвичайно корисною для експоненційних сімейств[en] розподілів, до яких можуть входити багато поширених параметричних розподілів імовірностей[en]. Функція розподілу ймовірності (й відтак функція правдоподібності) для експоненційних сімейств містить добутки множників, що містять піднесення до степеня. Логарифм такої функції є сумою добутків, знов-таки простішою для диференціювання за первинну функцію. Експоненційне сімейство — це таке, чия функція густини ймовірності має вигляд (для деяких функцій, із позначенням через внутрішнього добутку): Кожен із цих членів має інтерпретацію,[d] але простий перехід від імовірності до правдоподібності та взяття логарифмів дає суму та відповідають зміні координат, тож у цих координатах логарифмічна правдоподібність експоненційного сімейства задається простою формулою Словами, логарифмічна правдоподібність експоненційного сімейства є внутрішнім добутком природного параметра та достатньої статистики , мінус коефіцієнт унормування (логарифмічна статистична сума[en]) . Таким чином, наприклад, оцінку максимальною правдоподібністю може бути обчислено взяттям похідних достатньої статистики T та логарифмічної статистичної суми A. Приклад: гамма-розподілГамма-розподіл — це експоненційне сімейство з двома параметрами, та . Його функцією правдоподібності є Знаходження оцінки максимальної правдоподібності для єдиного спостережуваного значення виглядає дещо складним. З його логарифмом працювати набагато простіше: Щоби максимізувати логарифмічну правдоподібність, ми спершу беремо часткову похідну за : Якщо є ряд незалежних спостережень , то спільною логарифмічною правдоподібністю буде сума окремих логарифмічних правдоподібностей, а похідною цієї суми буде сума похідних всіх окремих логарифмічних правдоподібностей: Щоби завершити процедуру максимізування для спільної логарифмічної правдоподібності, це рівняння встановлюють в нуль, і розв'язують для : Тут позначує оцінку максимальною правдоподібністю, а є вибірковим середнім спостережень. Походження та інтерпретаціяІсторичні зауваженняДетальніші відомості з цієї теми ви можете знайти в статті Історія статистики[en] та Історія теорії ймовірності. Термін англ. likelihood (правдоподібність) був у вжитку в англійській щонайменше з середньоанглійської.[40] Його формальне застосування для позначення конкретної функції в математичній статистиці було запропоновано Рональдом Фішером[41] у двох дослідницьких працях, опублікованих 1921[42] та 1922[43] року. Праця 1921 року запровадила те, що тепер називають «проміжком правдоподібності». Праця 1922 року запровадила термін «метод максимальної правдоподібності». Цитуючи Фішера,
Поняття правдоподібності не слід плутати з імовірністю, як зазначено сером Рональдом Фішером,
Фішерове винайдення статистичної правдоподібності було реакцією на раніший вид міркування, званий оберненою ймовірністю[en].[46] Його застосування терміну «правдоподібність» зафіксувало значення цього терміну в межах математичної статистики. Е. В. Ф. Едвардс[en] (1972) заклав аксіоматичну основу для застосування логарифмічного відношення правдоподібностей як міри відносної підтри́мки (англ. support) однієї гіпотези проти іншої. Фу́нкцією підтри́мки (англ. support function) в такому разі є натуральний логарифм функції правдоподібності. Обидва терміни застосовують у філогенетиці, але їх не були прийнято в загальному трактуванні теми статистичних даних.[47] Інтерпретації за різних засадСеред статистиків нема єдиної думки про те, якими повинні бути засади статистики[en]. Існує чотири головні парадигми, які було запропоновано як засади: частотництво, баєсівство, правдоподібництво, та на основі ІКА.[6] Для кожних із цих запропонованих засад інтерпретація правдоподібності є різною. Ці чотири інтерпретації описано в підрозділах нижче. Частотницька інтерпретація
Баєсова інтерпретаціяУ баєсовім висновуванні, хоча й можливо говорити про правдоподібність будь-якого висловлення чи випадкової змінної за заданої іншої випадкової змінної, наприклад, про правдоподібність значення параметра чи статистичної моделі (див. відособлену правдоподібність) за заданих даних або іншого свідчення,[48][49][50][51] функція правдоподібності залишається тією ж сутністю з додатковими інтерпретаціями (i) умовної густини ймовірності даних за заданого параметра (оскільки параметр тоді є випадковою змінною), та (ii) міри кількості інформації, що несуть дані про значення параметра або навіть про модель.[48][49][50][51][52] Внаслідок введення ймовірнісної структури на просторі параметрів або сукупності моделей є можливим, щоби значення параметра або статистична модель мали велике значення правдоподібності для заданих даних, але в той же час низьку ймовірність, і навпаки.[50][52] Таке часто трапляється в контексті медицини.[53] Згідно правила Баєса, правдоподібність, коли розглядати її як умовну густину, можливо множини на густину апріорної ймовірності параметра й потім унормовувати, щоби отримувати густину апостеріорної ймовірності.[48][49][50][51][52] Загальніше, правдоподібність невідомої величини за заданої іншої невідомої величини є пропорційною до ймовірності за заданої .[48][49][50][51][52] Правдоподібницька інтерпретація
У частотницькій статистиці функція правдоподібності сама по собі є статистикою, яка узагальнює окремий зразок із сукупності, й чиє обчислюване значення залежить від вибору декількох параметрів θ1... θp, де p є кількістю параметрів у якійсь вже обраній статистичній моделі. Значення правдоподібності слугує критерієм якості для вибору, зробленого для параметрів, і набір параметрів з максимальною правдоподібністю є найкращим вибором за доступних даних. Конкретним розрахунком правдоподібності є ймовірність того, що буде призначено саме спостережуваний зразок, за припущення, що обрана модель та значення цих декількох параметрів θ дають точне наближення частотного розподілу сукупності, з якої було витягнуто цей спостережуваний зразок. Евристично має сенс, що добрим вибором параметрів є той, який видає для фактично спостережуваного зразка максимально можливу апостеріорну (лат. post-hoc) ймовірність трапляння. Теорема Уїлкса визначає це евристичне правило кількісно, показуючи, що різниця між логарифмом правдоподібності, породженим значеннями параметрів оцінки, та логарифмом правдоподібності, породженим «істинними» (але невідомими) значеннями параметрів сукупності, має розподіл χ². Оцінка максимальною правдоподібністю кожного незалежного зразка є окремою оцінкою «істинного» набору параметрів, що описує сукупність, з якої роблять вибірку. Послідовні оцінки від багатьох незалежних зразків гуртуватимуться разом з «істинним» набором значень параметрів сукупності, прихованим десь поміж них. Різницю між логарифмами максимальної правдоподібності та правдоподібностей суміжних наборів параметрів можна використовувати для малювання довірчої області[en] на графіку, чиїми координатами є параметри θ1... θp. Ця область оточує оцінку максимальною правдоподібністю, і всі точки (набори параметрів) всередині цієї області відрізняються в логарифмічній правдоподібності щонайбільше на якесь встановлене значення. Розподіл χ², заданий теоремою Уїлкса, перетворює різниці логарифмічних правдоподібностей цієї області у «рівень довіри» до того, що «істинний» набір параметрів сукупності лежить всередині. Мистецтво обирання цієї встановленої різниці логарифмічних правдоподібностей полягає в тім, щоби робити рівень довіри прийнятно високим, в той же час тримаючи область прийнятно малою (вузька область оцінок). В процесі спостерігання додаткових даних, замість використовувати їх для здійснення незалежних оцінок, їх можливо поєднувати з попередніми зразками в єдину об'єднану вибірку, і цю велику вибірку можливо використовувати для нової оцінки максимальною правдоподібністю. Зі збільшенням розміру цієї об'єднаної вибірки розмір області правдоподібності з таким же рівнем довіри скорочується. Врешті-решт, або розмір довірчої області стане майже єдиною точкою, або буде вибрано всю сукупність. В обох випадках, оцінений набір параметрів буде по суті таким же, як і набір параметрів сукупності. Інтерпретація на основі ІКА
У парадигмі ІКА правдоподібність інтерпретують у контексті теорії інформації.[54][55][56] Див. також
Зауваження
Примітки
Література
Посилання
|