Наприклад, сімейство Гаусса є спряженим до себе (або самосопряженим) відносно функції правдоподібності Гаусса: якщо функція правдоподібності є Гауссівською, вибір гауссового апріору на противагу простому середньому значенню гарантує, що постеріорний розподіл буде також Гауссівським. Це означає, що розподіл Гауса є спряженим апріором для Гаусівської функції правдоподібности.
Поняття, а також термін "спряжений апріор" запроваджено Говардом Райффою та Робертом Шлайфером в їхній роботі з Баєсівської теорії прийняття рішень[1]. Подібну концепцію незалежно описав Джордж Альфред Барнард[2].
Розглянемо загальну задачу виведення (неперервного) розподілу параметра θ з урахуванням деякого даного чи даних x . За теоремою Баєса постеріорний розподіл дорівнює добутку функції правдоподібності і апраіорного розподілу , нормованого ймовірністю даних :
Зафіксуємо функцію правдоподібності; функція правдоподібності, як правило, добре визначається на основі запису про твірний процес даних. Зрозуміло, що різні варіанти попереднього розподілу p ( θ ) можуть ускладнити обчислення інтегралу, а добуток p ( x | θ ) × p ( θ ) може приймати ту чи іншу алгебраїчну форму. Для певного вибору пріоритета, задній має ту саму алгебраїчну форму, що і пріоритет (як правило, з різними значеннями параметрів). Такий вибір є спряженим пріоритетом .
Спряжений апріор використовують для алгебричної зручности, за його допомогою можна отримати формулу для постеріорного розподілу; без нього може знадобитися чисельне інтегрування. Далі, спряжені апріори можуть давати інтуїтивне трактування, більш прозоро показуючи, як функція правдоподібності оновлює апріорний розподіл.
Усі члени експоненційної сім'ї мають спряжені апріори[3].
Звичайним спряженим апріором такої функції є функція ймовірності бета-розподілу з параметрами ( , ):
де і вибираються для відображення будь-яких наявних переконань чи інформації ( = 1 і = 1 дасть рівномірний розподіл ) і Β ( , ) — бета-функція, яка діє як нормалізуюча константа .
У цьому контексті, і називаються гіперпараметрами (параметрами апріора), щоб відрізнити їх від параметрів базової моделі (тут q). Типовою характеристикою спряжених апріорів є те, що розмірність гіперпараметрів на одиницю більша, ніж розмірність параметрів вихідного розподілу. Якщо всі параметри є скалярними значеннями, то це означає, що буде на один гіперпараметр більше, ніж параметр; але це також стосується параметрів із векторними та матричними значеннями. (Див. загальну статтю про експоненційну сім’ю, а також розглянемо розподіл Вішарта, спряжений апріор коваріаційної матрицібагатовимірного нормального розподілу, для прикладу, коли маємо справу з великою розмірністю).
Якщо ми потім виберемо цю випадкову величину і отримаємо s успіхів і f невдач, ми маємо
тобто ще один бета-розподіл з параметрами ( + s, + f ). Цей апостеріорний розподіл можна було б використовувати як апріор для більшої кількості вибірок, при цьому гіперпараметри просто щоразу додають додаткову порцію інформації щойно вона надходить.
Псевдоспостереження
Часто корисно вважати гіперпараметри спряженого апріора розподілу як відповідні спостереженню певної кількості псевдоспостережень із властивостями, заданими параметрами. Наприклад, значення і бета-розподілу можна вважати відповідним успіхам і невдачам, якщо постеріорний режим використовується для вибору оптимального параметра, або успіхів і невдач, якщо для вибору оптимального параметра використовується постеріорне середнє значенняя. Загалом, для майже всіх спряжених апріорів розподілів гіперпараметри можна інтерпретувати в термінах псевдоспостережень. Це може допомогти як в інтуїтивному трактуванні часто заплутаних оновлень рівняннянь, так і для вибору розумних гіперпараметрів для апріора.
Інтерпретації
Аналогія з власними функціями
Спряжені апріори аналогічні власним функціям в теорії операторів, оскільки вони є розподілами, на які «оператор зумовлення» діє зрозумілим чином. Для цього треба розглянути процес перетворення апріорного в апостеріорний розподіл як оператор.
І у випадку власних функцій, і у випадку спряжених апріорів скінченновимірні простори зберігаються при дії оператора: результат виражається тією ж формою (в тому самому просторі), що й вхідні дані. Це значно спрощує аналіз, оскільки в іншому випадку матимемо справу з нескінченновимірним простором (усіх функцій, чи усіх розподілів).
А проте процеси лише аналогічні, не ідентичні: оператор зумовлення не лінійний, оскільки простір розподілів не замкнений відносто лінійної комбінації, а тільки відносно опуклою комбінацією, а апостеріор має лише ту саму форму, що й апріор, але не є його лінійним перетворенням.
Подібно до того, як можна побачити, як виявляється лінійна комбінація власних функцій при застосуванні оператора (оскільки щодо цих функцій оператор діагоналізований), можна легко проаналізувати, як опукла комбінація спряжених апріорів розвивається в зумовности; це називається використання гіпер-апріорного і є відповідником використання щільності суміші спряжених апріорів, а не одного спряженого апріора.
Динамічна система
Можна розглядати умовність спряжених апріорів як задання певного роду (в дискретному часі) динамічної системи: із заданого набору гіперпараметрів вхідні дані оновлюють ці гіперпараметри, тож можна розглядати зміну гіперпараметрів як свого роду «еволюцію в часі» системи, яку можна вважати «навчанням». Різні початкові умови спричинюються до різних траєкторій. Знову ж таки таке трактування аналогічне динамічній системі, визначеній лінійним оператором, однак зауважте, що оскільки різні вибірки призводять до різних результатів, тут маємо не просто залежність від часу, а скоріше від потоку даних у часі. Для пов’язаних підходів див. Рекурсивна байєсівська оцінка та Засвоєння даних .
Практичний приклад
Припустимо, у вашому місті працює служба прокату автомобілів. Водії можуть залишати та брати автомобілі в будь-якому місці в межах міста. Ви можете знайти та орендувати авто за допомогою програми.
Припустимо, ви хочете знайти ймовірність того, що ви зможете знайти авто для оренди на невеликій відстані від вашої домашньої адреси в будь-який час доби.
Протягом трьох днів ви переглядаєте додаток і знаходите таку кількість автомобілів на невеликій відстані від вашої домашньої адреси:
Якщо ми припустимо, що дані отримані з розподілу Пуассона, ми можемо обчислити оцінку максимальної правдоподібності параметра моделі Використовуючи цю оцінку максимальної ймовірності, ми можемо обчислити ймовірність того, що в певний день буде принаймні один автомобіль:
Цей розподіл Пуассона, який, скоріш за все, породив бачені нами дані . Але дані також могли бути отримані з іншого розподілу Пуассона, наприклад, з , або , тощо Насправді існує нескінченна кількість розподілів Пуассона, які могли б генерувати спостережувані дані, і з відносно невеликою кількістю спостережень ми не можемо бути досить впевнені щодо того, який саме розподіл Пуассона згенерував ці дані. Інтуїтивно ми повинні замість цього взяти середнє зважене значення ймовірності для кожного з цих розподілів Пуассона, зважених значенням того наскільки вони ймовірні, враховуючи дані, які ми спостерігали .
Як правило, ця величина відома як апостеріорний прогнозний розподіл де це нова точка даних, є спостережуваними даними і є параметрами моделі. Використовуючи теорему Баєса, можна розширити тому Як правило, цей інтеграл важко обчислити. Однак, якщо ви виберете спряжений апріорний розподіл , можна отримати явну формулу. Її можна знайти в останньому стовпці в таблицях нижче.
Повертаючись до нашого прикладу, якщо виберемо гамма-розподіл як наш апріорний розподіл параметра в розподілі Пуассона, то постеріорним розподілом для передбачення буде негативний біноміальний розподіл, як видно з останнього стовпця таблиці нижче. Гамма-розподіл параметризується двома гіперпараметрами які ми маємо вибрати. Зважаючи на графіки гамма-розподілу, вибираємо , що, видається обґрунтованим апріором для середньої кількості автівок. Вибір апріорних гіперпараметрів за своєю суттю є суб’єктивним і заснований на попередніх знаннях і досвіді.
Враховуючи апріорні гіперпараметри і ми можемо обчислити постеріорні гіперпараметри і
Враховуючи постеріорні гіперпараметри, ми можемо нарешті обчислити апостеріорний прогноз
Ця набагато більш консервативна оцінка відображає невизначеність параметрів моделі, яку враховує постеріорний прогноз.
Таблиця спряжених розподілів
Нехай n - кількість спостережень. У всіх нижченаведених випадках передбачається, що дані складаються з n точок (які будуть випадковими векторами у багатовимірних випадках).
Якщо функція правдоподібності належить експоненціальному сімейству, то спряжений апріор існує, часто також з експоненціального сімейства.
Коли функція правдоподібності є дискретним розподілом
mean was estimated from observations with sample mean ; covariance matrix was estimated from observations with sample mean and with sum of pairwise deviation products
mean was estimated from observations with sample mean ; covariance matrix was estimated from observations with sample mean and with sum of pairwise deviation products
Same as for the normal distribution after applying the natural logarithm to the data for the posterior hyperparameters. Please refer to page 21 and 22 [4] to see the details.
↑ абПозначається тими ж символами що й апріорні гіперпараметри з апострофами('). Наприклад позначається
↑Це постеріорний прогнозний розподіл нової точки зумовлений спостереженими точками (наявною інформацією), що мають парпметри граничного розподілу. Змінні з апострофами позначають постеріорні значення параметрів.
↑ абвгдежТочна інтерпретація параметрів бета-розподілу з точки зору кількості успіхів і невдач залежить від того, яка функція використовується для отримання точкової оцінки з розподілу. Матсподівання бета-розподілу обчислюється як що відповідає успіхам і невдачам, тоді як його мода дорівнює що відповідає успіхам і невдачам. У Баєсівських обчисленнях точкових оцінок віддають перевагу постеріорному матсподіванню перед постеріорною модою, ґрунтуючись на квадратичній функції втрат, до того ж використання і математично зручніше, тоді як перевагою використання і є те, що рівномірний апріор відповідає випадку коли маємо 0 успіхів і 0 невдач. Аналогічні міркування мають місце при використанні розподілу Діріхле.
↑β темп зміни чи обернений до параметра масштабу. В параметризації Гамма-розподіл, θ = 1/β і k = α.
↑Howard Raiffa and Robert Schlaifer. Applied Statistical Decision Theory. Division of Research, Graduate School of Business Administration, Harvard University, 1961.
↑For a catalog, see Gelman, Andrew; Carlin, John B.; Stern, Hal S.; Rubin, Donald B. (2003). Bayesian Data Analysis (вид. 2nd). CRC Press. ISBN1-58488-388-X.