У статистиці функція втрат, як правило, використовується для оцінювання параметрів, а подія, яка розглядається, є певною функцією відмінності між розрахунковими та істинними значеннями для зразка даних. Це поняття, старе як Лаплас, було повторно введено до статистики Абрахамом Валдом в середині XX століття.[1] В контексті економіки, наприклад, воно зазвичай є економічною вартістю[en] або смутком. У класифікації воно є штрафом за неправильну класифікацію прикладу. В актуарній науці воно використовується в контексті страхування для моделювання виплат над страховими преміями, особливо з часів праць Гаральда Крамера[en] 1920-х років.[2] В оптимальному керуванні втрати є штрафом за невдачу в досягненні бажаного значення. В управлінні фінансовими ризиками ця функція точно відображається на грошові втрати.
Оцінювання параметрів для задач керованого навчання, таких як регресія або класифікація, може бути сформульовано як мінімізацію функції втрат над тренувальним набором. Метою оцінювання є знаходження функції, яка добре моделює свій вхід: при застосуванні її до тренувального набору вона повинна передбачати значення (або мітки класів), пов'язані зі зразками в цьому наборі. Функція втрат здійснює чисельну оцінку величини, на яку передбачення відхиляється від дійсних значень.
Визначення
Формально, ми починаємо з розгляду деякого сімейства розподілів для випадкової величиниX, проіндексованого деякою θ.
Інтуїтивно, ми можемо розглядати X як наші «дані», можливо, , де є НОР. X є набором речей, про які правило вирішування[en] ухвалюватиме рішення. Існує якесь число можливих шляхів моделювання наших даних X, які наша функція рішення може використовувати для ухвалення рішень. При скінченному числі моделей ми можемо розглядати θ як індекс у цьому сімействі ймовірнісних моделей. При нескінченному числі моделей вона є набором параметрів цього сімейства розподілів.
На практиці, важливо розуміти, що хоча й заманливо думати про функції втрат як про обов'язково параметричні (оскільки здається, що вони приймають θ як «параметр»), факт нескінченної вимірності θ цілком несумісний з цим записом; наприклад, якщо сімейство функцій імовірності є незліченно нескінченним, то θ індексує незліченно нескінченний простір.
Фу́нкція втрат є дійснозначною обмеженою знизу функцією L на Θ × A для деякого θ ∈ Θ. Значення L(θ, δ(X)) є витратами на дію δ(X) за параметра θ.[3]
Очікувані втрати
Значення функції втрат само по собі є випадковою величиною, оскільки воно залежить від виходу випадкової величини X. Як частотна, так і баєсова статистичні теорії включають здійснення рішень на основі математичного сподівання функції втрат: проте, ця величина за цих двох парадигм визначається по-різному.
Частотні очікувані втрати
Спочатку ми визначаємо очікувані втрати в частотному контексті. Вони отримуються взяттям математичного сподівання по відношенню до розподілу ймовірності Pθ спостережуваних даних X. Це також називають фу́нкцією ри́зику (англ.risk function)[4][5][6][7] правила вирішування δ та параметру θ. Тут правило вирішування залежить від виходу X. Функція ризику задається як
Тут θ є фіксованим але можливо невідомим станом природи, X є вектором спостережень, які стохастично вибираються з генеральної сукупності, є математичним сподіванням над всіма значеннями генеральної сукупності X, dPθ є мірою ймовірності над простором подій X (параметризованою за θ), а інтеграл обчислюється над усім носієм[en]X.
Баєсові очікувані втрати
У баєсовому підході це математичне сподівання обчислюється із застосуванням апостеріорного розподілуπ* параметра θ:
.
Потім потрібно обрати дію a*, яка мінімізує очікувані втрати. І хоча це й призведе в результаті до обрання тієї ж дії, яку було би обрано і з застосуванням частотного ризику, акцент баєсового підходу полягає в тому, що цікавить лише обрання оптимальної дії за фактичних спостережуваних даних, тоді як обрання фактичного частотного оптимального правила вирішування, яке є функцією від усіх можливих спостережень, є значно складнішою задачею.
Економічний вибір за непевності
В економіці ухвалення рішень за умов непевності часто моделюють із застосуванням функції корисності фон Неймана — Морґенштерна від непевної величини, яка становить інтерес, такої як багатство на кінець періоду. Оскільки значення цієї величини є непевним, таким є й значення функції корисності; це математичне сподівання корисності, яке максимізують.
Приклади
Для скалярного параметру θ, функції вирішування, чий вихід є оцінкою θ, та квадратичної функції втрат
Правило вирішування здійснює вибір, використовуючи критерій оптимальності. Деякими часто використовуваними критеріями є:
Мініма́кс: Обирати правило вирішування з найнижчими найгіршими втратами — тобто, мінімізувати втрати в найгіршому випадку (максимально можливі):
Інваріа́нтність[en]: Обирати оптимальне правило вирішування, яке задовольняє вимогу інваріантності.
Обирати правило вирішування з найнижчими усередненими втратами (тобто, максимізувати математичне сподівання функції втрат):
Вибір функції втрат
Правильна статистична практика вимагає вибирання оцінки відповідно до фактичної прийнятної дисперсії, напрактикованої в контексті конкретної прикладної задачі. Таким чином, в прикладному застосуванні функцій втрат вибирання того, який статистичний метод використовувати для моделювання прикладної задачі, залежить від знання втрат, з якими доведеться стикнутися в разі помилки за конкретних обставин задачі.[8]
Типовий приклад стосується оцінювання «положення». За типових статистичних припущень середнє або усереднене значення — це статистика для оцінювання положення, яка мінімізує очікувані втрати, що виникають за функції втрат квадратичної похибки, тоді як медіана є оцінювачем, який мінімізує очікувані втрати за функції втрат абсолютної різниці. Проте за інших, менш поширених обставин оптимальними будуть інші оцінювачі.
В економіці, коли агент є байдужим до ризику[en], цільова функція виражається просто в грошовому вираженні, такому як прибуток, дохід або багатство на кінець періоду.
Для більшості алгоритмів оптимізації бажано мати таку функцію втрат, яка є всюди неперервною та диференційовною.
Двома дуже часто застосовуваними функціями втрат є квадратичні втрати та абсолютні втрати. Проте абсолютні втрати мають той недолік, що вони не диференційовні в . Квадратичні ж втрати мають той недолік, що в них є схильність віддавати перевагу викидам — при підсумовуванні над множиною (як у ) остаточна сума схильна бути радше результатом декількох особливо великих значень , аніж вираженням усередненого значення .
Вибір функції втрат не є довільним. Він має дуже обмежувальний характер, а іноді функції втрат можуть зображуватися їхніми бажаними властивостями.[9] Серед принципів вибору є, наприклад, вимога повноти класу симетричних статистик у випадку НОР спостережень, принцип повної інформації та деякі інші.
Функції втрат у баєсовій статистиці
Одним із наслідків баєсового висновування є те, що, на додачу до експериментальних даних, функція втрат сама по собі не визначає рішення повністю. Що важливе, так це взаємозв'язок між функцією втрат та апостеріорною ймовірністю. Тому можливо мати дві різні функції втрат, які ведуть до одного й того ж рішення, коли апріорні розподіли ймовірності, пов'язані з кожною, компенсують тонкощі кожної з функцій втрат.[джерело?]
Севідж також стверджував, що при застосуванні небаєсових методів, таких як мінімакс, функція втрат повинна ґрунтуватися на ідеї смутку (англ.regret), тобто, втрати, пов'язані з рішенням, повинні бути різницею між наслідками найкращого рішення, яке могло би бути зроблено, якби обставини для його обґрунтування були відомими, та рішення, яке в дійсності було зроблено, перш ніж вони стали відомими.
Квадратична функція втрат
Застосування квадратичної функції втрат є поширеним, наприклад, при застосуванні методів найменших квадратів. Вона часто краще піддається математичній обробці, ніж інші функції втрат, завдяки властивостям дисперсій, а також завдяки своїй симетричності: похибка перевищення цілі спричиняє такі ж втрати, як і похибка такої ж величини недотягування до цілі. Якщо ціллю є t, то квадратичною функцією втрат є
для деякої сталої C; значення цієї сталої не впливає на рішення, і може бути знехтуване встановленням його в 1.
↑Pfanzagl, J. (1994). Parametric Statistical Theory. Berlin: Walter de Gruyter. ISBN3-11-013863-8. (англ.)
↑Докладну інформацію про математичні принципи вибору функції втрат наведено в главі 2 книги Klebanov, B.; Rachev, Svetlozat T.; Fabozzi, Frank J. (2009). Robust and Non-Robust Models in Statistics. New York: Nova Scientific Publishers, Inc. (та в посиланнях з неї). (англ.)