F-міра

Про критерій значущості див. F-тест.

В статистичнім аналізі бінарної класифікації, F-міра (англ. F-score, F-measure) — це одна з мір точності тесту. Її обчислюють через влучність та повноту тесту, де влучність є числом правильно визначених позитивних результатів, поділеним на число всіх позитивних результатів, включно з визначеними неправильно, а повнота є числом правильно визначених позитивних результатів, поділеним на число всіх зразків, які повинно було бути визначено як позитивні.^[1]

Міра F₁ є середнім гармонійним цих влучності та повноти.^[2] Загальніша міра F_β застосовує додаткові ваги, оцінюючи або влучність, або повноту вище за іншу.

Найвищим можливим значенням F-міри є 1, що вказує на ідеальні влучність та повноту, а найнижчим можливим значенням є 0, якщо або влучність, або повнота є нульовими. Міра F₁ є також відомою як індекс Соренсена, та коефіцієнт подібності Дайса (англ. Dice similarity coefficient, DSC).^{[джерело?]}

Етимологія

Вважають, що назву F-міри вона отримала на честь іншої F-функції з книги ван Рійсберґена, коли її було представлено та четвертій Конференції з розуміння повідомлень^[en] (англ. Fourth Message Understanding Conference, MUC-4, 1992).^[3]

Визначення

Традиційна F-міра, або збалансована F-оцінка (міра F₁) є середнім гармонійним влучності та повноти:

F₁ = 2повнота^-1 + влучність^-1 = 2 · влучність · повнотавлучність + повнота = ІПІП + 12(ХП + ХН).

F_β

Загальнішою F-мірою, F_β, що використовує додатний дійснозначний коефіцієнт β, де β обирають так, що повноту вважають у β разів важливішою за влучність, є

F_β = (1 + β²) · влучність · повнота(β² · влучність) + повнота

В термінах помилок першого і другого роду це стає:

F_β = (1 + β²) · істинно позитивні(1 + β²) · істинно позитивні + β² · хибно негативні + хибно позитивні

Двома широко вживаними значеннями β є 2, яке надає повноті більшої ваги, ніж влучності, та 0,5, яке надає повноті меншої ваги, ніж влучності.

F-міру було виведено таким чином, що F_β «вимірює ефективність пошуку з урахуванням користувача, який надає в β разів вищої важливості повноті, ніж влучності».^[4] Вона ґрунтується на мірі ефективності ван Рійсберґена^[en]

E = 1 − (αв + 1 − αп)⁻¹

Вони є взаємопов'язаними як F_β = 1 − E, де α = 1/1 + β².

Діагностичне дослідження

Воно пов'язане з галуззю бінарної класифікації, де повноту часто називають «чутливістю».

		Справжній стан
	загальна сукупність	позитивний стан	негативний стан	поширеність = Σ позитивних станів/Σ загальної сукупності	точність = Σ істинно позитивних + Σ істинно негативних/Σ загальної сукупності
Прогнозований стан	позитивний прогнозований стан	істинно позитивний	хибно позитивний, помилка I роду	прогностична значущість позитивного результату (ПЗ+), влучність = Σ істинно позитивних/Σ позитивних прогнозованих станів	рівень хибного виявляння^[en] (РХВ) = Σ хибно позитивних/Σ позитивних прогнозованих станів
	негативний прогнозований стан	хибно негативний, помилка II роду	істинно негативний	рівень хибного пропускання (РХП) = Σ хибно негативних/Σ негативних прогнозованих станів	прогностична значущість негативного результату (ПЗ-) = Σ істинно негативних/Σ негативних прогнозованих станів
		істиннопозитивний рівень (ІПР), повнота, чутливість, ймовірність виявлення, потужність = Σ істинно позитивних/Σ позитивних станів	хибнопозитивний рівень (ХПР), побічний продукт, ймовірність хибної тривоги = Σ хибно позитивних/Σ негативних станів	відношення правдоподібності позитивного результату (ВП+) = ІПР/ХПР	діагностичне відношення шансів (ДВШ) = ВП+/ВП−	міра F₁ = 2 · влучність · повнота/влучність + повнота
		хибнонегативний рівень (ХНР), коефіцієнт невлучання = Σ хибно негативних/Σ позитивних станів	специфічність, вибірність, істиннонегативний рівень (ІНР) = Σ істинно негативних/Σ негативних станів	відношення правдоподібності негативного результату (ВП-) = ХНР/ІНР

Застосування

F-міру часто використовують в галузі інформаційного пошуку для вимірювання продуктивності пошуку, класифікації документів, та класифікації запитів^[en].^[5] Ранні праці зосереджувалися переважно на мірі F₁, але з поширенням великомасштабних пошукових рушіїв цілі продуктивності змінилися на акцентування більшої уваги або на влучності, або на повноті,^[6] тож F_β помітно у широкому вжитку.

F-міру також використовують у машиннім навчанні.^[7] Проте, F-міри не беруть до уваги істинно негативних, тож для оцінювання продуктивності бінарного класифікатора можуть віддавати перевагу коефіцієнтові кореляції Меттьюза^[en] чи каппі Коена^[en].^[8]

F-міра знайшла широкий вжиток в літературі з обробки природних мов,^[9] наприклад, при оцінюванні розпізнавання іменованих сутностей та поділу на слова^[en].

Критика

Девід Генд^[en] та інші критикують широке використання міри F₁, оскільки вона надає однакової важливості влучності та повноті. На практиці, різні типи помилкової класифікації призводять до різних втрат. Іншими словами, відносна важливість влучності та повноти є одним із аспектів задачі.^[10]

Згідно Давіде Чікко та Джузеппе Журмана, міра F₁ є менш правдивою та інформативною для класифікації бінарного оцінювання, ніж коефіцієнт кореляції Меттьюза^[en] (ККМ, англ. Matthews correlation coefficient, MCC).^[11]

Девід Пауерс вказав, що F₁ ігнорує істинно негативні, й відтак є оманливою для незбалансованих класів, тоді як міри каппа та кореляції є симетричними, й оцінюють обидва напрямки передбачуваності — класифікатор, що передбачує істинний клас, та істинний клас, що передбачує передбачення класифікатора, пропонуючи окремі багатокласові міри поінформованості^[en] та маркованості^[en] для цих двох напрямків, зазначаючи, що їхнє середнє геометричне є кореляцією.^[12]

Відмінність від індексу Фаулкса — Меттьюза

В той час як F-міра є середнім гармонійним повноти та влучності, індекс Фаулкса — Меттьюза^[en] є їхнім середнім геометричним.^[13]

Розширення до багатокласової класифікації

F-міру також використовують для оцінювання задач із понад двома класами (багатокласова класифікація^[en]). В цій постановці остаточну міру отримують мікроусереднюванням (з упередженням за частотою класів) або макроусереднюванням (беручи всі класи однаково важливими). Для макроусереднювання застосовувачі використовувати дві різні формули: F-міру (арифметичних) середніх влучності та повноти по всіх класах, та арифметичне середнє F-мір по всіх класах, серед яких крайня виявляє бажаніші властивості.^[14]

Див. також

Матриця невідповідностей
METEOR
BLEU^[en]
NIST (метрика)^[en]
Робоча характеристика приймача
ROUGE (метрика)^[en]
Коефіцієнт невизначеності^[en], відомий також як вправність (англ. proficiency)
Частота помилкових слів^[en]

Примітки

↑ Гущин, І. В.; Сич, Д. О. (жовтень 2018). Аналіз впливу попередньої обробки тексту на результати текстової класифікації (PDF). Молодий вчений. Харківський національний університет імені В.Н. Каразіна. 10 (62): 264—266. Архів оригіналу (PDF) за 27 вересня 2020. Процитовано 4 жовтня 2020.
↑ Alguliyev, R. M.; Aliguliyev, R. M.; Imamverdiyev, Y. N.; Sukhostat, L. V. (2018). An improved ensemble approach for dos attacks detection. Радіоелектроніка, інформатика, управління. 2: 73—82.
↑ Sasaki, Y. (2007). The truth of the F-measure (PDF). Архів оригіналу (PDF) за 23 вересня 2020. Процитовано 4 жовтня 2020. (англ.)
↑ Van Rijsbergen, C. J. (1979). Information Retrieval (вид. 2nd). Butterworth-Heinemann. Архів оригіналу за 6 квітня 2005. Процитовано 4 жовтня 2020. (англ.)
↑ Beitzel., Steven M. (2006). On Understanding and Classifying Web Queries (Дипломна робота Ph.D.). IIT. CiteSeerX 10.1.1.127.634. (англ.)
↑ X. Li; Y.-Y. Wang; A. Acero (July 2008). Learning query intent from regularized click graphs. Proceedings of the 31st SIGIR Conference. doi:10.1145/1390334.1390393. S2CID 8482989. (англ.)
↑ Див., наприклад, оцінку [1]. (англ.)
↑ Powers, David M. W (2015). What the F-measure doesn't measure. arXiv:1503.06410 [cs.IR]. (англ.)
↑ Derczynski, L. (2016). Complementarity, F-score, and NLP Evaluation. Proceedings of the International Conference on Language Resources and Evaluation. Архів оригіналу за 8 березня 2021. Процитовано 4 жовтня 2020. (англ.)
↑ Hand, David. A note on using the F-measure for evaluating record linkage algorithms - Dimensions. app.dimensions.ai (англ.). doi:10.1007/s11222-017-9746-6. hdl:10044/1/46235. S2CID 38782128. Архів оригіналу за 9 жовтня 2020. Процитовано 8 грудня 2018. (англ.)
↑ Chicco D, Jurman G (January 2020). The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation. BMC Genomics. 21 (6): 6. doi:10.1186/s12864-019-6413-7. PMC 6941312. PMID 31898477.{{cite journal}}: Обслуговування CS1: Сторінки із непозначеним DOI з безкоштовним доступом (посилання) (англ.)
↑ Powers, David M W (2011). Evaluation: From Precision, Recall and F-Score to ROC, Informedness, Markedness & Correlation. Journal of Machine Learning Technologies. 2 (1): 37—63. hdl:2328/27165. (англ.)
↑ Tharwat A (August 2018). Classification assessment methods. Applied Computing and Informatics (ahead-of-print). doi:10.1016/j.aci.2018.08.003. (англ.)
↑ J. Opitz; S. Burst (2019). Macro F1 and Macro F1. arXiv:1911.03347 [stat.ML]. (англ.)

[ГущинСич2018-1] Гущин, І. В.; Сич, Д. О. (жовтень 2018). Аналіз впливу попередньої обробки тексту на результати текстової класифікації (PDF). Молодий вчений. Харківський національний університет імені В.Н. Каразіна. 10 (62): 264—266. Архів оригіналу (PDF) за 27 вересня 2020. Процитовано 4 жовтня 2020.

[2] Alguliyev, R. M.; Aliguliyev, R. M.; Imamverdiyev, Y. N.; Sukhostat, L. V. (2018). An improved ensemble approach for dos attacks detection. Радіоелектроніка, інформатика, управління. 2: 73—82.

[3] Sasaki, Y. (2007). The truth of the F-measure (PDF). Архів оригіналу (PDF) за 23 вересня 2020. Процитовано 4 жовтня 2020. (англ.)

[4] Van Rijsbergen, C. J. (1979). Information Retrieval (вид. 2nd). Butterworth-Heinemann. Архів оригіналу за 6 квітня 2005. Процитовано 4 жовтня 2020. (англ.)

[5] Beitzel., Steven M. (2006). On Understanding and Classifying Web Queries (Дипломна робота Ph.D.). IIT. CiteSeerX 10.1.1.127.634. (англ.)

[6] X. Li; Y.-Y. Wang; A. Acero (July 2008). Learning query intent from regularized click graphs. Proceedings of the 31st SIGIR Conference. doi:10.1145/1390334.1390393. S2CID 8482989. (англ.)

[7] Див., наприклад, оцінку [1]. (англ.)

[8] Powers, David M. W (2015). What the F-measure doesn't measure. arXiv:1503.06410 [cs.IR]. (англ.)

[Derczynski2016-9] Derczynski, L. (2016). Complementarity, F-score, and NLP Evaluation. Proceedings of the International Conference on Language Resources and Evaluation. Архів оригіналу за 8 березня 2021. Процитовано 4 жовтня 2020. (англ.)

[10] Hand, David. A note on using the F-measure for evaluating record linkage algorithms - Dimensions. app.dimensions.ai (англ.). doi:10.1007/s11222-017-9746-6. hdl:10044/1/46235. S2CID 38782128. Архів оригіналу за 9 жовтня 2020. Процитовано 8 грудня 2018. (англ.)

[11] Chicco D, Jurman G (January 2020). The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation. BMC Genomics. 21 (6): 6. doi:10.1186/s12864-019-6413-7. PMC 6941312. PMID 31898477.{{cite journal}}: Обслуговування CS1: Сторінки із непозначеним DOI з безкоштовним доступом (посилання) (англ.)

[Powers2007-12] Powers, David M W (2011). Evaluation: From Precision, Recall and F-Score to ROC, Informedness, Markedness & Correlation. Journal of Machine Learning Technologies. 2 (1): 37—63. hdl:2328/27165. (англ.)

[13] Tharwat A (August 2018). Classification assessment methods. Applied Computing and Informatics (ahead-of-print). doi:10.1016/j.aci.2018.08.003. (англ.)

[14] J. Opitz; S. Burst (2019). Macro F1 and Macro F1. arXiv:1911.03347 [stat.ML]. (англ.)

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]