В статистичнім аналізі бінарної класифікації, F-міра (англ.F-score, F-measure) — це одна з мір точності тесту. Її обчислюють через влучність та повноту тесту, де влучність є числом правильно визначених позитивних результатів, поділеним на число всіх позитивних результатів, включно з визначеними неправильно, а повнота є числом правильно визначених позитивних результатів, поділеним на число всіх зразків, які повинно було бути визначено як позитивні.[1]
Міра F1 є середнім гармонійним цих влучності та повноти.[2] Загальніша міра Fβ застосовує додаткові ваги, оцінюючи або влучність, або повноту вище за іншу.
Найвищим можливим значенням F-міри є 1, що вказує на ідеальні влучність та повноту, а найнижчим можливим значенням є 0, якщо або влучність, або повнота є нульовими. Міра F1 є також відомою як індекс Соренсена, та коефіцієнт подібності Дайса (англ.Dice similarity coefficient, DSC).[джерело?]
Вважають, що назву F-міри вона отримала на честь іншої F-функції з книги ван Рійсберґена, коли її було представлено та четвертій Конференції з розуміння повідомлень[en] (англ.Fourth Message Understanding Conference, MUC-4, 1992).[3]
Загальнішою F-мірою, Fβ, що використовує додатний дійснозначний коефіцієнт β, де β обирають так, що повноту вважають у β разів важливішою за влучність, є
Двома широко вживаними значеннями β є 2, яке надає повноті більшої ваги, ніж влучності, та 0,5, яке надає повноті меншої ваги, ніж влучності.
F-міру було виведено таким чином, що Fβ «вимірює ефективність пошуку з урахуванням користувача, який надає в β разів вищої важливості повноті, ніж влучності».[4] Вона ґрунтується на мірі ефективності ван Рійсберґена[en]
E = 1 − (α/в + 1 − α/п)−1
Вони є взаємопов'язаними як Fβ = 1 − E, де α = 1/1 + β2.
Діагностичне дослідження
Воно пов'язане з галуззю бінарної класифікації, де повноту часто називають «чутливістю».
F-міру часто використовують в галузі інформаційного пошуку для вимірювання продуктивності пошуку, класифікації документів, та класифікації запитів[en].[5] Ранні праці зосереджувалися переважно на мірі F1, але з поширенням великомасштабних пошукових рушіїв цілі продуктивності змінилися на акцентування більшої уваги або на влучності, або на повноті,[6] тож Fβ помітно у широкому вжитку.
Девід Генд[en] та інші критикують широке використання міри F1, оскільки вона надає однакової важливості влучності та повноті. На практиці, різні типи помилкової класифікації призводять до різних втрат. Іншими словами, відносна важливість влучності та повноти є одним із аспектів задачі.[10]
Згідно Давіде Чікко та Джузеппе Журмана, міра F1 є менш правдивою та інформативною для класифікації бінарного оцінювання, ніж коефіцієнт кореляції Меттьюза[en] (ККМ, англ.Matthews correlation coefficient, MCC).[11]
Девід Пауерс вказав, що F1 ігнорує істинно негативні, й відтак є оманливою для незбалансованих класів, тоді як міри каппа та кореляції є симетричними, й оцінюють обидва напрямки передбачуваності — класифікатор, що передбачує істинний клас, та істинний клас, що передбачує передбачення класифікатора, пропонуючи окремі багатокласові міри поінформованості[en] та маркованості[en] для цих двох напрямків, зазначаючи, що їхнє середнє геометричне є кореляцією.[12]
F-міру також використовують для оцінювання задач із понад двома класами (багатокласова класифікація[en]). В цій постановці остаточну міру отримують мікроусереднюванням (з упередженням за частотою класів) або макроусереднюванням (беручи всі класи однаково важливими). Для макроусереднювання застосовувачі використовувати дві різні формули: F-міру (арифметичних) середніх влучності та повноти по всіх класах, та арифметичне середнє F-мір по всіх класах, серед яких крайня виявляє бажаніші властивості.[14]
↑Van Rijsbergen, C. J. (1979). Information Retrieval (вид. 2nd). Butterworth-Heinemann. Архів оригіналу за 6 квітня 2005. Процитовано 4 жовтня 2020. (англ.)
↑Beitzel., Steven M. (2006). On Understanding and Classifying Web Queries (Дипломна робота Ph.D.). IIT. CiteSeerX10.1.1.127.634. (англ.)
↑X. Li; Y.-Y. Wang; A. Acero (July 2008). Learning query intent from regularized click graphs. Proceedings of the 31st SIGIR Conference. doi:10.1145/1390334.1390393. S2CID8482989. (англ.)
↑Powers, David M. W (2015). What the F-measure doesn't measure. arXiv:1503.06410 [cs.IR]. (англ.)
↑Derczynski, L. (2016). Complementarity, F-score, and NLP Evaluation. Proceedings of the International Conference on Language Resources and Evaluation. Архів оригіналу за 8 березня 2021. Процитовано 4 жовтня 2020. (англ.)
↑Powers, David M W (2011). Evaluation: From Precision, Recall and F-Score to ROC, Informedness, Markedness & Correlation. Journal of Machine Learning Technologies. 2 (1): 37—63. hdl:2328/27165. (англ.)