Подібність Джаро — ВінклераВ інформатиці та статистиці подібність Джаро — Вінклера — це рядкова метрика, що вимірює відстань редагування між двома послідовностями. Є модифікацією метрики подібності Джаро (1989, Метью А. Джаро), запропонованою у 1990 році Вільямом Е. Вінклером. Відстань Джаро–Вінклера використовує оцінку довжини префікса , що дає більш сприятливі оцінки рядкам, що з самого початку відповідають заданій довжині префікса . Чим менша відстань Джаро–Вінклера для двох рядків, тим більш подібними є рядки. Оцінка нормується таким чином, що 1 означає точну відповідність, а 0 означає відсутність будь-якої подібності. Подібність Джаро — Вінклера дає протилежні результати. Хоча її часто називають метрикою відстані, відстань Яро–Вінклера не є метрикою в математичному розумінні, оскільки вона не виконує нерівність трикутника. ВизначенняПодібність ДжароПодібність Джаро з двох заданих рядків і визначається як Тут:
Два символи від і відповідно, вважаються співпадінням лише в тому випадку, якщо вони однакові і розташовані не далі, ніж один від одного. Кожен символ порівнюється з усіма відповідними символами в . Кількість відповідних (але в різному порядку) символів, розділених на 2, визначає кількість транспозицій. Наприклад, при порівнянні «CRATE» з «TRACE» лише символи «R», «A», «E» є співпадіннями, тобто Незважаючи на те, що «C» та «T» з'являються в обох рядках, вони розташовані далі один від одного, ніж 1 (результат ). Отже, . Якщо порівнювати «DwAyNE» та «DuANE», то тут співпадіння уже розташовані в тому самому порядку, тож транспозиції відсутні. Подібність Джаро — ВінклераПодібність Джаро — Вінклера використовує оцінку префікса що дає більш сприятливі оцінки рядкам, які з самого початку відповідають заданій довжині префікса . Дано два рядки і . Їхня подібність Джаро-Вінклера визначається як: де:
Відстань Джаро — Вінклера визначається як . Хоча її часто називають метрикою, відстань Джаро — Вінклера не є метрикою в математичному розумінні, оскільки вона не підпорядковується нерівності трикутника.[1] Відстань Джаро — Вінклера також не відповідає аксіомі ідентичності . Взаємозв'язок з іншими метриками відстані редагуванняЄ й інші популярні міри відстані редагування, які обчислюються з використанням іншого набору допустимих операцій редагування. Наприклад,
Відстань редагування зазвичай визначається як параметризована метрика, обчислена з певним набором дозволених операцій редагування, і кожній операції присвоюється вартість (можливо, нескінченна). Це додатково узагальнюється алгоритмами вирівнювання послідовностей ДНК, такими як алгоритм Сміта — Вотермана, які роблять вартість операції залежною від того, де вона застосовується. Див. також
Виноски
Список літератури
Зовнішні посилання |