Косинус подібностіКосинус подібності (англ. cosine similarity) — коефіцієнт подібності двох не нульових векторів у предгільбертовому просторі, який обчислюється як косинус кута між ними. Косинус 0° дорівнює 1, а для всіх інших значень кута в інтервалі (0,π] буде менше за 1. Отож, це оцінка напрямку, а не величини: два вектори з однаковим напрямком мають косинус подібності 1, а два вектора, які утворюють кут 90° один відносно одного, мають подібність 0, а два діаметрально направлені вектори мають подібність -1, незалежно від їх довжини. Косинус подібності часто використовують в позитивному просторі, для якого результат обмежений проміжком . Назва походить від терміна «направлений косинус»: в цьому випадку одиничні вектори максимально «подібні», якщо вони паралельні і максимально «різні», якщо вони ортогональні (перпендикулярні). Це аналогічно косинусу, який є одиницею (максимальне значення), коли відрізки утворюють нульовий кут і нулем (не корельовані), коли відрізки ортогональні. Ці межі застосовуються до будь-якої кількості вимірів, але найчастіше косинус подібності використовується у багатовимірних додатних просторах. Наприклад, при інформаційному пошуку та аналізі тексту, кожен термін пов'язаний з окремим виміром, і тому документ характеризується вектором, де значення кожного виміру відповідає кількості разів, що термін з'являється у документі. Тоді косинус подібності дає корисну оцінку того, наскільки подібні два документи у термінах теми.[1] Ця методика також використовується при добуванні даних для вимірювання згрупованості всередині кластерів.[2] Вираз відстань з косинусом часто використовують як доповнення у додатному просторі, а саме: де — відстань з косинусом, а — косинус подібності. Однак, варто зауважити, що це не є метрикою, бо не виконується нерівність трикутника або, більш формально, нерівність Коші — Буняковського, що порушує аксіому збіжності. Для того, щоб виконувалась нерівність трикутника, необхідно перейти до кутової відстані. Однією з переваг косинуса подібності є низька складність обчислення, особливо для розріджених векторів: достатньо брати лише координати з ненульовим значенням. Для косинуса подібності також використовуються інші назви, такі як подібність Орчині (англ. Orchini) або коефіцієнт Тукера (англ. Tucker). Подібність Очиаї (англ. Ochiai) — це косинус подібності застосований до бінарних даних. ВизначенняКосинус двох не нульових векторів можна описати за допомогою скалярного добутку у Евклідовому просторі: Для двох заданих векторів ознак, A та B, косинус подібності, cos(θ), представляється за допомогою скалярного добутку та довжини, як де та — координати вектору та відповідно. Примітки
Див. такожПосилання
|