uk %D0%9A%D0%BE%D1%81%D0%B8%D0%BD%D1%83%D1%81 %D0%BF%D0%BE%D0%B4%D1%96%D0%B1%D0%BD%D0%BE%D1%81%D1%82%D1%96

Косинус подібності (англ. cosine similarity) — коефіцієнт подібності двох не нульових векторів у предгільбертовому просторі, який обчислюється як косинус кута між ними. Косинус 0° дорівнює 1, а для всіх інших значень кута в інтервалі $(0,π]$ буде менше за 1. Отож, це оцінка напрямку, а не величини: два вектори з однаковим напрямком мають косинус подібності 1, а два вектора, які утворюють кут 90° один відносно одного, мають подібність 0, а два діаметрально направлені вектори мають подібність -1, незалежно від їх довжини. Косинус подібності часто використовують в позитивному просторі, для якого результат обмежений проміжком $[0,1]$ . Назва походить від терміна «направлений косинус»: в цьому випадку одиничні вектори максимально «подібні», якщо вони паралельні і максимально «різні», якщо вони ортогональні (перпендикулярні). Це аналогічно косинусу, який є одиницею (максимальне значення), коли відрізки утворюють нульовий кут і нулем (не корельовані), коли відрізки ортогональні.

Ці межі застосовуються до будь-якої кількості вимірів, але найчастіше косинус подібності використовується у багатовимірних додатних просторах. Наприклад, при інформаційному пошуку та аналізі тексту, кожен термін пов'язаний з окремим виміром, і тому документ характеризується вектором, де значення кожного виміру відповідає кількості разів, що термін з'являється у документі. Тоді косинус подібності дає корисну оцінку того, наскільки подібні два документи у термінах теми.^[1]

Ця методика також використовується при добуванні даних для вимірювання згрупованості всередині кластерів.^[2]

Вираз відстань з косинусом часто використовують як доповнення у додатному просторі, а саме: $D_{C}(A,B)=1-S_{C}(A,B),$ де $D_{C}$ — відстань з косинусом, а $S_{C}$ — косинус подібності. Однак, варто зауважити, що це не є метрикою, бо не виконується нерівність трикутника або, більш формально, нерівність Коші — Буняковського, що порушує аксіому збіжності. Для того, щоб виконувалась нерівність трикутника, необхідно перейти до кутової відстані.

Однією з переваг косинуса подібності є низька складність обчислення, особливо для розріджених векторів: достатньо брати лише координати з ненульовим значенням.

Для косинуса подібності також використовуються інші назви, такі як подібність Орчині (англ. Orchini) або коефіцієнт Тукера (англ. Tucker). Подібність Очиаї (англ. Ochiai) — це косинус подібності застосований до бінарних даних.

Визначення

Косинус двох не нульових векторів можна описати за допомогою скалярного добутку у Евклідовому просторі:

\mathbf {A} \cdot \mathbf {B} =\left\|\mathbf {A} \right\|\left\|\mathbf {B} \right\|\cos \theta

Для двох заданих векторів ознак, A та B, косинус подібності, $cos(θ)$ , представляється за допомогою скалярного добутку та довжини, як

{\text{подібність}}=\cos(\theta )={\mathbf {A} \cdot \mathbf {B}  \over \|\mathbf {A} \|\|\mathbf {B} \|}={\frac {\sum \limits _{i=1}^{n}{A_{i}B_{i}}}{{\sqrt {\sum \limits _{i=1}^{n}{A_{i}^{2}}}}{\sqrt {\sum \limits _{i=1}^{n}{B_{i}^{2}}}}}},

де $A_{i}$ та $B_{i}$ — координати вектору $A$ та $B$ відповідно.

Примітки

↑ Singhal, Amit (2001). «Modern Information Retrieval: A Brief Overview [Архівовано 24 жовтня 2018 у Wayback Machine.]». Bulletin of the IEEE Computer Society Technical Committee on Data Engineering 24 (4): 35–43.
↑ P.-N. Tan, M. Steinbach & V. Kumar, Introduction to Data Mining, Addison-Wesley (2005), ISBN 0-321-32136-7, chapter 8; page 500.

Див. також

Посилання

Зважена косинусна міра [Архівовано 8 серпня 2020 у Wayback Machine.]
Посібник по косинусу подібності на Python [Архівовано 20 січня 2015 у Wayback Machine.]

[1] Singhal, Amit (2001). «Modern Information Retrieval: A Brief Overview [Архівовано 24 жовтня 2018 у Wayback Machine.]». Bulletin of the IEEE Computer Society Technical Committee on Data Engineering 24 (4): 35–43.

[2] P.-N. Tan, M. Steinbach & V. Kumar, Introduction to Data Mining, Addison-Wesley (2005), ISBN 0-321-32136-7, chapter 8; page 500.

[1]

[2]