Прокляття розмірностіПрокляття розмірності (англ. curse of dimensionality) вказує на різні явища, які виникають при аналізі та роботі з даними в багатовимірних просторах (часто це сотні або тисячі вимірів). Ці явища не зустрічаються в маловимірних випадках, таких як тривимірний фізичний простір з яким ми стикаємось щодня. Термін спочатку використав Річард Беллман для задач динамічної оптимізації.[1][2] Є численні явища, які виникають під подібною назвою у таких областях як чисельні методи, відбір вибірки, комбінаторика, машинне навчання, добування даних, бази даних. Спільним негараздом, який виникає при збільшенні розмірності, є дуже швидке збільшення об'єму простору, наслідком чого наявні дані стають розрідженими. Така розрідженість даних стає на заваді будь-якого методу, який використовує статистичну значущість. Для отримання статистично надійного результату, потрібно, щоб кількість даних, необхідних для отримання результату, зростала експоненціально розмірності. Також, організація та пошук даних часто залежить від виявлення областей, де об'єкти утворюють групи з подібними властивостями; однак, у випадку високої розмірності, всі об'єкти, з'являються розрідженими та різними в багатьох відношеннях, що перешкоджає ефективній організації спільних даних. Ці ефекти також використовуються для спрощення алгоритмів машинного навчання у багатовимірних просторах, що називають благословенням розмірності. Благословення розмірності та прокляття розмірності визнаються двома взаємодоповнюючими впливовими принципами у багатовимірному аналізі даних.[3] У різних областяхКомбінаторикаВ деяких задачах кожна змінна може набувати одного з декількох дискретних значень, або ж діапазон можливих значень ділиться на задане скінченне число, щоб дати скінченну кількість варіантів. Якщо брати різні змінні разом, виникає велика кількість комбінацій значень. Цей ефект також відомий як комбінаторний вибух. Навіть у найпростішому випадку бінарних змінних кількість можливих комбінацій буде , яка є експоненціальною за розмірністю. По-простому, кожен додатковий вимір подвоює зусилля, необхідні для перебору всіх комбінацій. Машинне навчанняЗадачі машинного навчання, які передбачають навчання «природному стану» на скінченній кількості зразків даних у просторі властивостей з високим числом вимірів, зазвичай, потребують величезної кількості навчальних даних для того, щоб забезпечити хоча б декілька зразків з різною комбінацією значень. Типове правило полягає в тому, що в кожному вимірі повинно бути щонайменше 5 навчальних прикладів.[4] З фіксованою кількістю навчальних зразків прогностична потужність класифікатора або регресора спочатку збільшується, бо кількість використовуваних розмірів/функцій збільшується, але потім зменшується,[5] що відомо, як феномен Хьюза[6] або явище піка.[4] Функції відстаніКоли таку міру, як евклідова відстань визначають з використанням багатьох координат, то отримуємо маленьку різницю у відстані між різними парами зразків. Один зі способів продемонструвати «величезність» багатовимірного Евклідового простору вимірності є порівняння об'єму гіперкуба з ребром і вписаної в нього гіперсфери радіуса . Об'єм сфери дорівнює , де є гамма-функція, а об'єм куба буде . Коли розмірність простору збільшується, об'єм гіперсфери стає незначним відносно об'єму гіперкуба. Це чітко видно при порівняння їх відношення коли розмірність прямує до нескінченності:
Більше того, відстань між центром і кутами це величина , яка необмежено зростає при сталому . В цьому сенсі, майже все в багатовимірному просторі розташоване дуже далеко від центру. Інакше можна сказати, що багатовимірний одиничний гіперкуб складається майже повністю з «кутів» гіперкуба і майже не має «середини». Це також допомагає зрозуміти розподіл хі-квадрат. Дійсно, (нецентральний) розподіл хі-квадрат, пов'язаний з випадковою точкою інтервалу [-1, 1], збігається з розподілом квадрата довжини випадкової точки в d-кубі. За законом великих чисел, цей розподіл концентрується у вузькій смузі, що становить приблизно d помножити на стандартний квадрат відхилення (σ2) від початкового розподілу. Що є ілюстрацією розподілу хі-квадрат, а також показує, що більша частина об'єму d-куба знаходиться біля поверхні сфери радіуса √dσ. Подальший розвиток цього феномена наступний. Будь-який фіксований розподіл на числовій прямій індукує добуток розподілів на точки багатовимірного простору ℝd. Для фіксованого n, мінімальна і максимальна відстань між випадково вибраною точкою Q і списком з n випадкових точок P1,…,Pn стають незначними відносно мінімальної відстані:[7]
Про таке зазвичай кажуть, що функція відстані втратила свою корисність (наприклад, для критерію найближчого сусіда у алгоритмі, якій порівнює властивості) у багатовимірному просторі. Однак, недавні дослідження показали, що це вірно для спеціального випадку, коли одновимірні розподіли на ℝ будуть незалежними і однаково розподіленими.[8] Коли є кореляція між ознаками, дані спрощуються і забезпечують більш виразну відстань і співвідношення сигнал/шум, як було визнано, відіграє важливу роль, тому слід застосовувати обирання ознак.[8] Пошук найближчого сусідаЦей ефект ускладнює пошук найближчого сусіда у багатовимірному просторі. Бо неможливо швидко відкинути кандидатів, якщо використовувати різницю в одній координаті, як нижню оцінку відстані, яка залежить від усіх вимірів.[9][10] Проте останнім часом було зазначено, що виключно число розмірів не обов'язково призводить до ускладнень,[11] оскільки пов'язані додаткові виміри також можуть збільшити відмінність. Крім того, для підсумкового ранжування точок зазвичай корисно розрізняти близьких та далеких сусідів. Не пов'язані («шумові») виміри, однак, зменшують відмінність, як описано вище. При аналізі часових рядів, де дані за своєю суттю є високорозмірними, функції відстані також працюють надійно, коли співвідношення сигнал-шум є досить високим.[12] Класифікація по k найближчим сусідамІнший ефект високої розмірності на функції відстані стосується графів k-найближчих сусідів (k-NN), побудованих з набору даних з використанням функції відстані. Коли розмірність збільшується, розподіл входів орієнтованого k-NN-графа стає асиметричним з піком справа через виникнення непропорційно великої кількості концентраторів, тобто точок даних, які з'являються в багатьох інших k-NN списках інших точок даних, частіше ніж у середньому. Це явище може суттєво впливати на різні методи класифікації (включаючи k-NN класифікатор), напівкероване навчання та кластеризацію,[13] а також впливає на інформаційний пошук.[14] Виявлення аномалійУ нещодавньому огляді, Зімек та інші, описали наступні проблеми при пошуку аномалій у даних з високою розмірністю:[8]
Багато з аналізованих спеціалізованих методів вирішують ті чи інші проблеми, але залишається багато відкритих питань. Див. також
Примітки
|