Геометричний центр дискретної множини точок евклідового простору (говорячи статистичною мовою — вибірки) — точка, в якій мінімізується сума відстаней до точок множини. Геометричний центр у математичній статистиці узагальнює медіану, яка мінімізує відстань в одновимірній вибірці даних. Таким чином, геометричний центр відбиває центральну тенденцію в просторах високої розмірності. Поняття відоме також за назвами 1-медіана[1], просторова медіана[2], або точка Торрічеллі[3].
Геометричний центр є важливою оцінною функцієюзсуву в статистиці[4], в якій це поняття відоме як оцінка L1[5]. Пошук геометричного центра є також стандартною задачею при розміщенні об'єктів, де моделюється розташування об'єктів (виробництва чи споживання) з метою мінімізації транспортних витрат[6].
Окремий випадок задачі для трьох точок на площині (тобто m = 3 і n = 2 в термінах, описаних нижче) іноді називають задачею Ферма. Вона виникає при побудові мінімальних дерев Штейнера. Вперше як задачу її поставив П'єр Ферма, а розв'язав Еванджеліста Торрічеллі[7]. Розв'язок цієї задачі нині відомий як точка Ферма трикутника[8]. У свою чергу, пошук геометричного центра можна узагальнити до задачі мінімізації суми зважених відстаней. Ця задача відома як задача Вебера, оскільки Альфред Вебер обговорював її в книзі 1909 року з питань розміщення об'єктів[2]. У деяких джерелах використано назву задача Ферма — Вебера[9], але деякі джерела використовують ту саму назву для незваженої задачі[10].
Весоловський[11] дав огляд задачі геометричного центра. Обговорення узагальнення задачі для випадку недискретних множин див. у статті Фекете, Мічела та Боєра[12].
Визначення
Формально, якщо дано множину, що містить m точок , де всі , геометричний центр визначають як: Геометричний центр
Зауважте, що тут arg min означає значення аргументу , за якого досягається мінімальна сума. Це точка , для якої сума всіх евклідових відстаней до , мінімальна.
Властивості
Для випадку одновимірного простору медіана є геометричним центром (якщо точок парне число, геометричний центр може бути не єдиним). Це тому, що одновимірна медіана мінімізує суму відстаней до точок[13].
Геометричний центр є єдиним для всіх випадків, коли точки не колінеарні[14].
Геометричний центр еквіваріантний[en] для евклідового подібності, паралельного перенесення та обертання[5][13]. Це означає, що той самий результат вийде, якщо знайти образ центра, побудованого до перетворення, або, застосувавши те саме перетворення до всіх точок вибірки, потім знайти геометричний центр. Ця властивість випливає з факту, що геометричний центр визначається лише з попарних відстаней і не залежить від системи ортогональних декартових координат. Разом з тим, покомпонентна медіана для багатовимірних даних при обертанні, в загальному випадку, не є інваріантом і залежить від вибору координат[5].
Геометричний центр має точку зриву[en] 0,5[5]. Тобто, до половини даних вибірки можуть бути ненадійними, але геометричний центр вибірки залишається стійкою оцінкою положення незіпсованих даних.
Окремі випадки
Для 3 (неколінеарних) точок, якщо якийсь із кутів трикутника з вершинами в цих точках становить 120° або більше, то геометричний центр — це вершина цього кута. Якщо всі кути менші ніж 120 °, геометричний центр — це точка всередині трикутника, яка становить кут 120 ° із кожною парою вершин трикутника[13]. Ця точка відома як точка Ферма трикутника (якщо три точки колінеарні, то геометричний центр збігається з точкою, що лежить між двома іншими).
Для 4 компланарних точок, якщо одна з чотирьох точок лежить усередині трикутника, утвореного трьома іншими точками, геометричним місцем буде ця внутрішня точка. В іншому випадку чотири точки утворюють опуклий чотирикутник і геометричним центром слугу точка перетину діагоналей чотирикутника. Геометричний центр чотирьох копланарних точок — це те саме, що і єдина точка Радона для чотирьох точок[15].
Обчислення
Попри простоту поняття геометричного центру для розуміння, його обчислення викликає труднощі. Центроїд трикутника (тобто його центр мас), що визначається аналогічно геометричному центру як мінімізація суми квадратів відстаней до кожної точки, можна отримати за допомогою простих формул — його координати є середнім арифметичним координат точок. Однак така проста формула для геометричного центру невідома. Навіть було показано, що не існує ні явної формули, ні точного алгоритму, який використовує лише арифметичні операції та операції добування коренів. Таким чином, існують лише апроксимації для розв'язання цієї задачі[16].
Однак можна наближено обчислити геометричний центр, використовуючи ітеративну процедуру, в якій кожен крок дає точніше наближення. Процедури цього типу можна отримати з того факту, що сума відстаней до точок вибірки є опуклою функцією, оскільки відстань до кожної точки вибірки є опуклою функцією, а сума опуклих функцій також є опуклою функцією. Таким чином, процедура зменшення суми відстаней не може потрапити до локального оптимуму.
Один із підходів такого роду — алгоритм Вайсфельда (Андре Вайсфельд[en])[17][18][19] є видом ітераційного зваженого методу найменших квадратів[en] зі змінними вагами. Цей алгоритм задає множину ваг, які обернено пропорційні відстаням до поточного наближення, і обчислює нове наближення, що є середнім зваженим точок вибірки згідно з цими вагами. Тобто
Метод збігається майже з усіх початкових положень, але може завершитися невдачею, якщо наближення виявляється в одній із точок вибірки. Алгоритм можна модифікувати так, що він збігатиметься для всіх початкових точок[14].
Бозе, Магешварі і Морін[10] описали витонченішу процедуру оптимізації для пошуку оптимального приблизного розв'язку цієї задачі. Як показали Не, Парріло і Стармфілс[20], задачу можна подати як задачу напіввизначеного програмування[en].
Коен, Лі, Міллер і Пачоки[21] показали, як обчислити геометричний центр із довільною точністю за майже лінійний час.
Опис геометричного центра
Якщо точка y відмінна від усіх заданих точок вибірки xj, то y є геометричним центром тоді й лише тоді, коли
Це еквівалентно
що тісно пов'язане з алгоритмом Вайсфельда.
У загальному випадку y є геометричним центром тоді й лише тоді, коли існують вектори uj такі, що
де для xj ≠ y,
а для xj = y,
Еквівалентне формулювання цієї умови
Узагальнення
Геометричний центр можна узагальнити з евклідових просторів до загальних ріманових многовидів (і навіть метричних просторів), використовуючи ту ж іде, що використовується для визначення середнього Фреше[en] на ріманових многовидах[22]. Нехай — ріманів многовид із функцією відстані , нехай — ваг, сума яких 1, і нехай — спостережень з . Тоді ми визначаємо зважений геометричний центр (або зважене середнє Фреше) точок даних
.
Якщо всі ваги рівні, ми говоримо, що є геометричним центром.
Примітки
↑Загальніша задача про k-медіану задає питання про положення k центрів, що мінімізують суму відстаней від кожної точки множини до найближчого центра.
Zvi Drezner, Kathrin Klamroth, Anita Schöbel, George O. Wesolowsky. The Weber problem // Facility Location: Applications and Theory. — Springer, Berlin, 2002. — С. 1–36.
P. Thomas Fletcher, Suresh Venkatasubramanian, Sarang Joshi. The geometric median on Riemannian manifolds with application to robust atlas estimation // NeuroImage. — 2009. — Т. 45, вип. 1 Suppl. — С. s143–s152. — DOI:10.1016/j.neuroimage.2008.10.052. — PMID19056498 .
J. B. S. Haldane. Note on the median of a multivariate distribution // Biometrika. — 1948. — Т. 35, вип. 3–4. — С. 414–417. — DOI:10.1093/biomet/35.3-4.414.
Jakob Krarup, Steven Vajda. On Torricelli's geometrical solution to a problem of Fermat // IMA Journal of Mathematics Applied in Business and Industry. — 1997. — Т. 8, вип. 3. — С. 215–224. — DOI:10.1093/imaman/8.3.215.
Martin Lawera, James R. Thompson. Some problems of estimation and testing in multivariate statistical process control // Proceedings of the 38th Conference on the Design of Experiments. — 1993. — Т. 93-2. — С. 99–126. — (U.S. Army Research Office Report)
Jiawang Nie, Pablo A. Parrilo, Bernd Sturmfels. Algorithms in Algebraic Geometry / A. Dickenstein, F.-O. Schreyer, A.J. Sommese. — Springer-Verlag, 2008. — Т. 146. — С. 117–132. — (IMA Volumes in Mathematics and its Applications)
L. Ostresh. Convergence of a Class of Iterative Methods for Solving Weber Location Problem // Operations Research. — 1978. — Т. 26, вип. 4. — С. 597–609. — DOI:10.1287/opre.26.4.597.
Yehuda Vardi, Cun-Hui Zhang. The multivariate L1-median and associated data depth // Proceedings of the National Academy of Sciences of the United States of America. — 2000. — Т. 97, вип. 4. — С. 1423–1426 (electronic). — DOI:10.1073/pnas.97.4.1423.
Alfred Weber. Über den Standort der Industrien, Erster Teil: Reine Theorie des Standortes. — Tübingen : Mohr, 1909.
E. Weiszfeld. Sur le point pour lequel la somme des distances de n points donnes est minimum // Tohoku Mathematical Journal. — 1937. — Т. 43. — С. 355–386.