Дивергенция Брэгмана названа по имени Льва Мееровича Брэгмана, предложившего концепцию в 1967 году.
Формально, для непрерывно дифференцируемой строго выпуклой функции, определённой на замкнутом выпуклом множестве, расстояние Брэгмана определяется как разность между значением функции в точке и значением разложения Тейлора первого порядка функции в точке , вычисленное в точке :
.
В машинном обучении дивергенция Брэгмана используется для вычисления модифицированной логистической функции ошибки, работающей лучше функции softmax с зашумлёнными данными[1].
Дивергенция Брэгмана неотрицательна ( для всех и — следствие выпуклости), выпукла по первому аргументу[2], линейна относительно неотрицательных коэффициентов ( для ).
Дивергенция Брэгмана для выпуклого сопряжения заданной функции связана с :
,
где и — двойственные точки, соответствующие и .
Ключевым результатом о дивергенции Брэгмана является то, что если дан случайный вектор, среднее векторов минимизирует ожидаемую дивергенцию Брэгмана от случайного вектора. Этот результат обобщает классический результат о том, что среднее по множеству минимизирует полную квадратичную ошибку элементов множества. Для случая векторов установелен в 2005 году[3], на функции распределений результат распространён в 2008 году[4].
Ключевым средством в вычислительной геометрии является идея проективной двойственности, которая отображает точки в гиперплоскости и наоборот, сохраняя тем не менее отношения инцидентности и «выше — ниже». Есть много видов проективной двойственности — обычный вид отображает точку в гиперплоскость . Это отображение можно понимать (если отождествлять гиперплоскость с нормалью) как выпуклое сопряжённое отображение, которое переводит точку p в двойственную точку , где определяет -мерный параболоид .
Если заменить параболоид на любую выпуклую функцию, то получится другое двойственное отображение, которое сохраняет инцидентность и свойства «выше — ниже» стандартной проективной двойственности. Из этого вытекает, что естественные двойственные концепции вычислительной геометрии наподобие диаграммы Вороного и триангуляций Делоне сохраняют своё значение в пространствах с расстоянием, определённым произвольной дивергенцией Брэгмана. Алгоритмы «нормальной» геометрии распространяются естественным образом на эти пространства[5].
Обобщения дивергенции Брэгмана
Дивергенции Брэгмана можно интерпретировать как предельные случаи косых дивергенций Йенсена[6]). Дивергенции Йенсена можно обобщить с помощью сравнительной выпуклости, а обобщение предельных случаев этих косых дивергенций Йенсена приводит к обобщённым дивергенциям Брэгмана (см. статью Нильсена и Нока[7]).
Хордовая дивергенция Брэгмана[8] получается, если взять хорду вместо касательной.
Дивергенция Брэгмана на других объектах
Дивергенцию Брэгмана можно определить для матриц, функций и мер (распределений). Дивергенция Брэгмана для матриц включает функцию потерь Штайна[9] и энтропию Неймана[англ.]. Дивергенции Брэгмана для функций включают полную квадратичную ошибку, относительную энтропию и квадрат смещения[4]. Аналогично дивергенция Брэгмана определяется также для множеств посредством cубмодулярной функции множеств[англ.], известная как дискретный аналог выпуклой функции. Субмодулярная дивергенция Брэгмана включает ряд дискретных мер, таких как расстояние Хэмминга, точность и полнота[англ.], взаимная информация и некоторые другие меры расстояния на множествах[10][11].
H. Bauschke, J. Borwein.Joint and separate convexity of the Bregman Distance // Inherently Parallel Algorithms in Feasibility and Optimization and their Applications / D. Butnariu, Y. Censor, S. Reich (editors). — Elsevier, 2001.
R. Nock, B. Magdalou, E. Briys, F. Nielsen.Mining Matrix Data with Bregman MatrixDivergences for Portfolio Selection // Matrix Information Geometry. — 2012.
Брэгман Л. М. Релаксационный метод нахождения общей точки выпуклых множеств и его применение для решения задач выпуклого программирования // Ж. вычисл. матем.и матем. физ.. — 1967. — Т. 7, № 3.
Rishabh Iyer, Jeff Bilmes.Submodular-Bregman divergences and Lovász-Bregman divergences with Applications // . — 2012.
Bela A. Frigyik, Santosh Srivastava, Maya R. Gupta.An Introduction to Functional Derivatives. — University of Washington, Dept. of Electrical Engineering, 2008. — (UWEE Tech Report 2008-0001). Архивировано 17 февраля 2017 года.
Frank Nielsen, Richard Nock.On approximating the smallest enclosing Bregman Balls // Proc. 22nd ACM Symposium on Computational Geometry. — 2006. — С. 485–486. — doi:10.1145/1137856.1137931.