УказательРазделыОбозначенияАвторО проекте


Расстояние Махаланобиса

Поставим теперь следующую задачу.

П

Пример. Предположим (гипотетически) что в опыты Гальтона вкралась ошибка: изначально выборка содержала не 898 замеров пар значений x,y, а ровно 900. Но в двух получившихся замерах, именно C_{899}=(65,69) и C_{900}= (70,73), Гальтон засомневался и поэтому выбросил их из выборки. Какая из этих точек более вероятна на ошибочность?

Решение. Вычислим расстояние от подозрительных точек до центроида C: |C_{899}C|\approx 4.779, |C_{900}C|\approx 6.287. Получается, что точка C_{899} ближе к среднему значению, чем C_{900}. Но если вставить эти точки в диаграмму рассеяния, то увидим, что в окрестности C_{899} не наблюдается такого количества других, истинных, экспериментальных точек, сколько их наблюдается в окрестности C_{900}.

Еще более «одинокой» выглядит точка (64,70): она совсем уж явно выпадает из облака. Как вычислять удаленность проверяемых точек от центра? Следует сменить метрику на плоскости. Расстояние от точки (x_0,y_0) до C=(\overline x, \overline y ) вычислять с учетом вытянутости диаграммы рассеяния вдоль главной оси эллипса рассеяния. Это наводит на мысль использовать в качестве расстояния функцию, аналитически представляющую уравнение этого эллипса

d_M=\sqrt{[x_0 - \overline x,y_0 - \overline y]S^{-1} \left[\begin{array}{c} x_0 - \overline x \\ y_0 - \overline y \end{array} \right]} \, .

Иными словами, семейство линий уровня квадратичной функции

\left\{ [x - \overline x,y - \overline y]S^{-1} \left[\begin{array}{c} x - \overline x \\ y - \overline y \end{array} \right]=d^2 \right\}_{d\in \mathbb R \setminus \{0\}}

задает систему концентрических эллипсов.

Точки, находящиеся на каждом из этих эллипсов будем считать равноудаленными от C, а за величину расстояния принимать d. Значение d_M=2 соответствует эллипсу рассеяния.

Расстоянием Махаланобиса1) точки X=(x_1,\dots,x_n)^{\top} до множества точек \{ C_j\}_{j=1}^m \subset \mathbb R^n с невырожденной ковариационной матрицей S и средним значением C называется число

d_M(X)=\sqrt{(X-C)^{\top} S^{-1} (X-C)} \, .

По аналогии со случаем \mathbb R^2, можно сказать, что в метрике Махаланобиса точки, лежащие на эллипсоиде d_M^2(X) =d^2, считаются равноудаленными от множества \{ C_j\}_{j=1}^m (а, фактически, от его центра C).

Расстоянием Махаланобиса между точками X=(x_1,\dots,x_n)^{\top} и Y=(y_1,\dots,y_n)^{\top}, принадлежащими одному распределению с невырожденной ковариационной матрицей S, называется

d(X,Y)=\sqrt{(X-Y)^{\top} S^{-1} (X-Y)} \, .
?

Доказать, что расстояние Махаланобиса в \mathbb R^n, в случае когда C=\mathbb O, можно определить посредством введения скалярного произведения формулой

\langle X,Y \rangle= X^{\top} S^{-1} Y \, .

Применения

Используется в кластерном анализе, в задачах классификации. Чтобы определить принадлежность тестовой точки X какому-то из N классов, сначала вычисляются ковариационные матрицы каждого класса на основании выборок известных своими принадлежностями к каждому конкретному классу. Далее вычисляется расстояние Махаланобиса до каждого класса. Минимальное из этих расстояний указывает на наиболее вероятный класс, к которому следует отнести X.

Еще одно применение расстояния Махаланобиса отражено в примере предыдущего пункта: обнаружение выбросов2) выборки экспериментальных данных, т.е. точек резко отличающихся от остальных точек выборки. Существенно для задач регрессионного анализа.

1) Махаланобис Прасанта Чандра (Mahalanobis Prasanta Chandra, 1893-1972) — индийский математик и статистик.
2) outlier (англ.)

2018/03/13 08:56 редактировал au