Метод главных компонент — Википедия

Метод главных компонент (англ. principal component analysis, PCA) — один из основных способов уменьшить размерность данных, потеряв наименьшее количество информации. Изобретён Карлом Пирсоном в 1901 году. Применяется во многих областях, в том числе в эконометрике, биоинформатике, обработке изображений, для сжатия данных, в общественных науках.

Вычисление главных компонент может быть сведено к вычислению сингулярного разложения матрицы данных или к вычислению собственных векторов и собственных значений ковариационной матрицы исходных данных. Иногда метод главных компонент называют преобразованием Кархунена — Лоэва[1] или преобразованием Хотеллинга (англ. Hotelling transform).

Формальная постановка задачи

[править | править код]

Задача анализа главных компонент имеет, как минимум, четыре базовые версии:

  • аппроксимировать данные линейными многообразиями меньшей размерности;
  • найти подпространства меньшей размерности, в ортогональной проекции на которые разброс данных (то есть среднеквадратичное отклонение от среднего значения) максимален;
  • найти подпространства меньшей размерности, в ортогональной проекции на которые среднеквадратичное расстояние между точками максимально;
  • для данной многомерной случайной величины построить такое ортогональное преобразование координат, в результате которого корреляции между отдельными координатами обратятся в нуль.

Первые три версии оперируют конечными множествами данных. Они эквивалентны и не используют никакой гипотезы о статистическом порождении данных. Четвёртая версия оперирует случайными величинами. Конечные множества появляются здесь как выборки из данного распределения, а решение трёх первых задач — как приближение к разложению по теореме Кархунена — Лоэва («истинному преобразованию Кархунена — Лоэва»). При этом возникает дополнительный и не вполне тривиальный вопрос о точности этого приближения.

Аппроксимация данных линейными многообразиями

[править | править код]
Иллюстрация к знаменитой работе Пирсона (1901): даны точки на плоскости,  — расстояние от до прямой . Ищется прямая , минимизирующая сумму

Метод главных компонент начинался с задачи наилучшей аппроксимации конечного множества точек прямыми и плоскостями (Пирсон, 1901). Дано конечное множество векторов , для каждого среди всех -мерных линейных многообразий в найти такое , что сумма квадратов уклонений от минимальна:

,

где  — евклидово расстояние от точки до линейного многообразия. Всякое -мерное линейное многообразие в может быть задано как множество линейных комбинаций , где параметры пробегают вещественную прямую , а  — ортонормированный набор векторов

,

где евклидова норма,  — евклидово скалярное произведение, или в координатной форме:

.

Решение задачи аппроксимации для даётся набором вложенных линейных многообразий , . Эти линейные многообразия определяются ортонормированным набором векторов (векторами главных компонент) и вектором . Вектор ищется как решение задачи минимизации для :

,

то есть

.

Это — выборочное среднее: .

Фреше в 1948 году обратил внимание, что вариационное определение среднего (как точки, минимизирующей сумму квадратов расстояний до точек данных) очень удобно для построения статистики в произвольном метрическом пространстве, и построил обобщение классической статистики для общих пространств (обобщённый метод наименьших квадратов).

Векторы главных компонент могут быть найдены как решения однотипных задач оптимизации:

  1. Централизуются данные (вычитанием среднего): . Теперь ;
  2. Отыскивается первая главная компонента как решение задачи:
    .
    если решение не единственно, то осуществляется выбор одного из них.
  3. Из данных вычитается проекция на первую главную компоненту:
    ;
  4. Отыскивается вторая главная компонента как решение задачи:
    .
    Если решение не единственно, то выбирается одно из них.

Далее процесс продолжается, то есть на шаге вычитается проекция на -ю главную компоненту (к этому моменту проекции на предшествующие главные компоненты уже вычтены):

;

и на шаге определяется -я главная компонента как решение задачи:

(если решение не единственно, то выбирается одно из них).

На каждом подготовительном шаге вычитается проекция на предшествующую главную компоненту. Найденные векторы ортонормированы просто в результате решения описанной задачи оптимизации, однако чтобы не дать ошибкам вычисления нарушить взаимную ортогональность векторов главных компонент, можно включать в условия задачи оптимизации.

Неединственность в определении помимо тривиального произвола в выборе знака ( и решают ту же задачу) может быть более существенной и происходить, например, из условий симметрии данных. Последняя главная компонента  — единичный вектор, ортогональный всем предыдущим .

Поиск ортогональных проекций с наибольшим рассеянием

[править | править код]
Первая главная компонента максимизирует выборочную дисперсию проекции данных

Пусть нам дан центрированный набор векторов данных (среднее арифметическое значение равно нулю). Задача — найти такое ортогональное преобразование в новую систему координат, для которого были бы верны следующие условия:

  • Выборочная дисперсия данных вдоль первой координаты максимальна (эту координату называют первой главной компонентой);
  • Выборочная дисперсия данных вдоль второй координаты максимальна при условии ортогональности первой координате (вторая главная компонента);
  • Выборочная дисперсия данных вдоль значений -ой координаты максимальна при условии ортогональности первым координатам;

Выборочная дисперсия данных вдоль направления, заданного нормированным вектором , это

(поскольку данные центрированы, выборочная дисперсия здесь совпадает со средним квадратом уклонения от нуля).

Решение задачи о наилучшей аппроксимации даёт то же множество главных компонент , что и поиск ортогональных проекций с наибольшим рассеянием, по очень простой причине: и первое слагаемое не зависит от .

Поиск ортогональных проекций с наибольшим среднеквадратичным расстоянием между точками

[править | править код]

Ещё одна эквивалентная формулировка следует из очевидного тождества, верного для любых векторов :

В левой части этого тождества стоит среднеквадратичное расстояние между точками, а в квадратных скобках справа — выборочная дисперсия. Таким образом, в методе главных компонент ищутся подпространства, в проекции на которые среднеквадратичное расстояние между точками максимально (или, что то же самое, его искажение в результате проекции минимально)[2]. Такая переформулировка позволяет строить обобщения с взвешиванием различных парных расстояний (а не только точек).

Аннулирование корреляций между координатами

[править | править код]

Для заданной -мерной случайной величины найти такой ортонормированный базис, , в котором коэффициент ковариации между различными координатами равен нулю. После преобразования к этому базису

для .

Здесь  — коэффициент ковариации, где  — математическое ожидание.

Диагонализация ковариационной матрицы

[править | править код]

Все задачи о главных компонентах приводят к задаче диагонализации ковариационной матрицы или выборочной ковариационной матрицы. Эмпирическая или выборочная ковариационная матрица, это

Ковариационная матрица многомерной случайной величины , это

Векторы главных компонент для задач о наилучшей аппроксимации и о поиске ортогональных проекций с наибольшим рассеянием — это ортонормированный набор собственных векторов эмпирической ковариационной матрицы , расположенных в порядке убывания собственных значений Эти векторы служат оценкой для собственных векторов ковариационной матрицы . В базисе из собственных векторов ковариационной матрицы она, естественно, диагональна, и в этом базисе коэффициент ковариации между различными координатами равен нулю.

Если спектр ковариационной матрицы вырожден, то выбирают произвольный ортонормированный базис собственных векторов. Он существует всегда, а собственные числа ковариационной матрицы всегда вещественны и неотрицательны.

Сингулярное разложение матрицы данных

[править | править код]

Идея сингулярного разложения

[править | править код]

Математическое содержание метода главных компонент — это спектральное разложение ковариационной матрицы , то есть представление пространства данных в виде суммы взаимно ортогональных собственных подпространств , а самой матрицы  — в виде линейной комбинации ортогональных проекторов на эти подпространства с коэффициентами . Если  — матрица, составленная из векторов-строк (размерности ) центрированных данных, то и задача о спектральном разложении ковариационной матрицы превращается в задачу о сингулярном разложении матрицы данных .

Число называется сингулярным числом матрицы тогда и только тогда, когда существуют правый и левый сингулярные векторы: такие -мерный вектор-строка и -мерный вектор-столбец (оба единичной длины), что выполнено два равенства:

Пусть  — ранг матрицы данных. Сингулярное разложение матрицы данных  — это её представление в виде

где  — сингулярное число,  — соответствующий правый сингулярный вектор-столбец, а  — соответствующий левый сингулярный вектор-строка (). Правые сингулярные векторы-столбцы , участвующие в этом разложении, являются векторами главных компонент и собственными векторами эмпирической ковариационной матрицы , отвечающими положительным собственным числам .

Хотя формально задачи сингулярного разложения матрицы данных и спектрального разложения ковариационной матрицы совпадают, алгоритмы вычисления сингулярного разложения напрямую, без вычисления ковариационной матрицы и её спектра, более эффективны и устойчивы[3].

Теория сингулярного разложения была создана Джеймсом Джозефом Сильвестром в 1889 году и изложена во всех подробных руководствах по теории матриц[4].

Простой итерационный алгоритм сингулярного разложения

[править | править код]

Основная процедура — поиск наилучшего приближения произвольной матрицы матрицей вида (где  — -мерный вектор, а  — -мерный вектор) методом наименьших квадратов:

Решение этой задачи даётся последовательными итерациями по явным формулам. При фиксированном векторе значения , доставляющие минимум форме , однозначно и явно определяются из равенств  :

Аналогично, при фиксированном векторе определяются значения :

B качестве начального приближения вектора берётся случайный вектор единичной длины, вычисляем вектор , далее для этого вектора вычисляем вектор и т. д. Каждый шаг уменьшает значение . В качестве критерия остановки используется малость относительного уменьшения значения минимизируемого функционала за шаг итерации () или малость самого значения .

В результате для матрицы получается наилучшее приближение матрицей вида (здесь верхним индексом обозначен номер приближения). Далее, из матрицы вычитается полученная матрицу , и для полученной матрицы уклонений вновь ищется наилучшее приближение этого же вида и т. д., пока, например, норма не станет достаточно малой. В результате получили итерационную процедуру разложения матрицы в виде суммы матриц ранга 1, то есть . Полагаем и нормируем векторы : В результате получена аппроксимация сингулярных чисел и сингулярных векторов (правых — и левых — ).

К достоинствам этого алгоритма относится его исключительная простота и возможность почти без изменений перенести его на данные с пробелами[5], а также взвешенные данные.

Существуют различные модификации базового алгоритма, улучшающие точность и устойчивость. Например, векторы главных компонент при разных должны быть ортогональны «по построению», однако при большом числе итерации (большая размерность, много компонент) малые отклонения от ортогональности накапливаются, и может потребоваться специальная коррекция на каждом шаге, обеспечивающая его ортогональность ранее найденным главным компонентам.

Для квадратных симметричных положительно определённых матриц описанный алгоритм превращается в метод прямых итераций для поиска собственных векторов (см. статью Собственные векторы, значения и пространства).

Сингулярное разложение тензоров и тензорный метод главных компонент

[править | править код]

Часто вектор данных имеет дополнительную структуру прямоугольной таблицы (например, плоское изображение) или даже многомерной таблицы — то есть тензора: , . В этом случае также эффективно применять сингулярное разложение. Определение, основные формулы и алгоритмы переносятся практически без изменений: вместо матрицы данных имеем -индексную величину , где первый индекс -номер точки (тензора) данных.

Основная процедура — поиск наилучшего приближения тензора тензором вида (где  — -мерный вектор ( — число точек данных),  — вектор размерности при ) методом наименьших квадратов:

Решение этой задачи даётся последовательными итерациями по явным формулам. Если заданы все векторы-сомножители кроме одного , то этот оставшийся определяется явно из достаточных условий минимума.

B качестве начального приближения векторов () берутся случайные векторы единичной длины, вычислим вектор , далее для этого вектора и данных векторов вычисляется вектор и так далее (циклически перебирая индексы). Каждый шаг уменьшает значение . Алгоритм, очевидно, сходится. В качестве критерия остановки используется малость относительного уменьшения значения минимизируемого функционала за цикл или малость самого значения . Далее, из тензора вычитается полученное приближение и для остатка вновь ищется наилучшее приближение этого же вида и т. д., пока, например, норма очередного остатка не станет достаточно малой.

Это многокомпонентное сингулярное разложение (тензорный метод главных компонент) успешно применяется при обработке изображений, видеосигналов, и, шире, любых данных, имеющих табличную или тензорную структуру.

Матрица преобразования к главным компонентам

[править | править код]

Матрица преобразования данных к главным компонентам состоит из векторов главных компонент, расположенных в порядке убывания собственных значений:

( означает транспонирование),

причём

То есть матрица является ортогональной.

Большая часть вариации данных будет сосредоточена в первых координатах, что позволяет перейти к пространству меньшей размерности.

Остаточная дисперсия

[править | править код]

Пусть данные центрированы, . При замене векторов данных на их проекцию на первые главных компонент вносится средний квадрат ошибки в расчёте на один вектор данных:

где собственные значения эмпирической ковариационной матрицы , расположенные в порядке убывания, с учётом кратности.

Эта величина называется остаточной дисперсией. Величина

называется объяснённой дисперсией. Их сумма равна выборочной дисперсии. Соответствующий квадрат относительной ошибки — это отношение остаточной дисперсии к выборочной дисперсии (то есть доля необъяснённой дисперсии):

По относительной ошибке оценивается применимость метода главных компонент с проецированием на первые компонент.

Замечание: в большинстве вычислительных алгоритмов собственные числа с соответствующими собственными векторами — главными компонентами вычисляются в порядке «от больших  — к меньшим». Для вычисления достаточно вычислить первые собственных чисел и след эмпирической ковариационной матрицы , (сумму диагональных элементов , то есть дисперсий по осям). Тогда

Отбор главных компонент по правилу Кайзера

[править | править код]

Целевой подход к оценке числа главных компонент по необходимой доле объяснённой дисперсии формально применим всегда, однако неявно он предполагает, что нет разделения на «сигнал» и «шум», и любая заранее заданная точность имеет смысл. Поэтому часто более продуктивна иная эвристика, основывающаяся на гипотезе о наличии «сигнала» (сравнительно малая размерность, относительно большая амплитуда) и «шума» (большая размерность, относительно малая амплитуда). С этой точки зрения метод главных компонент работает как фильтр: сигнал содержится в основном в проекции на первые главные компоненты, а в остальных компонентах пропорция шума намного выше.

Вопрос: как оценить число необходимых главных компонент, если отношение «сигнал/шум» заранее неизвестно?

Простейший и старейший метод отбора главных компонент даёт правило Кайзера (англ. Kaiser's rule): значимы те главные компоненты, для которых

то есть превосходит среднее значение (среднюю выборочную дисперсию координат вектора данных). Правило Кайзера хорошо работает в простых случаях, когда есть несколько главных компонент с , намного превосходящими среднее значение, а остальные собственные числа меньше него. В более сложных случаях оно может давать слишком много значимых главных компонент. Если данные нормированы на единичную выборочную дисперсию по осям, то правило Кайзера приобретает особо простой вид: значимы только те главные компоненты, для которых

Оценка числа главных компонент по правилу сломанной трости

[править | править код]
Пример: оценка числа главных компонент по правилу сломанной трости в размерности 5. На графике но . Число необходимых главных компонент равно 2.

Одним из наиболее популярных эвристических подходов к оценке числа необходимых главных компонент является правило сломанной трости (англ. Broken stick model)[6]. Набор нормированных на единичную сумму собственных чисел (, ) сравнивается с распределением длин обломков трости единичной длины, сломанной в -й случайно выбранной точке (точки разлома выбираются независимо и равнораспределены по длине трости). Пусть () — длины полученных кусков трости, занумерованные в порядке убывания длины: . Нетрудно найти математическое ожидание :

По правилу сломанной трости -й собственный вектор (в порядке убывания собственных чисел ) сохраняется в списке главных компонент, если

На Рис. приведён пример для 5-мерного случая:

=(1+1/2+1/3+1/4+1/5)/5; =(1/2+1/3+1/4+1/5)/5; =(1/3+1/4+1/5)/5; =(1/4+1/5)/5; =(1/5)/5.

Для примера выбрано

=0.5; =0.3; =0.1; =0.06; =0.04.

По правилу сломанной трости в этом примере следует оставлять 2 главных компоненты:

По оценкам пользователей, правило сломанной трости имеет тенденцию занижать количество значимых главных компонент.

Оценка числа главных компонент по числу обусловленности

[править | править код]

И правило Кайзера, и правило сломанной трости весьма чувствительны к наличию иррелевантных атрибутов. Это легко демонстрируется на примере удвоения атрибутов. В работе Миркеса с соавторами[7] был предложен простой тест на устойчивость оценки размерности: если просто продублировать атрибуты в базе данных, то оценка размерности увеличиться не должна. Ни правило Кайзера, ни правило сломанной трости этот тест не проходят из-за того, что «шлейф» компоненты с малыми собственными числами сдвигает оценку и пропрорционально увеличивает размерность. Этим недостатком не обладает оценка по числу обусловленности.[7][8] Число обусловленности корреляционной матрицы, это отношение ее максимального собственного числа, к минимальному : . Большое значение означает плохую обусловленность и мультиколлинеарность. Для определение числа оставляемых компонент выбирается некоторое значение порога мультиколлинеарности и оставляются те компоненты, для которых . Таким образом, в оставшихся компонентах мультиколлинеарность отсутствует. Размерность данных оценивается как число собственных значений ковариационной матрицы, превышающее фиксированную долю () от ее наибольшего собственного значения. Выбор порога определяется спецификой задачи. Многочисленные численные эксперименты показывают, что выбор соответствует диапазону от малой до «умеренной» мультиколлинеарности в сохраняемых компонентах и приемлем для многих задач обработки данных. [7][9]

Нормировка

[править | править код]

Нормировка после приведения к главным компонентам

[править | править код]

После проецирования на первые главных компонент с удобно произвести нормировку на единичную (выборочную) дисперсию по осям. Дисперсия вдоль й главной компоненты равна ), поэтому для нормировки надо разделить соответствующую координату на . Это преобразование не является ортогональным и не сохраняет скалярного произведения. Ковариационная матрица проекции данных после нормировки становится единичной, проекции на любые два ортогональных направления становятся независимыми величинами, а любой ортонормированный базис становится базисом главных компонент (напомним, что покоординатная нормировка меняет отношение ортогональности векторов). Отображение из пространства исходных данных на первые главных компонент вместе с нормировкой задаётся матрицей

.

Именно это преобразование чаще всего называется преобразованием Кархунена — Лоэва. Здесь  — векторы-столбцы, а верхний индекс означает транспонирование.

Нормировка до вычисления главных компонент

[править | править код]

Предупреждение: не следует путать нормировку, проводимую после преобразования к главным компонентам, с нормировкой и «обезразмериванием» при предобработке данных, проводимой до вычисления главных компонент. Предварительная нормировка нужна для обоснованного выбора метрики, в которой будет вычисляться наилучшая аппроксимация данных, или будут искаться направления наибольшего разброса (что эквивалентно). Например, если данные представляют собой трёхмерные векторы из «метров, литров и килограммов», то при использовании стандартного евклидового расстояния разница в 1 метр по первой координате будет вносить тот же вклад, что разница в 1 литр по второй, или в 1 кг по третьей. Обычно системы единиц, в которых представлены исходные данные, недостаточно точно отображают наши представления о естественных масштабах по осям, и проводится «обезразмеривание»: каждая координата делится на некоторый масштаб, определяемый данными, целями их обработки и процессами измерения и сбора данных.

Есть три существенно различных стандартных подхода к такой нормировке: на единичную дисперсию по осям (масштабы по осям равны средним квадратичным уклонениям — после этого преобразования ковариационная матрица совпадает с матрицей коэффициентов корреляции), на равную точность измерения (масштаб по оси пропорционален точности измерения данной величины) и на равные требования в задаче (масштаб по оси определяется требуемой точностью прогноза данной величины или допустимым её искажением — уровнем толерантности). На выбор предобработки влияют содержательная постановка задачи, а также условия сбора данных (например, если коллекция данных принципиально не завершена и данные будут ещё поступать, то нерационально выбирать нормировку строго на единичную дисперсию, даже если это соответствует смыслу задачи, поскольку это предполагает перенормировку всех данных после получения новой порции; разумнее выбрать некоторый масштаб, грубо оценивающий стандартное отклонение, и далее его не менять).

Предварительная нормировка на единичную дисперсию по осям разрушается поворотом системы координат, если оси не являются главными компонентами, и нормировка при предобработке данных не заменяет нормировку после приведения к главным компонентам.

Механическая аналогия и метод главных компонент для взвешенных данных

[править | править код]

Если сопоставить каждому вектору данных единичную массу, то эмпирическая ковариационная матрица совпадёт с тензором инерции этой системы точечных масс (делённым на полную массу ), а задача о главных компонентах — с задачей приведения тензора инерции к главным осям. Можно использовать дополнительную свободу в выборе значений масс для учёта важности точек данных или надёжности их значений (важным данным или данным из более надёжных источников приписываются бо́льшие массы). Если вектору данных придаётся масса , то вместо эмпирической ковариационной матрицы получим

Все дальнейшие операции по приведению к главным компонентам производятся так же, как и в основной версии метода: ищется ортонормированный собственный базис , упорядочивается по убыванию собственных значений, оценивается средневзвешенная ошибка аппроксимации данных первыми компонентами (по суммам собственных чисел ), проводится нормировка и так далее.

Более общий способ взвешивания даёт максимизация взвешенной суммы попарных расстояний[10] между проекциями. Для каждых двух точек данных, вводится вес ; и . Вместо эмпирической ковариационной матрицы используется

При симметричная матрица положительно определена, поскольку положительна квадратичная форма:

Далее ищем ортонормированный собственный базис , упорядочиваем его по убыванию собственных значений, оцениваем средневзвешенную ошибку аппроксимации данных первыми компонентами и т. д. — в точности так же, как и в основном алгоритме.

Этот способ применяется при наличии классов: для из разных классов вес вес выбирается бо́льшим, чем для точек одного класса. В результате, в проекции на взвешенные главные компоненты различные классы «раздвигаются» на большее расстояние.

Другое применение — снижение влияния больших уклонений, так называемых аутлайеров (en.:outlier), которые могут искажать картину из-за использования среднеквадратичного расстояния: если выбрать , то влияние больших уклонений будет уменьшено. Таким образом, описанная модификация метода главных компонент является более робастной, чем классическая.

Специальная терминология

[править | править код]

В статистике при использовании метода главных компонент используют несколько специальных терминов.

  • Матрица данных — ; каждая строка — вектор предобработанных данных (центрированных и правильно нормированных), число строк — (количество векторов данных), число столбцов — (размерность пространства данных);
  • Матрица нагрузок (англ. loadings) — ; каждый столбец — вектор главных компонент, число строк — (размерность пространства данных), число столбцов — (количество векторов главных компонент, выбранных для проецирования);
  • Матрица счетов (англ. scores) — ; каждая строка — проекция вектора данных на главных компонент; число строк — (количество векторов данных), число столбцов — (количество векторов главных компонент, выбранных для проецирования);
  • Матрица -счетов (англ. -scores) — ; каждая строка — проекция вектора данных на главных компонент, нормированная на единичную выборочную дисперсию; число строк — (количество векторов данных), число столбцов — (количество векторов главных компонент, выбранных для проецирования);
  • Матрица ошибок (или остатков) (англ. errors или residuals) — .
  • Основная формула: .

Границы применимости и ограничения эффективности метода

[править | править код]
Построение ветвящихся главных компонент методом топологических грамматик. Крестики — точки данных, красное дерево с жёлтыми узлами — аппроксимирующий дендрит[11].

Метод главных компонент применим всегда. Распространённое утверждение о том, что он применим только к нормально распределённым данным (или для распределений, близких к нормальным), неверно: в исходной формулировке Пирсона ставится задача об аппроксимации конечного множества данных и отсутствует даже гипотеза об их статистическом порождении, не говоря уж о распределении.

Однако метод не всегда эффективно снижает размерность при заданных ограничениях на точность . Прямые и плоскости не всегда обеспечивают хорошую аппроксимацию. Например, данные могут с хорошей точностью следовать какой-нибудь кривой, а эта кривая может быть сложно расположена в пространстве данных. В этом случае метод главных компонент для приемлемой точности потребует нескольких компонент (вместо одной) или вообще не даст снижения размерности при приемлемой точности. Для работы с такими «кривыми» главными компонентами изобретён метод главных многообразий[12] и различные версии нелинейного метода главных компонент[13][14]. Больше неприятностей могут доставить данные сложной топологии. Для их аппроксимации также изобретены различные методы, например, самоорганизующиеся карты Кохонена, нейронный газ[15] или топологические грамматики[11]. Если данные статистически порождены с распределением, сильно отличающимся от нормального, то для аппроксимации распределения полезно перейти от главных компонент к независимым компонентам[16], которые уже не ортогональны в исходном скалярном произведении. Наконец, для изотропного распределения (даже нормального) вместо эллипсоида рассеяния получаем шар, и уменьшить размерность методами аппроксимации невозможно.

Примеры использования

[править | править код]

Визуализация данных

[править | править код]

Визуализация данных — представление в наглядной форме данных эксперимента или результатов теоретического исследования.

Первым выбором в визуализации множества данных является ортогональное проецирование на плоскость первых двух главных компонент (или 3-мерное пространство первых трёх главных компонент). Плоскость проецирования является по сути плоским двумерным «экраном», расположенным таким образом, чтобы обеспечить «картинку» данных с наименьшими искажениями. Такая проекция будет оптимальна (среди всех ортогональных проекций на разные двумерные экраны) в трёх отношениях:

  1. Минимальна сумма квадратов расстояний от точек данных до проекций на плоскость первых главных компонент, то есть экран расположен максимально близко по отношению к облаку точек.
  2. Минимальна сумма искажений квадратов расстояний между всеми парами точек из облака данных после проецирования точек на плоскость. (Это означает, что максимальна сумма квадратов расстояний между проекциями.)
  3. Минимальна сумма искажений квадратов расстояний между всеми точками данных и их «центром тяжести». (Это означает, что максимальна сумма квадратов расстояний между проекциями и их центром тяжести.)

Визуализация данных является одним из наиболее широко используемых приложений метода главных компонент и его нелинейных обобщений[2].

Компрессия изображений и видео

[править | править код]

Для уменьшения пространственной избыточности пикселей при кодировании изображений и видео используется линейное преобразование блоков пикселей. Последующие квантования полученных коэффициентов и кодирование без потерь позволяют получить значительные коэффициенты сжатия. Использование преобразования PCA в качестве линейного преобразования является для некоторых типов данных оптимальным с точки зрения размера полученных данных при одинаковом искажении[17]. На данный момент этот метод активно не используется, в основном из-за большой вычислительной сложности. Также сжатия данных можно достичь, отбрасывая последние коэффициенты преобразования.

Подавление шума на изображениях

[править | править код]

Основная суть метода[18] — при удалении шума из блока пикселей представить окрестность этого блока в виде набора точек в многомерном пространстве, применить к нему PCA и оставить только первые компоненты преобразования. При этом предполагается, что в первых компонентах содержится основная полезная информация, оставшиеся же компоненты содержат ненужный шум. Применив обратное преобразование после редукции базиса главных компонент, мы получим изображение без шума.

Индексация видео

[править | править код]

Основная идея — представить при помощи PCA каждый кадр видео несколькими значениями, которые в дальнейшем будут использоваться при построении базы данных и запросам к ней. Столь существенная редукция данных позволяет значительно увеличить скорость работы и устойчивость к ряду искажений в видео.

Биоинформатика

[править | править код]
Рис. А. Проекция ДНК-блуждания на первые 2 главные компоненты для генома бактерии Streptomyces coelicolor
Рис. Б. Проекция ДНК-блуждания на первые 3 главные компоненты для генома бактерии Streptomyces coelicolor. Вращение применяется для визуализации трёхмерной конфигурации

Метод главных компонент интенсивно используется в биоинформатике для сокращения размерности описания, выделения значимой информации, визуализации данных и др. Один из распространённых вариантов использования — анализ соответствий[19][20][21]. На иллюстрациях (Рис. А, Б) генетический текст[22] представлен как множество точек в 64-мерном пространстве частот триплетов. Каждая точка соответствует фрагменту ДНК в скользящем окне длиной 300 нуклеотидов (ДНК-блуждание). Этот фрагмент разбивается на неперекрывающиеся триплеты, начиная с первой позиции. Относительные частоты этих триплетов во фрагменте и составляют 64-мерный вектор. На Рис. А представлена проекция на первые 2 главные компоненты для генома бактерии Streptomyces coelicolor. На Рис. Б представлена проекция на первые 3 главные компоненты. Оттенками красного и коричневого выделены фрагменты кодирующих последовательностей в прямой цепи ДНК, а оттенками зелёного выделены фрагменты кодирующих последовательностей в обратной цепи ДНК. Чёрным помечены фрагменты, принадлежащие некодирующей части. Анализ методом главных компонент большинства известных бактериальных геномов представлен на специализированном сайте[23].

Хемометрика

[править | править код]

Метод главных компонент — один из основных методов в хемометрике. Позволяет разделить матрицу исходных данных X на две части: «содержательную» и «шум».

Психодиагностика

[править | править код]

Психодиагностика является одной из наиболее разработанных областей приложения метода главных компонент[24]. Стратегия использования основывается на гипотезе об автоинформативности экспериментальных данных, которая подразумевает, что диагностическую модель можно создать путём аппроксимации геометрической структуры множества объектов в пространстве исходных признаков. Хорошую линейную диагностическую модель удаётся построить, когда значительная часть исходных признаков внутренне согласованна. Если эта внутренняя согласованность отражает искомый психологический конструкт, то параметры линейной диагностической модели (веса признаков) даёт метод главных компонент.

Эконометрика

[править | править код]

Метод главных компонент — один из ключевых инструментов эконометрики, он применяется для наглядного представления данных, обеспечения лаконизма моделей, упрощения счёта и интерпретации, сжатия объёмов хранимой информации. Метод обеспечивает максимальную информативность и минимальное искажение геометрической структуры исходных данных.

Социология

[править | править код]

В социологии метод необходим для решения первых двух основных задач[25]:

  1. анализ данных (описание результатов опросов или других исследований, представленных в виде массивов числовых данных);
  2. описание социальных явлений (построение моделей явлений, в том числе и математических моделей).

Политология

[править | править код]

В политологии метод главных компонент был основным инструментом проекта «Политический атлас современности»[26] для линейного и нелинейного анализа рейтингов 192 стран мира по пяти специально разработанным интегральным индексам (уровня жизни, международного влияния, угроз, государственности и демократии). Для картографии результатов этого анализа разработана специальная геоинформационная система, объединяющая географическое пространство с пространством признаков. Также созданы карты данных политического атласа, использующие в качестве подложки двумерные главные многообразия в пятимерном пространстве стран. Отличие карты данных от географической карты заключается в том, что на географической карте рядом оказываются объекты, которые имеют сходные географические координаты, в то время как на карте данных рядом оказываются объекты (страны) с похожими признаками (индексами).

Сокращение размерности динамических моделей

[править | править код]

Проклятие размерности затрудняет моделирование сложных систем. Сокращение размерности модели — необходимое условие успеха моделирования. Для достижения этой цели создана разветвлённая математическая технология. Метод главных компонент также используется в этих задачах (часто под названием истинное или собственное ортогональное разложение — англ. proper orthogonal decomposition (POD)). Например, при описании динамики турбулентности динамические переменные — поле скоростей — принадлежат бесконечномерному пространству (или, если представлять поле его значениями на достаточно мелкой сетке, — конечномерному пространству большой размерности). Можно набрать большую коллекцию мгновенных значений полей и применить к этому множеству многомерных «векторов данных» метод главных компонент. Эти главные компоненты называются также эмпирические собственные векторы. В некоторых случаях (структурная турбулентность) метод даёт впечатляющее сокращение размерности[27]. Другие области применения этой техники сокращения динамических моделей чрезвычайно разнообразны — от теоретических основ химической технологии до океанологии и климатологии.

Сенсорная оценка пищевых продуктов

[править | править код]

Своё применение метод главных компонент получил при проведении сенсорной (органолептической) оценки свойств пищевых продуктов[28]. Метод главных компонент позволяет проводить классификации пищевых продуктов в тех случаях, когда для характеристики их свойств используется одновременно большое число дескрипторов, например при оценке свойств вина,[29] мармелада,[30] экструдированных пищевых продуктов,[31] сыра,[32] и других.

Альтернативы и обобщения

[править | править код]

Метод главных компонент — наиболее распространённый подход к снижению размерности, однако существуют и другие способы, в частности, метод независимых компонент, многомерное шкалирование, а также многочисленные нелинейные обобщения: метод главных кривых и многообразий, метод упругих карт, поиск наилучшей проекции (англ. Projection Pursuit), нейросетевые методы «узкого горлышка», самоорганизующиеся карты Кохонена.

Примечания

[править | править код]
  1. Фактически, метод является эмпирической реализацией теоремы Кархунена — Лоэва, согласно которой любой случайный процесс может быть представлен в виде бесконечного ряда ортогональных функций. В русскоязычной научной литературе распространено также написание «преобразование Карунена — Лоэва», соответствующее английскому прочтению финской фамилии
  2. 1 2 Зиновьев А. Ю., Визуализация многомерных данных Архивная копия от 6 марта 2019 на Wayback Machine, Красноярск, Изд. КГТУ, 2000.
  3. Bau III, D., Trefethen, L. N., Numerical linear algebra Архивная копия от 7 апреля 2022 на Wayback Machine, Philadelphia: Society for Industrial and Applied Mathematics, 1997. (Lecture 31) ISBN 978-0-89871-361-9
  4. Гантмахер Ф. Р., Теория матриц. — М.: Наука, 1966. — 576 стр.
  5. Россиев А. А.,: Итерационное моделирование неполных данных с помощью многообразий малой размерности Архивная копия от 6 марта 2019 на Wayback Machine, Изд-во СО РАН, 2005.
  6. Cangelosi R. , Goriely A., Component retention in principal component analysis with application to cDNA microarray data Архивная копия от 9 марта 2008 на Wayback Machine, Biology Direct 2007, 2:2. А также на сайте PCA Архивная копия от 16 марта 2019 на Wayback Machine.
  7. 1 2 3 Mirkes, Evgeny M.; Allohibi, Jeza; Gorban, Alexander. «Fractional Norms and Quasinorms Do Not Help to Overcome the Curse of Dimensionality» Entropy 22, 2020 no. 10: 1105. https://doi.org/10.3390/e22101105
  8. Fukunaga, K.; Olsen, D.R. An algorithm for finding intrinsic dimensionality of data. IEEE Trans. Comput. 1971, C-20, 176—183 https://doi.org/10.1109/T-C.1971.223208
  9. Dormann C.F., Elith J., Bacher S., Buchmann C., Carl G., Carré G., Marquéz J.R., Gruber B., Lafourcade B., Leitão P.J., Münkemüller T. Collinearity: a review of methods to deal with it and a simulation study evaluating their performance. Ecography 36(1), 27—46 (2013). https://doi.org/10.1111/j.1600-0587.2012.07348.x
  10. Koren Y., Carmel L., Robust linear dimensionality reduction, IEEE Transactions on Visualisation and Computer Graphics, 10 (4) (2004), 459—470. А также на сайте PCA Архивная копия от 16 марта 2019 на Wayback Machine
  11. 1 2 Описание метода можно найти в статье: Gorban A. N. , Sumner N. R., and Zinovyev A. Y., Topological grammars for data approximation, Applied Mathematics Letters, Volume 20, Issue 4 (2007), 382—386; или Gorban A. N. , Sumner N. R., and Zinovyev A. Y., Beyond The Concept of Manifolds: Principal Trees, Metro Maps, and Elastic Cubic Complexes Архивная копия от 6 марта 2019 на Wayback Machine In: Gorban A. N. et al (Eds.), LNCSE 58, Springer, 2007 ISBN 978-3-540-73749-0; а также в arXiv
  12. С этой работы началось изучение главных многообразий. Диссертация T. Хасти: Hastie T., Principal Curves and Surfaces accessed 10/03/2022 Архивная копия от 10 марта 2022 на Wayback Machine, Ph.D Dissertation, Stanford Linear Accelerator Center, Stanford University, Stanford, California, US, November 1984. А также на сайте PCA Архивная копия от 6 марта 2019 на Wayback Machine
  13. Scholz M., Fraunholz M., Selbig J., Nonlinear Principal Component Analysis: Neural Network Models and Applications Архивная копия от 6 марта 2019 на Wayback Machine, In: Gorban A. N. et al (Eds.), LNCSE 58, Springer, 2007 ISBN 978-3-540-73749-0
  14. Yin H. Learning Nonlinear Principal Manifolds by Self-Organising Maps Архивная копия от 6 марта 2019 на Wayback Machine, In: Gorban A. N. et al (Eds.), LNCSE 58, Springer, 2007 ISBN 978-3-540-73749-0
  15. Martinetz, T.M., Berkovich, S.G., and Schulten K.J., Neural-gas network for vector quantization and its application to time-series prediction. Архивная копия от 16 июля 2019 на Wayback Machine IEEE Transactions on Neural Networks, 4 (1993) #4, 558—569. На сайте PCA Архивная копия от 16 марта 2019 на Wayback Machine
  16. Hyvdrinen A, Karhunen J., and Oja E., Independent Component Analysis, A Volume in the Wiley Series on Adaptive and Learning Systems for Signal Processing, Communications, and Control. — John Wiley & Sons, Inc., 2001. — XVI+481 pp. ISBN 0-471-40540-X
  17. Rao, K., Yip P. (eds.), The Transform and Data Compression Handbook, CRC Press, Baton Rouge, 2001.
  18. Muresan D. D., Parks T. W., Adaptive Principal Components and Image Denoising Архивная копия от 16 июля 2019 на Wayback Machine, in: Image Processing, 2003, Proceedings 2003 IEEE International Conference on Image Processing (ICIP), 14-17 Sept. 2003, V. 1, pp. I-101-104. На сайте PCA Архивная копия от 16 марта 2019 на Wayback Machine
  19. англ. Correspondence Analysis
  20. Benzécri, J.-P., L’Analyse des Données. Volume II. L’Analyse des Correspondences, Dunod, Paris, France, 1973.
  21. Tekaia F., Use of Correspondence Analysis in Genome Exploration Архивная копия от 12 августа 2007 на Wayback Machine.
  22. См. статью Трансляция (биология)
  23. Zinovyev A., Сluster structures in genomic word frequency distributions Архивная копия от 10 марта 2019 на Wayback Machine; а также в arXiv: PCA and K-Means decipher genome Архивная копия от 24 июля 2019 на Wayback Machine.
  24. Дюк В. А., Компьютерная психодиагностика, С-Пб., 1994; отдельные разделы см. на сайте «Пси-фактор» Архивная копия от 28 апреля 2019 на Wayback Machine
  25. Гуц А. К., Фролова Ю. В.,Математические методы в социологии Архивная копия от 21 января 2022 на Wayback Machine, Серия: Синергетика: от прошлого к будущему. — Издательство «УРСС», 2007. — 216 с.
  26. Политический атлас современности: Опыт многомерного статистического анализа политических систем современных государств. Архивная копия от 21 января 2022 на Wayback Machine — М.: Изд-во «МГИМО-Университет», 2007. — 272 с.
  27. Berkooz G, Holmes Ph., and. Lumley J. L, The proper orthogonal decomposition in the analysis of turbulent flows, Архивная копия от 16 июля 2019 на Wayback Machine Annu. Rev. Fluid Mech. 25 (1993), 539—575. Первая публикация для анализа турбулентности — Lumley, J. L., The structure of inhomogeneous turbulence. In Atmospheric Turbulence and Wave Propagation, ed. A. M. Yaglom, V. I. Tatarski, pp. 166—178. Moscow: Nauka, 1967. (Атмосферная турбулентность и распространение радиоволн. Труды Международного коллоквиума. Москва, 15—22 июня 1965 г. Под ред. А. М. Яглома и В. И. Татарского. М.: Наука, 1967, 374 стр. с илл. и карт. (АН СССР. Междувед. геофиз. ком. Ин-т физики атмосферы). Интересно, что авторы этих работ возводят историю своего подхода к работам Косамби (1943), Лоэва (1945), Кархунена (1946), Пугачёва (1953) и Обухова (1954), не обратив внимание на работы Пирсона и 40 лет предшествующей истории метода.
  28. Harry T. Lawless, Hildegarde Heymann. Data Relationships and Multivariate Applications (англ.) // Food Science Text Series. — New York, NY: Springer New York, 2010. — P. 433–449. — ISBN 9781441964878, 9781441964885. — doi:10.1007/978-1-4419-6488-5_18. Архивировано 9 июня 2018 года.
  29. Correlation between volatile composition and sensory properties in Spanish Albariño wines (англ.) // Microchemical Journal. — 2010-07-01. — Vol. 95, iss. 2. — P. 240–246. — ISSN 0026-265X. — doi:10.1016/j.microc.2009.12.007.
  30. Nataliya V Zhilinskaya, Varuzhan A Sarkisyan, Valentina M Vorobieva, Irina S Vorobieva, Alla A Kochetkova, Elena A Smirnova, Irina V Glazkova. Development of a marmalade for patients with type 2 diabetes: Sensory characteristics and acceptability (англ.) // Food Science and Technology International : периодическое издание. — 2018. — 7 июня. — ISSN 10820132.
  31. Texture profile and correlation between sensory and instrumental analyses on extruded snacks (англ.) // Journal of Food Engineering. — 2014-01-01. — Vol. 121. — P. 9–14. — ISSN 0260-8774. — doi:10.1016/j.jfoodeng.2013.08.007. Архивировано 17 июня 2022 года.
  32. Characterisation of the sensory properties and market positioning of novel reduced-fat cheese (англ.) // Innovative Food Science & Emerging Technologies. — 2014-01-01. — Vol. 21. — P. 169–178. — ISSN 1466-8564. — doi:10.1016/j.ifset.2013.10.003.

Литература

[править | править код]

Классические работы

  • Pearson K., On lines and planes of closest fit to systems of points in space, Philosophical Magazine, (1901) 2, 559—572; а также на сайте PCA.
  • Sylvester J.J., On the reduction of a bilinear quantic of the nth order to the form of a sum of n products by a double orthogonal substitution, Messenger of Mathematics, 19 (1889), 42—46; а также на сайте PCA.
  • Frećhet M. Les élements aléatoires de nature quelconque dans un espace distancié. Ann. Inst. H. Poincaré, 10 (1948), 215—310.

Основные руководства

  • Айвазян С. А., Бухштабер В. М., Енюков И. С., Мешалкин Л. Д. Прикладная статистика. Классификация и снижение размерности.— М.: Финансы и статистика, 1989.— 607 с.
  • Jolliffe I.T. Principal Component Analysis, Series: Springer Series in Statistics, 2nd ed., Springer, NY, 2002, XXIX, 487 p. 28 illus. ISBN 978-0-387-95442-4

Современные обзоры

Учебное программное обеспечение

  • Java-апплет «Метод главных компонент и самоорганизующиеся карты» (E.M. Mirkes, Principal Component Analysis and Self-Organizing Maps: applet. University of Leicester, 2011). Свободно распространяемая программа с моделями метода главных компонент, самоорганизуюшихся карт (SOM) и растущих самоорганизующихся карт (Growing Self-Organized Maps, GSOM). Дано описание алгоритмов (англ.), приведены руководства и некоторые публикации. Используется для выполнения небольших студенческих исследовательских работ по сравнению различных алгоритмов аппроксимации данных.