Analiza głównych składowych – Wikipedia, wolna encyklopedia
Analiza głównych składowych (ang. principal component analysis, PCA) – jedna ze statystycznych metod analizy czynnikowej. Zbiór danych składający się z N obserwacji, z których każda obejmuje K zmiennych, można interpretować jako chmurę N punktów w przestrzeni K-wymiarowej. Celem PCA jest taki obrót układu współrzędnych, aby maksymalizować w pierwszej kolejności wariancję pierwszej współrzędnej, następnie wariancję drugiej współrzędnej itd. Tak przekształcone wartości współrzędnych nazywane są ładunkami wygenerowanych czynników (składowych głównych). W ten sposób konstruowana jest nowa przestrzeń obserwacji, w której najwięcej zmienności wyjaśniają początkowe czynniki.
PCA jest często używana do zmniejszania rozmiaru zbioru danych statystycznych, poprzez odrzucenie ostatnich czynników. Można też poszukać merytorycznej interpretacji czynników, zależnej od rodzaju danych, co pozwala lepiej zrozumieć naturę danych, choć bywa trudne przy większej liczbie badanych zmiennych. W przetwarzaniu sygnałów PCA jest używana np. do kompresji sygnału.
PCA może być oparte albo na macierzy korelacji, albo macierzy kowariancji utworzonej ze zbioru wejściowego. Algorytm w obydwu wersjach jest poza tym identyczny, jednak różne są uzyskane wyniki. W przypadku użycia macierzy kowariancji, zmienne w zbiorze wejściowym o największej wariancji mają największy wpływ na wynik, co może być wskazane, jeśli zmienne reprezentują porównywalne wielkości, np. procentowe zmiany kursów różnych akcji. Użycie macierzy korelacji natomiast odpowiada wstępnej normalizacji zbioru wejściowego tak, aby każda zmienna miała na wejściu identyczną wariancję, co może być wskazane, jeśli wartości zmiennych nie są porównywalne.
Algorytm
[edytuj | edytuj kod]Jako dane wejściowe podawana jest macierz zawierająca kolejne obserwacje, na podstawie których będą wyznaczane główne składowe (wektory bazowe nowej przestrzeni). Są one zwracane również jako jedna macierz. Algorytm PCA składa się z następujących kroków:
Wyznaczenie średnich dla wierszy
[edytuj | edytuj kod]Jest to pierwsza czynność konieczna do stworzenia macierzy kowariancji macierzy wejściowej. Matematycznie można ten krok zapisać jako:
Kolejne pozycje wektora średnich u przechowują więc średnie odpowiadających wierszy. Obliczane są więc średnie wartości kolejnych cech dla wszystkich obserwacji.
Wyliczanie macierzy odchyleń
[edytuj | edytuj kod]Krok ten polega na odjęciu od macierzy wejściowej średnich wyliczonych w punkcie I. Od każdego elementu macierzy odejmujemy średnią dla wiersza, w którym się znajduje:
Wyznaczenie macierzy kowariancji
[edytuj | edytuj kod]W ogólnym przypadku macierz kowariancji wylicza się ze wzoru:
gdzie to macierz odchyleń. W przypadku, gdy wartości macierzy są rzeczywiste, użyte we wzorze sprzężenie hermitowskie (*) jest tożsame ze zwykłą transpozycją.
Obliczenie wartości własnych macierzy kowariancji
[edytuj | edytuj kod]Wyliczenie macierzy V wektorów własnych, która spełnia:
gdzie D jest macierzą przekątniową wartości własnych C.
Wybór wartości własnych
[edytuj | edytuj kod]Na tym etapie można dokonać zawężenia wymiaru przestrzeni. Z otrzymanych wartości własnych wybieramy te największe, co ma na celu minimalizację straty informacji podczas rzutowania danych na mniejszą liczbę wymiarów. Im wyższa wartość własna tym odpowiadający jej wektor własny jest słabiej skorelowany z pozostałymi.
Wyznaczenie wektorów własnych
[edytuj | edytuj kod]Po wyliczeniu i wybraniu podzbioru wartości własnych można wyznaczyć wektory własne. Wyznaczenie wektorów własnych macierzy gdy znamy wartości własne sprowadza się do rozwiązania układu równań liniowych:
Najprościej jest zastosować algorytm eliminacji Gaussa.
Rzutowanie na wektory własne
[edytuj | edytuj kod]Po wyznaczeniu wektorów własnych można dokonać na nie projekcji. Wyznaczenie punktu w nowej przestrzeni odpowiadającego danemu wektorowi obserwacji polega na zwykłym mnożeniu macierzy:
gdzie:
- – macierz wektorów własnych,
- – wektor rzutowany,
- – wektor w nowej przestrzeni,
- – liczba wektorów własnych.
Wektory są tutaj oczywiście zapisywane w kolumnach. Wektor y to reprezentacja wektora x w przestrzeni głównych składowych.
Przykład
[edytuj | edytuj kod]Mając zbiór danych zawierający 100 przypadków (100 osób) charakteryzowanych przez 5 zmiennych (np. wzrost, waga, wiek, dochód, powierzchnia mieszkania) można przypuszczać, że zmienne „wzrost” i „waga” będą ze sobą silnie dodatnio skorelowane (gdyż im ktoś wyższy, tym więcej waży). Po to żeby uzyskać większą przejrzystość danych lub uniknąć powielania się danych (np. przy segmentacji klientów) czasami warto jest zastąpić dwie zmienne jedną zmienną – tak zwaną składową, którą można nazwać na przykład „wielkość”. Podobnie skorelowane będą ze sobą zmienne „dochód” i „powierzchnia mieszkania”, które być może można zastąpić czynnikiem „zamożność”.
Należy stworzyć macierz kowariancji (5*5) i wyznaczyć jej wartości własne oraz wektory własne. Szeregujemy wartości własne od największej do najmniejszej i jeżeli np. 3 pierwsze wartości własne stanowią odpowiednio duży udział w sumie wszystkich pięciu wartości własnych (np. powyżej 90%) to oznacza to, że możemy rozpatrywać model 3-czynnikowy. Tworzymy więc macierz gamma (o wymiarach 5*3 – bierzemy 3 „kolumny-wektory własne” odpowiadające odpowiednio uszeregowanym wartościom własnym) i mnożymy macierz danych wejściowych (100*5) przez macierz gamma (5*3) dostając macierz 100*3. Otrzymana macierz zawiera wartości poszczególnych składowych dla poszczególnych przypadków.
Teraz należy zbadać korelacje poszczególnych składowych (mamy ich 3) ze zmiennymi wejściowymi (mieliśmy ich 5). Załóżmy, że pierwsza składowa jest mocno skorelowana z „wagą” i „wzrostem”, druga z „wiekiem”, a trzecia z „dochodem” i „powierzchnią mieszkania”. Przeanalizujmy zatem pierwszy wiersz otrzymanej macierzy:
Jeżeli element (1,1) tej macierzy ma dużą wartość, to oznacza to, że dana osoba jest duża (ma prawdopodobnie duży wzrost i dużą wagę). Jeśli element (1,2) jest duży, oznacza to, że dana osoba jest stara. Jeśli element (1,3) ma dużą wartość, to znaczy, że osoba ta jest zamożna (czyli najprawdopodobniej ma duży dochód i duże mieszkanie).
Normalizacja
[edytuj | edytuj kod]W przypadku rzeczywistych obliczeń należy dokonać normalizacji zmiennych (dla wszystkich przypadków). Brak normalizacji, w przypadku zmiennych o dużym rozrzucie zakresu wartości, spowoduje fałszywy wzrost znaczenia składowych o dużych wartościach. Np. dla powyższego przykładu, gdy wartości zmiennych będą w zakresie dziesiątek, a dochód osób liczony będzie w tysiącach złotych – dochód ten faktycznie stanie się pierwszą składową.
Zobacz też
[edytuj | edytuj kod]Bibliografia
[edytuj | edytuj kod]- W.J. Krzanowski , Principles of Multivariate Analysis: A User’s Perspective, Oxford University Press, 2000, ISBN 0-19-850708-9, ISBN 978-0-19-850708-6 .
- Tutorial PCA