EFA i PCA

Opis próby czy testowanie hipotez to nie są jedyne zadania rozwiązywane za pomocą narzędzi statystycznych. Dzięki nim duży zbiór cech można spróbować sprowadzić do mniejszego. Można również pokusić się o sprawdzenie, czy istnieje zestaw ukrytych cech, który generuje otrzymany zbiór danych (zwykle: odpowiedzi w kwestionariuszu). Redukcja da-
nych oraz odkrywanie struktury zmiennych to dwie kolejne obszary zastosowań statystyki. Poniższy materiał zawiera wprowadzenie do analizy czynnikowej oraz rozszerzenie materiału o analizie składowych głównych (wprowadzenie do PCA znajduje się tutaj pca).

Zanim przejdziemy do głównego tematu, chciałam nawiązać do kilka pojęć, które będą potrzebne do omówienia trudniejszych zagadnień. Oto ich lista:
• zmienność
• kombinacja liniowa
• macierz korelacji i jej dekompozycja według wartości własnych


Zmienność.
Zmienność można rozumieć tak jak to słowo brzmi - chodzi o zróżnicowanie wartości, które może przyjąć zmienna losowa - różnimy się między sobą na wielu, wielu wymiarach, nie tylko wzrostem i wagą, ale całym zbiorem zjawisk psychicznych. W tym materiale będę pisać zmienne losowe, mając na myśli typowo psychologiczne pojęcia: albo po prostu cechy, albo - bardziej metodologicznie namacalnie - itemy, czyli pozycje testowe. Zmienne losowe mogą być też stałe - to znaczy przyjmować te same wartości dla różnych obserwacji, w myśl zasady - każdemu po równo (lewa część poniższego rysunku). Oczywiście, taka cecha, która ma stałą wartość niezależnie od osoby badanej jest nieinteresująca i zarazem mało informatywna - nie niesie w sobie za wiele informacji. Taki item także jest nieinteresujący, jeśli wszyscy odpowiedzą tak samo. Dodatkowo, może również prowadzić do kłopotów w analizach.

Rys. Stałość i zmienność zmiennych losowych (LJK)

Zmienność zmiennej X można opisywać za pomocą różnych wskaźników (zwanych statystykami, zwłaszcza gdy mają pożądane właściwości) np. rozstęp, czyli różnica między największą a najmniejszą wartością albo rozstęp międzykwartylowy. Spośród nich wszystkich najbardziej popularną jest wariancja, var(X). O innych pisałam tu:klik.

W tym miejscu, chciałabym napisać o dwóch pojęciach: zmienności wspólnej i swoistej, mimo że jeszcze nie wprowadziłam pojęcia ’czynnik’, dlatego proszę Czytelnika o cierpliwość.
Mamy zbiór danych. W zbiorze danych są zarówno obserwacje (zwykle w wierszach) i zmienne (zwykle w kolumnach). Zmienność danej zmiennej X wyrażona przez wariancję var(X) można rozłożyć na zmienność wspólną i zmienność swoistą. Zmienność wspólna jest to ta część, która jest wyjaśniona przez (ukryte) czynniki.

Zmienność swoista jest właściwa tylko danej zmiennej. Zapisując to równaniem:
wariancja zmiennej X = wariancja wspólna + wariancja swoista
Matematycznie powyższy zapis przełożę na:
varX = h2i + u2i
gdzie h2i i - wariancja wspólna (zwana też ’zasobami wspólnymi’, communalities) wyjaśniona przez czynniki ukryte, ui - wariancja swoista charakterystyczna tylko dla tej konkretnej zmiennej w zebranej bazie obserwacji.

Kombinacja liniowa.
Kombinacja liniowa ma ścisłą definicją w języku matematycznym, natomiast ja chciałabym wprowadzić pojęcie kombinacji liniowej przez podanie przykładu. Liceum MMXL wprowadziło ocenę osiągnięć ucznia na podstawie trzech typów ocen cząstkowych: wyniki w naukach przyrodniczo-technicznych (matematyka, fizyka, chemia), wyniki w naukach humanistycznych (język polski, język angielski, historia) oraz wyniki sportowe.

Zbiorcza ocena Osiągniecia szkolne liczona jest w następujący sposób:
OS = 6 · Wyniki w naukach przyrodniczo − technicznych +
5 · Wyniki w naukach humanistycznych + 4 · Wyniki Sportowe
Osiągnięcia Szkolne są zatem sumą poszczególnych ocen cząstkowych z odpowiednimi wagami - najbardziej liczą się nauki ścisłe, najmniej punktów uczeń zdobywa za w-f. Przemnożenie zmiennych przez liczby oraz zsumowanie daje jedną zmienną, OS. Można zatem powiedzieć, że Osiągnięcia Szkolne są kombinacją liniową trzech typów ocen: Wyników w naukach przyrodniczo-technicznych, humanistycznych i sportowych. Kombinacją - ponieważ kombinują, czyli łączą trzy wskaźniki i robi się jeden, Osiągnięcia Szkolne. Na dodatek, żadna z cząstkowych ocen nie jest podnoszona do kwadratu czy pierwiastkowana - jest jedynie przemnożona przez konkretną liczbę (stąd jest to kombinacja liniowa, a nie np. kwadratowa).

Macierz korelacji i jej dekompozycja według wartości własnych, które są wielkościami wariancji czynnika. Teraz powyższe zdanie nie ma większego sensu, więc zacznijmy od początku: zmienność jednej zmiennej opisywana jest za pomocą wariancji, var(X). Dalej, współzmienność dwóch zmiennych X oraz Y można przedstawić za pomocą korelacji, cor(X, Y). Jeśli mamy więcej niż dwie zmienne, współzmienność wszystkich możliwych par zmiennych możemy przedstawić w postaci tablicy, o której profesjonalnie mówi się macierz. To właśnie macierz korelacji stanowi centrum zainteresowania zarówno analizy czynnikowej, jak i analizy składowych głównych. Poznajmy trochę nowe pojęcie.
Dla trzech zmiennych X1, X2, X3 macierz korelacji wygląda następująco:



Wartości w powyższej macierzy zaznaczone zielonym kolorem znajdują się na głównej przekątnej macierzy. Każda macierz ma główną przekątną. Część macierzy jest względem niej symetryczna, tj. wartości pod główną przekątną są odbite nad główną przekątną (ona zachowuje się jak lustro). Jedną z macierzy symetrycznych jest macierz korelacji, bo przecież korelacja X1 i X2 jest taka sama jak korelacja X2 i X1 - kolejność nie ma znaczenia.
W macierzy korelacji na głównej przekątnej figurują wariancje poszczególnych zmierzonych zmiennnych:
var(X1), var(X2), var(X3)
Tak wygląda pełna macierz korelacji. Gdyby zamiast wariancji zmiennych, na przekątnej znalazłby się tylko wariancje wspólne hi2 (patrz wyżej), to taka macierz ze zmienioną główną przekątną byłaby zredukowaną macierzą korelacji. Dlaczego o tym piszę? Bo pełną macierzą korelacji zajmuje się analiza składowych głównych, a zredukowaną macierzą korelacji zajmuje się analiza czynnikowa - to jest podstawowa różnica między tymi dwoma technikami statystycznymi. Ma to ogromne konsekwencje w interpretacji wyników i dlatego nie wolno tego mieszać.

Jeszcze chwilę popatrzymy na macierze.
Dla n zmiennych X1 , X2 , ... , Xn , gdzie n jest dowolną liczbą, np. 563. Macierz korelacji jest odpowiednio większa:



Macierz jednostkowa - to macierz, która ma przekątnej (głównej) jedynki, a w pozostałych miejscach zera:



Zmienne latentne
Co to są zmienne latentne (zmienne ukryte, a tutaj: czynniki)? Najprościej rzecz ujmując, są to zmienne których nie da się bezpośrednio zaobserwować. Możemy badać czas reakcji, który jest pewnym wskaźnikiem stanów czy cech psychicznych. Możemy sprawdzać, czy dana osoba jest towarzyska, nie-małomówna, ale nie wyjmiemy termometru, żeby zbadać jej ekstrawersję. My możemy najczęściej badać przejawy ukrytych cech - inteligencji, cech osobowości, itp. Aby odkryć te ukryte zmienne należy zająć się dwoma matematycznymi obiektami związanymi z macierzami.
Są to: wartości własne oraz wektory własne - występują one parami: każdej wartości własnej przyporządkowany jest wektor własny. W zasadzie, to najbardziej interesujące są wartości własne - z jednej strony można o nich myśleć, jako liczbach, które charakteryzują macierz: są jakby jej liniami papilarnymi. Ma to przełożenie na praktykę, bo wartość własna jest równa wariancji czynnika. Z kolei nam zależy na czynnikach o jak największych wartościach własnych, bo wówczas czynniki te zawierają jak najwięcej wariancji z oryginalnego zbioru danych.

EFA i PCA
Analiz dokonuje się nie tylko po to, aby opisywać próbę, ale także, aby wykryć strukturę danych (odkryć procesy stojące za danymi) lub zredukować je do mniejszego rozmiaru. EFA (Exploratory Factor Analysis) jest przykładem modelu wspólnego czynnika, zakładającego, że za zbiorem zmierzonych zmiennych kryją się wyjaśniające ich zmienność czynniki wspólne i czynniki specyficzne (swoiste) - patrz wyżej. Czynniki wspólne są nieobserwowalnymi zmiennymi, które mogą mieć wpływ na więcej niż jedną zmienną obserwowalną X. Czynnik specyficzny (swoisty, unikalny, unique) jest właściwy tylko dla danej zmiennej X. Posługując się terminem ’kombinacje liniowe’ - każda zmierzona zmienna jest liniową kombinacją jednego lub więcej wspólnych czynników i jednego unikalnego (specyficznego) czynnika. I w drugą stronę, czynnik można przedstawić w postaci kombinacji liniowej oryginalnych zmiennych obserwowalnych i spojrzeć na niego z nieco bardziej ogólnego punktu widzenia, a także nadać abstrakcyjną nazwę.
Natomiast PCA jest metodą redukcją danych bez rozdzielania na wariancję wspólną i swoistą. Dla przykładu: zbiór dziesięciu oryginalnych zmiennych można sprowadzić do zbioru czterech nowych zmiennych, zachowując możliwie najwięcej informacji (czyli jak największą zmienność oryginalnych zmiennych, bo w gruncie rzeczy to jest ta ’informacja’). Z tego względu, celem PCA jest przedstawić oryginalne zmienne obserwowalne za pomocą liniowych kombinacji składowych, tak jakby spakować je do mniejszych zmiennych. Analiza czynnikowa oraz redukcja danych są stosowane gdy zmienne obserwowane traktujemy jako ciągłe i gdy oczekujemy ciągłych zmiennych ukrytych (to ustalasz Ty, drogi badaczu).
Poniżej znajduje się ogólny opis obu technik wraz z towarzyszącym zbiorem różnych statystyk, wspomagających badacza.
Podczas realizacji zadania EFA czy PCA, często posiłkujemy się różnymi regułami kciuka, które pomagają odpowiedzieć na pytania, przed którymi stoi badacz: jak określić liczbę czynników, ile zmiennych należy wybrać do analiz, jak ocenić wyniki etc. Mimo wszystko, reguły kciuka pozostają heurystycznymi regułami - w większości przypadków działają, ale nigdy nie jesteśmy pewni, czy nasz przypadek jest we właściwej kategorii. A ponieważ nie są udowodnionymi matematycznie zasadami, to zdania są podzielone i można spotkać różne opinie. O niektórych regułach kciuka napisałam. Dodatkowo, nie napisałam również o wszystkich możliwych statystykach wykorzystywanych w analizie - powodem takiej decyzji jest to, że jest ich bardzo dużo, a mi zależało na przed stawieniu sedna problemu EFA i PCA, zamiast tworzeniu poradnika parametrów.

Różnica między PCA a EFA
Podstawowa różnica między EFA a PCA tkwi (dosłownie) w przedmiocie analiz. PCA ’trawi’ pełną macierz korelacji, z kolei EFA zmaga się ze zredukowaną macierzą korelacji - zredukowaną o wariancję swoistą poszczególnych zmiennych obserwowalnych. EFA szuka struktury ukrytych zmiennych nieobciążonych wariancją swoistą, a PCA jest metodą redukcji danych do mniejszego rozmiaru bez rozróżnienia na rodzaje wariancji. Różnica znajduje odbicie w nomenklaturze - EFA tworzy czynniki (ukryte), a PCA - składowe (główne).

Różnice przedstawione matematycznie
PCA - Principal Components Analysis Analiza Składowych Głównych - oryginalne zmienne obserwowalne w
bazie można przedstawić w postaci kombinacji liniowych składowych:
Z = A · G
A - macierz ładunków
G - macierz składowych głównych
FA - Factor analysis Analiza czynnikowa - oryginalne zmienne obserwowalne w bazie można przedstawić w
postaci kombinacji liniowych czynników ukrytych oraz specyficznych:
Z = A · F + B · U
A - macierz ładunków
F - macierz czynników wspólnych
B - macierz ładunków specyficznych
U - macierz czynników specyficznych
Nawet jeśli te powyższe równania niewiele mówią, to z samego porównania prawych stron tych równań, widać że w pierwszym przypadku zmienność zmiennych obserwowalnych Z jest przedstawiona jako przemnożenie dwóch bytów A oraz G, a w drugim przypadku jest jeszcze coś dodanego - chodzi o to, że zmienność Z rozłożono na część wspólną i część specyficzną, tak że przedmiotem analiz stała się zredukowana macierz korelacji (to jest w dużym uproszczeniu).

Zmienne w modelu
Kluczową dla analizy czynnikowej jest decyzja o tym, które zmienne obserwowalne z bazy włączyć do modelu - to na przykład są itemy w kwestionariuszu. Odpowiedź na pytanie, jakie zmienne powinny wejść do analiz, ma daleko idące konsekwencje. Może się zdarzyć, że w wyniku wybrania nieoptymalnego zbioru zmiennych otrzymamy wyniki, delikatnie rzecz ujmując, trudne do zinterpretowania. Chodzi o stabilność algorytmów, dzięki którym otrzymujemy ’cyferki’ - źle się zachowują, jeśli mamy zmienne, które nie wnoszą żadnej informacji, np. wartości takiego itemu są te same: wszyscy odpowiedzieli nie wiem. Zaciemniać analizy mogą między innymi te zmienne (itemy), które niosą małą ilość informacji lub nie korelują między sobą. Dobrze byłoby, aby na jeden ukryty czynnik przypadało 3 lub 4 zmienne obserwowalne (albo itemy).

Statystyką wspierającą podjęcie decyzji dotyczącej zmiennych w modelu jest ZZW, Zasób Zmienności Wspólnej lub krócej: zasoby wspólne. Jest to ilość wariancji danej zmiennej obserwowalnej X, która może zostać wyjaśniona przez wybraną przez użytkowaną lub sugerowaną przez teorię liczbę czynników. Ze względu na to, że PCA operuje pełną macierzą wariancji-kowariancji, początkowy (przed uzyskiwaniem/ekstrahowaniem składowych) zasób zmienności wspólnej wynosi 1. Za to EFA korzysta ze zredukowanej macierzy korelacji i statystyki ZZW (podczas analizy czynnikowej) dla każdej zmiennej będą różne od 1. Początkowy ZZW danej zmiennej (itemu; pytania w kwestionariuszu) przed wyodrębnieniem oznacza ilość wariancji tej zmiennej wyjaśnionej przez wszystkie czynniki (albo składowe, jeśli PCA). ZZW po wyodrębnieniu oznacza ilość wariancji wyjaśnionej przez czynniki, które ostatecznie wzięły udział w danym rozwiązaniu.

Wielkość próby - Nie ma jednoznacznych wskazań. Co gorsza, nie ma też zbieżnych zdań na ten temat. W przypadku, gdy zmienne posiadają duże zasoby wspólne (ZZW, więcej: wyżej), to wystarczy około 100 elementów. Przy małych zasobach wspólnych nawet 200 czy 300 nie wystarczy. Obok wielkości próby istotnym elementem jest jakość tej próby - próba niezbyt homogeniczna (jednorodna) w badaniu może również spowodować problemy. Najlepiej jest badać różne osoby (nie tylko studentów pierwszego roku psychologii).

Ilość czynników
Aby określić liczbę czynników do dyspozycji dwa sposoby. Po pierwsze: teoria, która pozwala spodziewać się, ile czynników ukrytych występuje, np. model Wielkiej Piątki zaskakująco zakłada pięć czynników. Drugim sposobem jest wykorzystać dostępne wskaźniki, które pozwolą podjąć decyzję. Podstawowym narzędziem jest wykres osypiska (ang. scree plot), który prezentuje uszeregowane wartości własne od największej do najmniejszej. Wykres ten wypłaszcza się od pewnej wartości - przyjmuje się, że jest to punkt odcięcia liczby czynników.
Inne kryterium - kryterium Kaizera - pozwala wskazać ilość czynników na podstawie wartości własnych. Ta reguła kciuka mówi, że liczba czynników zależy od liczby wartości własne większych od jednego (1).
Poniżej znajduje się wykres osypiska (przykładowy).

Rys. Wykres osypiska dla EFA i dla PCA (LJK).

To są w zasadzie dwa nałożone na siebie wykresy osypiska - jeden, ten z czarnymi kropkami, to wykres osypiska dla analizy składowych głównych (PCA). Drugi, z kropkami o pustym środku, to wykres osypiska dla analizy czynnikowej. Dlaczego one się nie pokrywają? Tak jak już pisałam, pierwsza technika, PCA, operuje na pełnej macierzy korelacji między zmiennymi. Druga technika, FA, bazuje na zredukowanej macierzy korelacji. Stąd też obliczenia w obu technikach będą różne

Ekstrakcja czynnika
Algorytmy zaimplementowane w programie statystycznym pozwalają na wyodrębnianie (ekstrakcję) czynników za pomocą kilku metod. Są to np.: metoda największej wiarygodności, która zakłada wielowymiarowy rozkład normalny zmiennych obserwowalnych X. Cóż, po pierwsze - większość zmiennych nie ma takiego rozkładu, a po drugie - normalność rozkładu poszczególnych zmiennych nie gwarantuje normalności wspólnego rozkładu: To, że każdy z osobna item ma rozkład normalny, nie znaczy jeszcze, że wszystkie w kupie mają wielowymiarowy rozkład normalny (to nie jest oczywiste).
Metodą, która radzi sobie z powyższym problemem, jest metoda osi głównych (principal axis) - ta metoda nie wymaga normalności rozkładu, więc jest ’bezpieczniejsza’. Mimo tego, dobrze byłoby przejrzeć zmienne pod kątem występowania wartości odstających, tzw. outlierów. Zawsze przed analizami zrób tzw. data screening, pooglądaj te dane.

Ładunki czynników.
Skoro każda zmienna obserwowalna jest kombinacją liniową czynników wspólnych, to można ją przedstawić w taki sposób:
X = a · F1 + b · F2 + ... + k · Fk
gdzie F1 , F2 , ... , Fk symbolizują ukryte czynniki, a X to zmienna obserwowalna. Liczby a, b, ... k, przez które przemnażane są czynniki to są właśnie ładunki czynnikowe (factor loadings). Pokazują one, jak bardzo zmienna X ’ładuje’ dany czynnik. Im wyższa wartość, tym bardziej dana zmienna ma swój udział w czynniku. W praktyce, interesują nas te ładunki, które są powyżej 0.5 (to jest kolejna reguła kciuka). Skoro jest to reguła kciuka, to nie ma co się dziwić, że niektórzy przyjmą 0.3 za wartość progową dla ładunków.

Rotacja
Rotacja rozwiązania, czyli obracanie układu współrzędnych nowych zmiennych (czynników lub składowych) tak, aby można było łatwiej zinterpretować wyniki. Między innymi zależy nam na tym, aby jedna zmienna obserwowalna X nie ładowała więcej niż jednego czynnika na raz. Takie crossloadings zmiennej X z dwoma lub więcej czynnikami są problematyczne, np. jeśli X ładuje wysoko zarówno czynnik A i czynnik B, wówczas trudno taką zmienną poprawnie zinterpretować.

Rotacje dzielą się na ortogonalne (np. varimax) i nieortogonalne (skośne - np. oblimin). Ortogonalne nie pozwalają na to, aby czynniki były skorelowane ze sobą, natomiast nieortogonalne dopuszczają taką możliwość. Jeśli wykorzystamy rotacje nieortogonalne, to macierz ładunków czynnikowych rozłoży się na dwie części: macierz modelową (pattern matrix) oraz macierz struktury (structure matrix). Aby odczytać ładunki w takim przypadku, należy wykorzystać macierz modelową (pattern matrix).
Dopuszczenie skorelowania (czyli nieortogonalności) czynników ukrytych jest czasem dobrym rozwiązaniem z tego względu, że rzadko ukryte cechy psychologiczne, które są odpowiedzialne za strukturę otrzymanych danych, są zupełnie niezależne od siebie. Przykład (zupełnie losowy) - niech zmiennymi ukrytymi będą lęk i konserwatyzm. Mimo, że to są odrębne konstrukty psychiczne, nie można twierdzić, że są one całkowicie niezależne od siebie, dlatego warto byłoby dopuścić ich skorelowanie.

Ładunki krzyżowe
Idealnie jest, jeśli dany item ładuje tylko jeden, podstawowy dla siebie czynnik. Oznacza to wtedy, że item ten bada tylko jedną cechę, ale jest to sytuacja tylko idealna. Często jest tak, że dwa (i więcej) czynników wyraża się przez jeden item, np. pytanie o krzywdę wyrządzoną drugiej osobie może być zrozumiane jako pytanie o krzywdę dziecku. Dlatego żąda się, aby ładunki krzyżowe, czyli te ładunki, które dotyczą pozostałych czynników, a nie tego podstawowego, pozostały jak najmniejsze. I kolejna reguła kciuka jest taka, żeby ładunki wynosiły mniej niż |0.3| (chodzi o wartość bezwzględną, wszystko co leży na lewo i na prawo od zera w odległości do 0.3 jest uznawane za dopuszczalne).

Ocena analiz
Ocena danych pod katem analizy polega na ocenie kilku parametrów z których wymienię jedynie: wyznacznik macierzy korelacji oraz test sferyczności Bartletta i Kryterium KMO. Wyznacznik macierzy to kolejny, obok wartości własnych, atrybut macierzy. Dzięki niemu wiadomo, czy dany zbiór zmiennych obserwowalnych można sprowadzić do mniejszego rozmiaru. Jeśli wyznacznik macierzy jest równy 1 oznacza to, że zmienne są słabo skorelowane ze sobą i zmienić wymiaru zmiennych nie da się. Test sferyczności Bartletta 1 jest testem, który sprawdza hipotezę o tym, że wyznacznik macierzy jest równy 1.
Gdyby tak było, to macierz korelacji miałaby same jedynki na przekątnej, które oznaczałyby że jest to macierz jednostkową (patrz wyżej).
Miara Kaiser-Meyer-Olkin (miara KMO) - kolejna miara adekwatności próby, w zasadzie macierzy korelacji, sprawdzająca czy dane mogą być użyte w analizie. Pomijając równania, zadowolimy się wartościami referencyjnymi: najlepsze wartości to te bliskie 1. Minimalna wartość tej miary, uważana za dopuszczalną wynosi 0.5

Konfirmacyjna czy Eksploracyjna?
Rozróżnienie między tymi dwoma typami analizy czynnikowej (lub PCA) tak naprawdę sprowadza się do intencji badacza - czy jego celem badacza sprawdzenie struktury danych (eksploracja) czy też potwierdzenie struktury badacza (konfirmacja)? W praktyce wygląda to tak, że jeśli badacz nie ma wcześniej przyjętych założeń co do postaci danych, to po prostu podąża za wynikami analizy, np. wykres osypiska pokazuje, że istnieją trzy czynniki, zatem rzeczony badacz ’wymusza’ ekstrakcję trzech czynników i później zastanawia się czy ma to uzasadnienie teoretyczne. Może on testować, czy rozwiązanie z mniejszą lub większą liczbą czynników będzie lepsze. Jeśli badacz ma założoną pewną strukturę danych i do dyspozycji była teoria przepowiadająca z góry określoną liczbę czynników, np. tak jak w teorii MFT 5 czynników, to badacz ustawia w programie ekstrakcję 5 czynników i może to uznać, za próbę potwierdzenia swojego modelu.
Tak, ale to, co napisałam powyżej, to trochę takie akrobacje umysłowe. Użycie EFA do potwierdzenia struktury czynnikowej nie jest bezspornie przyjętą metodą potwierdzania modelu czy hipotez. Raczej używa się do tego równań strukturalnych SEM (chociaż one też mogą być wykorzystywane do eksploracji) - równania te pozwalają badać stopień rozbieżności między danymi a postulowanym przez badacza modelem, który został z góry, przed badaniem opracowany.

PODSUMOWANIE



Brak komentarzy: