Noworoczne pozdrowienia!

Cześć wszystkim Czytającym!

Wszystkiego dobrego w Nowym 2019 Roku!

Czasami mam poczucie winy, że nie piszę więcej postów od siebie, ale w końcu to blog o statystyce, a nie o mnie. Natomiast, aby pogodzić jedno z drugim zdradzę, nad jakimi postami teraz pracuję:

- o regresji liniowej wielokrotnej. O regresji liniowej prostej post już wisi. To, na co warto zwrócić uwagę w nim, to sposób przedstawienia metody najmniejszych kwadratów MNK - w obrazkach.
- o analizie składowych głównych
- o tym, jak uczyć się statystyki.

Dlaczego to ostatnie? Bo idzie sesja i wiele z Was sięga do materiałów ze statystyki na chwilę przed egzaminem. Ok, nie jestem święta, sama tak podeszłam do niektórych egzaminów w moim życiu (co zemściło się później).
Póki co, jeszcze chwila do sesji jest, więc warto pomyśleć o tym wcześniej :-)
Pozdrowienia noworoczne - Lili.

P.s. Wstawiłam też tekst o historii powstawania rozkładu normalnego (czyli mało statystyki, dużo beletrystyki) - do poczytania, na rozgrzewkę. KLIK

Cześć!

Witam po wakacyjnej przerwie, która się trochę przeciągnęła.

Co nowego na blogu?
- napisałam, po co studentom psychologii potrzebna ta statystyka?
- odświeżyłam większość postów i dalej sukcesywnie odświeżam
- zaktualizowałam stronę o mnie i po co jest ten blog - tamta była straszna :-)
- napisałam nowe eseje i umieściłam je na osobnej stronie
Hmm... przyznam, że tym razem włożyłam więcej wysiłku i co najważniejsze: więcej serca – w swoje teksty (czy to o metodach, czy eseje). Jakoś tak, przestałam się stresować, że teksty te mają być maksymalnie naukowe i konkretne. Statystyka przecież nie musi być nudna i niezrozumiała, a ja na litość boską jestem blogerką, a nie obiektywnym i mdłym podręcznikiem do staty!
- utworzyłam konto na Instagramie, więc jestem instagramowiczką. Możesz pośledzić mnie tu:
https://www.facebook.com/statystykawpsychologii/
- postanowiłam robić własnoręcznie rysunki i mini-komiksy - jeszcze chwila zanim włożę je na bloga.
- uporządkowałam spis treści - wydaje mi się, że jest bardziej przejrzysty.

Żeby nie przeciągać, to...
Zapraszam do czytania i do kontaktowania się ze mną

Wiecie, ja tu siedzę po tej stronie monitora sama i nie mam zielonego pojęcia, czy się podobało, czy też nie. Ten blog jest dość specyficzny, więc jeśli masz chwilę, to skrobnij coś do mnie. Masz tu z lewej formularz albo komentarze niżej.

Letnie porządki na blogu!



Dzień dobry!
Jeszcze trochę, jeszcze tu coś poprawić, jeszcze tu coś dopisać. Pocieszam się myślą, że dopiero początek roku i jeszcze nie zostaliście wzięci do galopu :-)


Zostawiam niżej poprzedni wpis - z czerwca :)
Podczas przerwy wakacyjnej zawsze jest spadek ruchu na blogu, więc najwyższa pora, aby zająć się... porządkowaniem rzeczy na blogu :-) Posty będą znikać, pojawiać się, będą update'owane, przepisywane, nowe czcionki, obłędne kolorki i inne światełka. Krótko mówiąc, blog przechodzi totalny remastering.


Zapraszam na początek października na nową odsłonę mojego bloga.

Sesja letnia 2018

Cześć wszystkim studiującym i egzaminującym się :-)


Rys. Krater Darvaza (Wikipedia Creative Commons)


Wiecie, co to jest? To jest krater Darvaza w Turkmenistanie (witam wszystkich Turkmenów i Turkmenki). Dlaczego wstawiam obrazek jakiegoś krateru na bloga? Bo chciałam krótko i zwięźle przekazać, co czuję w ostatni na mojej uczelni dzień przed sesją. Myślę, że wielu z Was czuje podobnie.


Krater Darvaza nazywany też Wrotami do Piekieł (Door to Hell) siedzi w ziemi rozpalony od półwiecza - nie, to nie są efekty wizualne programu do obróbki zdjęć. Naprawdę nad Darwaza można robić kiełbaski od 1968. Płonie tak długo, bo radzieccy naukowcy - to nie jest żart - postanowili zrobić z metanem to, co czasami rolnicy robią na jesień z trawą (co też jest obecnie dość kontrowersyjną działalnością). Tego metanu okazało się być na tyle dużo, że ognisko trwa do dzisiaj. Oby i Wam, egzaminowanym starczyło tyle sił i energii. Powodzenia podczas sesji :-)

Testy parametryczne i nieparametryczne


W tym poście dowiesz się:
- co to jest parametr?
- przykład. Prawo Yerkesa-Dodsona
- co robią testy parametryczne?
- co robią testy nieparametryczne?
- czy test U Manna Whitneya jest naprawdę nieparametrycznym odpowienikiem testu t-Studenta?
- co zrobić, gdy rozkłady w obu grupach są różne?
- słowo o testach parametrycznych i nieparametrycznych.
- TL;DR


Testy parametryczne a nieparametryczne 
Co można porównywać? Na pewno nie można porównywać piernika i wiatraków. Możemy porównywać tylko te rzeczy, które mają coś wspólnego, dla których da się znaleźć coś wspólnego.
Pomyśl o poniższych przykładach:
- średni poziom empatii u kobiet i u mężczyzn;
- średni poziom empatii u człowieka i średni czas życia atomu promieniotwórczego
- średni poziom oceny jakości życia w populacji zdrowej i u chorych.
Które z nich wydają się sensowne?

Gdy już ustalimy, że zjawiska można ze sobą porównywać na gruncie teorii, to kierujemy się do narzędzi statystycznych. Bo wyboru mamy testy parametryczne i nieparametryczne. Czym one różnią się?


(jeśli chcesz zobaczyć, tylko moje definicje, to pomiń poniższą sekcję)



(przypomnienie interpretacji pojęcia parametru)

Parametr. Co to znaczy? Z greckiego 'poza miarą' – to za wiele nie mówi. Parametr to wielkość, która jest charakterystyką relacji łączącej zjawiska. Cóż za skondensowana definicja w typie słownikowej, rozwińmy ją nieco.

O samej relacji...
Wiesz, że między zjawiskami (obiektami, przedmiotami, zbiorowościami ludzi, cechami) występuje jakaś relacja: jeśli jednego jest mniej, to drugiego jest więcej, lub na odwrót. Albo zgodnie – wraz ze wzrostem jednego, rośnie drugie; wraz ze zmniejszanie się pierwszego, wyniki w drugim też maleją. Nie wiesz, czy wprost proporcjonalnie, liniowo, czy kwadratowo, czy wykładniczo. Wiesz tylko, że jest relacja między nimi.
To pierwszy stopień wtajemniczenia – wiedza o zachodzącej relacji między zjawiskami, obiektami, przedmiotami.

O charakterze relacji...
Drugi stopień wtajemniczenia to wiedza o charakterze tej relacji. Jeśli wiesz, że mając dwa worki zboża dostaniesz 4 złote, a za trzy worki zboża otrzymasz 6 złotych, to już masz większe pojęcie o charakterze relacji między zjawiskami – tutaj ona jest liniowa.
Za cztery worki zboża zapłacą 8 złotych. Za pięć – 10 złotych, i tak dalej. 
Jeśli chcesz dowiedzieć się jaki jest przelicznik zboża na pieniądze, to pytasz o parametr relacji między zbożem a złotem.
Parametr to wielkość rządząca relacją – dam Ci trzy worki, a Ty mi dasz dwa razy po trzy złote.
Owo dwa nie jest tutaj przetwarzaną wielkością – dwa dokładnie określa relację między workami a złotymi i dla tej relacji jest niezmienna. Wiesz już, że za tysiąc worków, kupiec zapłaci Ci 2000 złotych.

Postać relacji to jedno; znajomość parametrów, jakie nimi rządzą, to drugie. Skoro funkcja przekształca jedne liczby w drugie – dwójka staje się czwórką, a trójka szóstką, to możemy rozumieć parametry jako meta-liczby.

Przykład. Prawo Yerkesa-Dodsona jest świetną ilustracją sytuacji, w której wiemy, jaka relacja łączy dwa zjawiska: poziom pobudzenia i poziom wykonania zadania. Jakiego zadania? Zadanie jest tutaj rozumiane bardzo ogólnie – to może być cokolwiek, co wymaga aktywności.
Początkowo Yerkes i Dodson mówili tylko o zależności uczenia się od pobudzenia, ale później zostało to rozszerzone do wielu innych pojęć. Zapamiętywania, wnioskowania itp.


Z tego rysunku na pewno wynika istotny wniosek:
im wyższy poziom pobudzenia tym lepszy poziom wykonania zadania
aż do punktu, w którym natężenie pobudzenia jest zbyt duże i poziom wykonania spada. Bardzo ładnie to widać na sesji: zero stresu - nauka nie wchodzi, trochę stresu - nauka wchodzi, dużo stresu – nauka nie wchodzi. To, czego prawo Yerkesa – Dodsona nie precyzuje to parametr (lub parametry) tej relacji.

Jest kilka konkretnych funkcji, które mogłyby opisać U-kształtną relację między poziomem wykonania, a poziomem pobudzenia – może najlepsza będzie funkcja kwadratowa. Ta z liceum.

y = a*x2 
I to w takiej najprostszej wersji: tylko i wyłącznie z czynnikiem kwadratowym x2, przy którym stoi... stoi... no, właśnie ta liczba nazywa się: parametr a. Poniższy rysunek pokazuje, co dzieje się z krzywą, gdy parametr a przyjmuje różne wartości.
Dlaczego a to jest parametr? Bo określa charakter między x i y, ale nie zmienia charakteru tej relacji. Relacja jest kwadratowa, nawet gdy a = -0.5, a= -1, a =-2.5. To widać na rysunku poniżej.



Mamy sześć odwrócone-U-kształtnych linii i każdej z nich odpowiada konkretna wartość parametru a.
Każda z nich pasuje do treści prawa Yerkesa-Dodsona!
Dzięki temu przykładowi widać dwie rzeczy: czym jest parametr i że to nie jest zwykła liczba. A druga: wiedza z liceum przydaje się w statystyce.
Z tego wszystkiego, co powyżej powinieneś Czytelniku wynieść wiedzę, czym jest parametr (wielkość, która rządzi relacją; wielkość, która jest charakterystyką relacji łączącej zjawiska).

Co robią testy parametryczne?
Czasami chcemy porównać relacje. Jeśli wiemy, że dwie relacje są z tej samej rodziny – są liniowe, albo kwadratowe, albo jeszcze inne, to wystarczy zbadać równość ich parametrów. Ten fragment postu miał służyć przypomnieniu albo uświadomieniu sobie, czym jest parametr.
Rozkłady również mają parametry - rozkład normalny ma dwa: wartość oczekiwaną i wariancję. Jeśli znasz obie te wartości, to znasz całkowicie relację między x i y.

(koniec przypomnienia intepretacji parametru)



Testy parametryczne to takie testy, które weryfikują zgodność wybranego parametru rozkładu z konkretną wartością liczbową (np. H0: μ = 5.5 jak w teście t-Studenta dla jednej grupy) lub zgodność wybranych parametrów (np. średnich H0: μ12 jak w teście t-Studenta dla dwóch grup).

Dlaczego skupiamy się na weryfikacji tylko pojedynczych parametrów? Bo znamy postać rozkładu, do którego te parametry się odnoszą i wiemy, że kształt rozkładu jest taki sam w grupach – a to skąd wiemy? Bo musimy spełnić szereg założeń testów (po to one są:)).

Przykładowo, dla testu t-Studenta założenia to:
(a) normalność rozkładu zmiennej w obu grupach oraz:
(b) równość wariancji w obu grupach.

Dlaczego tylko normalność i równość? Bo, jak już wspomniałam, rozkład normalny ma tylko dwa parametry: średnią i wariancję.

Jeśli wiadomo, że:  rozkład cechy w obu próbach jest rozkład normalny i wariancja w obu próbach jest równa, to nie pozostaje nic innego, jak tylko sprawdzić równość średnich μ12 . I to właśnie robi test t-Studenta. Dopiero po spełnieniu założeń, które wymuszają bardzo duże podobieństwo między dwoma rozkładami w dwóch grupach, możemy przystąpić do porównywania średnich.



Badacz jedynie sprawdza, czy średnie μ1 i μ2 są równe, czyli wizualnie czy dwa punkty czerwony i pomarańczowy nakładają się na siebie. A co jeśli rozkłady są różne?


Testy nieparametryczne nie porównują parametrów rozkładów, bo nawet nie ma pewności, że mamy do czynienia z tymi samymi rozkładami w grupach. To co robią te testy? Testy nieparametryczne sprawdzają, czy relacje między dwoma zjawiskami są takie same, czyli w najprostszym przypadku: czy rozkłady zjawiska psychologicznego są takie same.

Najbardziej oczywisty przykład to pytanie, czy rozkład jednego zjawiska jest taki sam w jednej jak i w drugiej grupie (test Kołmogorova-Smirnova, test Andersona-Darlinga).



Test U Manna Whitneya jako nieparametryczny odpowiednik testu t-Studenta. Naprawdę?
Czasami z takiego podejścia można wywnioskować, że parametr jednego zjawiska, jest taki sam jak parametr drugiego zjawiska, ale dzieje się to przy większej liczbie założeń, niż zazwyczaj jest o tym mowa.

Przykładowo, część podręczników i wykładowców uważa, że nieparametrycznym odpowiednikiem testu t-Studenta jest test U Manna-Whitney'a. W pewnych okolicznościach można uznać, że test U 'robi coś podobnego do testu t-Studenta', czyli bada parametr położenia. W pewnych, czyli w jakich? Otóż, ku zdziwieniu części Czytelników, jest to chociażby wymóg równości wariancji w obu grupach. Jeśli rozkład cechy w dwóch grupach jest taki sam (może nie być normalny) i w związku z tym wariancje w obu grupach są równe, to wówczas test U Manna-Whitney'a rzeczywiście staje się testem położenia – tak jak test t-Studenta jest testem położenia. Zaraz, położenia? Chodzi o parametr tendencji centralnej? Tak. Tak, jak już pisałam na blogu, mam kilka miar tendencji centralnej. Nieparametryczny test U Manna-Whitney'a przy spełnionym warunku homogeniczności wariancji w obu grupach staje się testem badającym równość parametrów położenia – nie: samej średniej, tak jak test t-Studenta.


Co zrobić, gdy rozkłady w obu grupach są różne?
Prowadzimy badanie nad koncentracją w pewnym zaburzeniu, którego nazwy teraz nie przytoczę - to tylko przykład. Zaburzenie objawia się rozproszoną uwagą, niemożnością koncentracji na zadaniu, czego efekt bardzo ładnie wychwycić w badaniu – badany ma za zadanie jak najszybciej uderzyć w spację, gdy na ekranie pojawi się niebieski prostokąt, ale chory badany szybko tego nie zrobi. Zaś psycholog mierzy czas reakcji.
Poniżej są rezultaty przeprowadzonego badania.

Czas reakcji w populacji osób chorych jest podyktowane rozkładem jednostajnym – szansa na to, że chory zareaguje w ciągu pierwszych dwóch sekund jest taka sama jak w ciągu dwóch jakichkolwiek innych.


Czas reakcji w populacji zdrowej jest zaś zupełnie inna – większość ludzi reaguje szybko, w przeciągu dwóch sekund, mało osób reaguje po trzeciej sekundzie.





Pytanie: czy można porównać czasy reakcji w tych dwóch grupach?

Nałóżmy na siebie dwie krzywe rozkładu.



 
Widać wyraźnie dwie linie – jedna, fioletowa, opadająca w dół i druga, czerwona, pozioma – 'trzymająca poziom'. Jeśli teraz postawimy hipotezę H0: μ12, to ryzykujemy, że popełnimy błąd.

Nie wiem, którego rodzaju, ale taki sam błąd popełnia chirurg, który zabiera się za śpiewanie nad brzuchem pacjenta zamiast za skalpel, bo słyszał, że śpiewanie operowe pomaga.



Wnioski końcowe o testach parametrycznych i nieparametrycznych. 
Z tym zadaniem są związane dwa zagadnienia. Po pierwsze możemy spróbować uciec się do CTG i powiedzieć, że nie interesuje nas rozkład cechy i od pewnej liczebności grupy rozkład średnich wymagany w teście t-Studenta powinien być normalny. To myślenie broni się całkiem nieźle do czasu, jak ktoś pomyśli w ten sposób: może te zjawiska są nieporównywalne i nie ma większego sensu porównywać średnich? To jest drugie zagadnienie.

Skoro rozkłady w dwóch grupach są tak bardzo różne, co świadczy o tym, że zjawisko inaczej w nich przebiega, to może bezcelowe jest porównywać średnie? Niestety, nie ma prostych recept. Czasem trzeba wiedzieć, czy średni poziom jest równy w obu grupach nawet jeśli rozkłady są tak bardzo rozbieżne, a czasami trzeba sobie odpuścić porównywanie średnich testem parametrycznym, zastanowić jeszcze raz, co chce się zbadać i dopiero wówczas wybrać odpowiedni test. Nie zawsze jest tak, że mając dwie grupy to tylko test t-Studenta. Czasami badaczowi bardziej przydałoby się wiedzieć, czy rozkład cechy jest taki sam (i wówczas wykorzystać testy zgodności rozkładów, np. Kołmogorowa-Smirnova lub Andersona-Darlinga).



TL;DR Podsumowanie
1. Testy parametryczne porównują czy pewne liczbowe charakterystyki rozkładów są równe.
2. Testy nieparametryczne to ... wszystko pozostałe, czyli np. porównywanie samych rozkładów
3. Nie można ślepo stosować zamienników testów parametrycznych, bo testy nieparametryczne też mają swoje założenia.

Analiza wariancji


Tematem posta będzie analiza wariancji ANOVA w jej najprostszym wariancie - dla trzech grup, którą można przy odrobinie zmotywowanej wyobraźni rozszerzyć do k grup (k znaczy ileś ). Skoro jeszcze jesteśmy na wstępie i nie przeszliśmy do soczystego miąższu postu, to będzie najlepsze miejsce na taki dysklamacz (właśnie wymyśliłam to słowo, chodzi mi oczywiście o disclaimer, co po polsku rozumie się jako: ‘wyłączenie odpowiedzialności’, ale to zbyt wąskie pojęcie): Czytałam wiele podręczników do statystyki, zarówno polskich jak i angielskich i w wielu z nich, zwłaszcza dla psychologów, różne metody są przedstawione na idiotycznych, dziecinnych przykładach. Ja z kolei wolałabym pokazać, jak to działa w praktyce. A ponieważ mam bazę z naszych badań nad adaptacją kwestionariusza MFQ, to nie zawaham się jej użyć.

Naukę o analizie wariancji (ANalysis Of Variance, ANOVA) można rozpocząć od pomyślenia o niej jako o rozszerzeniu testu t-Studenta (jeśli się go zna) na więcej niż dozwolone przez ten test dwie grupy, albo po prostu jako metodę, która pozwala zbadać, czy w trzech (lub więcej) grupach średnie są równe. Ja ograniczę się do trzech grup, trochę z powodów historycznych, a trochę dla ułatwienia.

Historia ANOVA. R.A. Fisher To będzie bardzo krótkie przedstawienie. Prawie sto lat temu, w 1919 r. tj. w roku, Fisher dostał pracę w Rothamsted, gdzie zajmował się zbożem. Nie, nie uprawiał zboże, ale statystykę matematyczną. Jego zadaniem było zbadać skuteczność nawozu. Pole podzielono na trzy części, w każdej z nich zastosowano inną dawkę i porównano zbiory. (Prawdę mówiąc, to zrobił trochę więcej niż to, choć w rzeczywistości miał tylko trzy dawki nawozu, więc sedno sprawy zgadza się).


W naszych badaniach też mieliśmy trzy grupy, bo trzy typy partii politycznych: prawicowa, centrowa i lewicowa. Jest to oczywiście quasi-eksperyment (dlatego, że ludzie nie są losowo przydzielani do tych grup, tylko sami z siebie mają jakieś preferencje). Osoby te badano pod kątem wrażliwości na czyjeś cierpienie i krzywdę, a mierzono to skalą Opieka/Krzywda z kwestionariusza MFQ. Chodziło o to, aby zbadać, czy są różnice pod względem w tych trzech grupach. Teoria MFT mówi, czego się spodziewać, trzeba jednak to sprawdzić statystycznie.

Mamy trzy, k=3, grupy, przy czym osoba może zadeklarować się albo do jednej grupy, albo do drugiej, albo do trzeciej grupy. Osoby te zbadano kwestionariuszem MFQ i okazało się, że średnie tych trzech grup przedstawiają się następująco:

Rys. 1. Średni poziom zmiennej Opieka/Krzywda w trzech grupach wyznaczonych przez orientację polityczną  (LJK).

Podział próby na grupy jest dokonany przez inną zmienną niż ta, dla której liczymy średnie. Musi mieć ona zdolność do szatkowania zbioru nad wyraźnie rozgraniczone podzbiory i do takiego celu przydają się zmienne mierzone na skali nominalnej lub kategorialnej. Dzięki temu można obserwacje  przyporządkować do różnych grup. O takiej zmiennej zwykle myśli się jako zmiennej niezależnej, a nazywa się ją czynnikiem. Wartości tej zmiennej są nazywane poziomami czynnika. Trzeba sprawdzić, czy jeśli obserwacje zostaną przydzielone do trzech grup, to podział (w zasadzie to przydział) ten wyjaśni zmienność w stopniu większym niż wpakowanie wszystkich do jednego wora. Sprawdzenie to następuje poprzez obliczenie statystyki testowej F i odpowiadającej jej p-wartości.

Statystyka testowa
Pozwolę sobie na bardzo uproszczony wzór, dla ułatwienia pozbawiając go wielu matematycznych symboli:



Z tego wzoru wynikać ma, że interesuje nas stosunek zmienności wyjaśnionej przez wprowadzenie czynnika (podziału) na trzy grupy do niewyjaśnionej zmienności (gdy obserwacje są wszystkie w jednym worku). Im wyższa wartość statystyki F, tym lepiej dla obecności czynnika.
Test F testuje hipotezę zerową postaci H012 =... = μk, gdzie k oznacza ileś grup, na przykład k=3, przeciwko hipotezie alternatywnej H1 :∼ H0 (czyt. ’nieprawda, że H0). Jeśli zebrane dane są zgodne z hipotezą zerową, czyli średnie cechy w grupach są jednak równe, to statystyka testowa F ma rozkład F Snedecora z k−1 oraz k·(n−1) stopniami swobody, co zapisujemy F ∼ F (df1, df2 ). df1 i df2 to stopnie swobody, gdzie df1 = k−1, a df2 = k·(n − 1). k oznacza liczbę poziomów czynnika. W moim przykładzie jest to k=3, a n to liczba obserwacji.
Wychodzi na to, że statystyka testowa F ma rozkład o prawie tej samej nazwie F - może się pomylić. Jerzy Snedecor to pan pochodzący z Memphis, miasta Elvisa, który pracował razem z Fisherem. Od jego nazwiska pochodzi nazwa rozkładu.

Założenia. Zasady użytkowania testu F, czyli założenia testu F.
Mamy więc jedną zmienną niezależną X, zwaną czynnikiem, której poziomy wyznaczają podział zbioru obserwacji na grupy i jedną zmienną zależną Y. Ta zmienna zależna Y to cecha psychologiczna, której średnie chcemy badać. Dobry przykład jest taki: czy zastosowane, różne techniki terapeutyczne mają wpływ na dobrostan pacjent. Porównujemy to oczywiście, zgodnie ze sztuką, do grupy kontrolnej. Jakie warunki muszą spełniać te zmienne X oraz Y, aby móc zastosować test F?

• Pierwsze założenie odnosi się do tego, czy grupy mogą się pokrywać, czyli czy jedna obserwacja może należeć do dwóch grup naraz. Niektórzy idą bardzo daleko i uważają, że podział musi wyczerpywać całą populację. O co w tym chodzi? Odpowiem na dwóch przykładach. Pierwszy realizuje ideę wyczerpywania zbioru wszystkich możliwości w populacji: to jest podział z naszych badań. Poglądy prawicowe, centrowi i lewicowe to są trzy orientacje polityczne, nie ma innych. Drugi przykład: pracownicy służby medycznej, strażacy i robotnicy budowlani: ten przykład nie wyczerpuje wszystkich możliwości podziału populacji - obok pracowników służby medycznej, strażaków i robotników budowlanych są jeszcze piekarze, sprzedawcy, maklerzy, rolnicy, naukowcy, nauczyciele i inni.
Założenie o tym, aby poziomy czynnika, czyli to, co dzieli próbę, wyczerpywały całą populację jest bardzo mocne i nie musi być spełnione (raczej bywa to niemożliwe). Najważniejsze jest to, aby: obserwacja nie należała do dwóch grup naraz - można ją przyporządkować do jednego poziomu (i basta!).
• Obserwacje te muszą być niezależne od siebie - to mają być różne obserwacje, nieskorelowane ze sobą. Jeśli np. Wasze obserwacje to są wyniki kolejnych pomiarów tych samych osób, to niestety należy zrezygnować z jednokierunkowej, jednoczynnikowej ANOVA i zastosować ANOVA dla powtarzanych pomiarów (tego jeszcze na blogu nie mam :( ).
• Zmienna zależna Y musi być mierzona co najmniej na skali interwałowej - to jest spowodowane tym, że mamy liczyć średnie artymetyczne, więc cyfry musimy potraktować jako liczby, aby móc je zsumować i podzielić przez liczebność.
Ostatnio jednak odchodzi się od wykonywania ANOVA, gdy zmienna jest typowo kategorialna na rzecz innych technik. Najlepiej, i najłatwiej wówczas interpretować, gdy zmienna jest typową zmienną ciągłą, mierzoną na skali ilorazowej, taką jak czas, wzrost. Wówczas średnia jest naprawdę średnią.
• Rozkład zmiennej zależy jest rozkładem normalnym. I to jest ta sama historia, co przy teście Studenta.
• Homogeniczność wariancji (inaczej: jednorodność wariancji, σ2) - czyli równość wariancji we wszystkich grupach, co można wyrazić takim równaniem: σ12 = σ22=...σk2 . Moim zdaniem, formułowanie to jest czasami mylącym skrótem myślowym, który należy rozumieć tak, że wariancja wyników w pierwszej grupie musi być taka sama jak wariancja wyników w drugiej grupie i wariancja wyników w k-tej grupie. Równość rozumieć można jako jednorodność, a latynizując to mamy homogeniczność.
Tak, jak serek homogenizowany to serek jednorodny, czyli jednorodny w swoim istnieniu. Homogenizacja zapobiega rozwarstwianiu się substancji i gromadzeniu się tłuszczu na powierzchni. Gdyby kakao dało się zhomogenizować, to nie tworzyłby się kożuch i nie mielibyśmy na co narzekać. Spełniając założenia testu możemy być pewni, że rezultaty jakie daje test statystyczny są wiarygodne. Oczywiście, powstaje pytanie, co dzieje się, jeśli jakieś założenie nie jest spełnione? Jest o tym mowa niżej, w punkcie Niespełnienie założeń.

Jeśli badacz ma takie zmienne, jakie wymagają założenia testu ANOVA to matematycznie wszystko sprowadza się do sprawdzenia, czy rozkład zmiennej zależnej w trzech grupach różnią się tylko średnimi μ, ale nie wariancją albo kształtem rozkładu. Obrazuje to poniższy rysunek:

Rys. 2. Rozkłady zmiennej w  trzech grupach przesunięte względem siebie o średnią (LJK).

Mamy trzy grupy, dla których kształt rozkładu zmiennej zależnej, Y , jest taki sam (normalny). Trzy linie: niebieska, żółta i czerwona tworzą ten sam dzwon. Wariancja też jest taka sama (σ12 = 1,σ22 = 1,σ32 = 1), ale różnią się tylko przesunięciem, czyli wartościami oczekiwanymi μ. Dla pierwszej grupy μ1 = 0, dla drugiej μ2 = 1 a dla trzeciej μ3 = 2. Test F jest zaprojektowany dla wykrycia tej różnicy. Przy odpowiedniej liczebności próby, moc tego testu będzie wynosić 80%.


Wnioski końcowe.
ANOVA to bardzo podstawowa technika - po prostu porównujemy wartości oczekiwane trzech lub więcej populacji, pod warunkiem, że kształty rozkładów tej samej cechy są jednakowe w każdej grupie (co to oznacza, spójrz na Rys.2). Czasem jednak zadajemy proste pytanie i chcemy prostą odpowiedź, czy średnie są równe, czy różne. Czy któraś z metod terapii działa? Czy wszyscy mamy taką samą wrażliwość na krzywdę, niezależnie od podziału na preferencje polityczne?

Przy okazji, warto zauważyć, że test F dla dwóch grup sprowadza się do testu t-Studenta, ponieważ zachodzi wówczas taka równość F = t2. Ale nie ma sensu przeprowadzać jednoczynnikowej ANOVA dla dwóch grup, skoro jest test t-Studenta.

Wykonanie ANOVA w SPSS Krok po kroku wykonanie analizy ANOVA w SPSS-ie. To idzie to tak: po kolei musimy kliknąć Analiza → P orównaj średnie → Jednokierunkowa AN OV A Pokaże się okienko dialogowe, w którym musimy wskazać, która zmienna ze zbioru danych jest czynnikiem, a która jest zmienną zależną.

Takie skrótowy, jakby na sterydach, opis wykonania analizy ANOVA w SPSS-ie musi wystarczyć, bo po prostu chciałabym się skoncentrować na tej statystycznej stronie, a nie na technicznej. W Internecie jest po prostu zylion stron i filmików pokazujących przeprowadzenie ANOVA w SPSS, że nie ma sensu tworzyć kolejny byt.

Zapis wyników - jak zapisujemy w raporcie, pracy lub artykule?
Taka najprostsza formatka dla raportowania rezultatów ANOVA znajduje się poniżej.

Średnie dla zmiennej Opieka/Krzywda wynoszą odpowiednio: M = 4,00; SD = 1,10. W Polsce znaczek rozdzielający całości od części dziesiętnych to przecinek(!) Wyniki dokonane analizy wariancji ANOVA okazały się być istotne statystycznie F (df1 , df2) = wstaw-wartość-statystyki-F, wstaw-p-wartość, wstaw-wielkość efektu. Test F okazał się istotny statystycznie (albo test nie jest istotny statystycznie).

Dobrze jest podać, jakie wyniki wyszły w próbie - średnią M i odchylenie standardowe SD zmiennej zależnej w każdej grupie. Potem podajemy wyniki testu, p-wartość, wielkość efektu. Nie jest to specjalnie wyrafinowane. Wiecej informacji można oczywiście znaleźć w naszej biblii standardów redaktorskich APA (American Psychological Association).


A teraz jedziemy dalej - są jeszcze dwa tematy do omówienia. Pierwszy to testowanie wstępne. Chodzi tu o to, że jeśli wymogiem stosowalności ANOVA jest na przykład normalność cechy, to trzeba sprawdzić, czy tak jest i jak to robimy. Drugi to: co zrobić, jeśli test F okaże się być istotny statystycznie? Przecież z samego faktu, że “średnie są różne” nie wynika, która z nich.

Ad. 1. Testowanie wstępne (Preliminary testing).
W dwóch głównych założeniach testu F mieszczą się: normalność oraz homogeniczność (jednorodność) wariancji we wszystkich grupach, to najlepiej być przekonanym z teorii, że rozkład cechy powinien być normalny. Inaczej trzeba się o tym przekonać, można to zrobić dwojako: obejrzeć ‘zoczyć’ dane - przyjrzeć się im, popatrzeć na rozkład wyników wykres kwantylowy, wykryć obserwacje odstające (outliery). Można też zastosować testy statystyczne. Niektórzy (i wśród nich są niektórzy, którzy uczą) rekomendują, aby przed przeprowadzeniem testu F przeprowadzić testowanie normalność rozkładu cechy oraz testowanie równości wariancji. O dwóch testach normalności pisałam TUTAJ. Obok testów normalności, dostępne są testy równości wariancji: Levene’a i Bartletta. Czy można stosować takie dwukrokowe testowanie? Niekoniecznie, bo takie testowanie wstępne jest problematyczne. Mam tutaj na myśli dokładnie przeprowadzanie innych testów statystycznych niż docelowy test F. Okazuje się, że jeśli robisz dwukrokowe testowanie, jedno dla sprawdzenia założeń, drugie to to główne (równość średnich), to m.in. narażasz się na mniejszą moc (power, tutaj) albo podwyżasz prawdopodobieństwo popełnienie błędu I-go rodzaju (czyli, że będziemy uważać, że różnic w średnich nie ma, podczas gdy w rzeczywistości one są). Jak może wyglądać dwukrokowa procedura? Na przykład tak: test Shapiro-Wilka+test Bartletta+test F albo test Levene’a + test F. Na polskich uczelniach jeszcze jest wykładane właśnie takie zalecenie, ale za naszą zachodnią miedzą odradza się sprawdzanie założeń metodami testowania (‘odradza’ od ‘odradzić’, discourage, a nie ‘odrodzić’, revive). To skąd wiedzieć, że założenia są spełnione? Najlepiej z teorii, ale w naszej działce raczej nie posługujemy się aż dokładnymi miarami jak kształt rozkładu wybranej cechy. Dość tego, że wiemy, że rozkład inteligencji jest normalny (choć bywa to kwestionowane). Ważne jest oglądanie własnych danych na własne oczy, czyli ‘Z-oczanie’ próby, do czego zachęcam nie tylko ja, ale też pozostali poważni i poważani statystycy (żyjący i umarli np. John Tukey). Najlepiej obejrzeć dane, a w razie poważnych wątpliwości uciec się np. do bootstrapu czy zrezygnować z danej techniki statystycznej (łatwo mi powiedzieć, nie?). Są reguły kciuka, które pozwalają zdecydować, co zrobić (o tym jest w punkcie pt. Niespełnienie założeń, dużo niżej, na samym końcu).

Ad. 2. Co zrobić dalej, jeśli wynik testu F jest istotny statystycznie?
Zaczniemy od zgoła innej sytuacji: gdy wynik testu F jednak nie jest istotny statystycznie, czyli p-wartość wynosi więcej niż przyjęty poziom istotności α równy zwyczajowo 0.05. Obrazowo rzecz ujmując, nieistotny statystycznie wynik testu F oznacza taką sytucję:

Rys. 3. Sytuacja spełniająca hipotezę równości trzech średnich (LJK).

W takim wypadku idziemy do domu. Natomiast trzeba byłoby zrobić coś dalej, jeśli - przechodząc już do tytułu podpunktu - rezultatem analiz jest istotny statystycznie wynik testu F. Jest to wynik statystyki testowej, której towarzyszy p-wartość mniejsza niż przyjęty poziom istotności α = 0.05, np. p-wartość wynosi 0.013 oznacza istotność statystyczną. Ale jakby to mogło wyglądać? Średnie z gatunku ‘każda z innej parafii’:

Rys. 4. Sytuacja hipotezy alternatywnej - wszystkie średnie różne od siebie (LJK).

Albo dwie średnie są sobie równe, ale trzecia jest inna (trzy różne scenariusze).

Rys. 5. Sytuacja hipotezy alternatywnej - jedna średnia różna od pozostałych (LJK).

Akurat na powyższych rysunkach ta średnia, która powoduje odrzucenie hipotezy zerowej, jest zawsze mniejsza niż pozostałe dwie. Łatwo można przełożyć to na sytuację, w której jedna średnia jest wyższa od dwóch pozostałych. Badacz nie może jednak na podstawie rysunku stwierdzić, która z powyższych możliwości ma miejsce, więc ucieka się do formalnych testów statystycznych, testów post-hoc. Wiedząc już, że równość między średnimi nie zachodzi, trzeba znaleźć wzorzec średnich. O co chodzi? Jeśli równość μ1 = μ 2 = μ3 nie jest spełniona, to gdzie wstawić znaczek nierówności ? Czy jest μ1 μ2, czy zachodzi μ1 μ3 , a może nierówność znajduje się między drugą grupą a trzecią μ2 μ3 ? Trzeba było ‘grzebnąć’ dalej i dowiedzieć się. Służy do tego cała bateria testów post-hoc. Post-hoc, czyli ‘po tym’. (‘Ad hoc’ znaczy ‘doraźnie’). ‘Po tym’ czyli po czym? Po dokonaniu głównego testu F. Test post-hoc jest wykonywany po otrzymaniu istotnego statystycznie wyniku testu F.

Przykładowe testy post-hoc:
• NIR - największej istotnej różnicy
• Bonferroniego
• Sidaka
• Scheffego
• Gamesa-Howella
• i inne ...

Nie podam całej charakterystyki tych testów, bo omówienie różnic i podobieństw wykracza poza ramy posta. Dość, że wiadomo, że takie są i że są wykonywane po uzyskaniu istotnego statystycznie wyniku testu F w celu sprawdzenia, która różnica między dwoma średnimi jest istotna statystycznie.

A teraz nagły zwrot akcji - to nie jest tak, że testy post-hoc możemy wykonywać tylko wówczas, gdy ANOVA okaże się być istotna statystycznie. ANOVA i testy post-hoc w zasadzie funkcjonują niezależnie. Po prostu w naszej praktyce tak się utarło, że po istotnym statystycznie teście F przeprowadzamy testy post-hoc.

P.s. Różne rodzaje słowa wariancja.
Analiza wariancji i wariancja, albo może wariacja? Zwłaszcza na początku te słowa mylą się, chociażby ze względu na podobne brzmienie. Zacznę od końca listy. "Wariacja" to sposób losowania elementów zbioru, może być z powtórzeniami, albo bez, jednak w statystyce to pojęcie nie znajduje zastosowania. "Wariancja" ("n" w środku) to inaczej "zmienność". To parametr opisujący, jak obserwacje rozkładają się wokół średniej. Analiza wariancji to wyżej opisana metoda statystyczna, ANOVA. Służy do zbadania, czy średni poziom wybranej cechy jest równy lub różny w grupach. Od strony technicznej ta metoda ma wiele wspólnego z badaniem zmienności tej cechy, stąd też nazwa: analiza wariancji.

Coś więcej tutaj jeszcze będzie ;-)

EFA i PCA

Opis próby czy testowanie hipotez to nie są jedyne zadania rozwiązywane za pomocą narzędzi statystycznych. Dzięki nim duży zbiór cech można spróbować sprowadzić do mniejszego. Można również pokusić się o sprawdzenie, czy istnieje zestaw ukrytych cech, który generuje otrzymany zbiór danych (zwykle: odpowiedzi w kwestionariuszu). Redukcja da-
nych oraz odkrywanie struktury zmiennych to dwie kolejne obszary zastosowań statystyki. Poniższy materiał zawiera wprowadzenie do analizy czynnikowej oraz rozszerzenie materiału o analizie składowych głównych (wprowadzenie do PCA znajduje się tutaj pca).

Zanim przejdziemy do głównego tematu, chciałam nawiązać do kilka pojęć, które będą potrzebne do omówienia trudniejszych zagadnień. Oto ich lista:
• zmienność
• kombinacja liniowa
• macierz korelacji i jej dekompozycja według wartości własnych


Zmienność.
Zmienność można rozumieć tak jak to słowo brzmi - chodzi o zróżnicowanie wartości, które może przyjąć zmienna losowa - różnimy się między sobą na wielu, wielu wymiarach, nie tylko wzrostem i wagą, ale całym zbiorem zjawisk psychicznych. W tym materiale będę pisać zmienne losowe, mając na myśli typowo psychologiczne pojęcia: albo po prostu cechy, albo - bardziej metodologicznie namacalnie - itemy, czyli pozycje testowe. Zmienne losowe mogą być też stałe - to znaczy przyjmować te same wartości dla różnych obserwacji, w myśl zasady - każdemu po równo (lewa część poniższego rysunku). Oczywiście, taka cecha, która ma stałą wartość niezależnie od osoby badanej jest nieinteresująca i zarazem mało informatywna - nie niesie w sobie za wiele informacji. Taki item także jest nieinteresujący, jeśli wszyscy odpowiedzą tak samo. Dodatkowo, może również prowadzić do kłopotów w analizach.

Rys. Stałość i zmienność zmiennych losowych (LJK)

Zmienność zmiennej X można opisywać za pomocą różnych wskaźników (zwanych statystykami, zwłaszcza gdy mają pożądane właściwości) np. rozstęp, czyli różnica między największą a najmniejszą wartością albo rozstęp międzykwartylowy. Spośród nich wszystkich najbardziej popularną jest wariancja, var(X). O innych pisałam tu:klik.

W tym miejscu, chciałabym napisać o dwóch pojęciach: zmienności wspólnej i swoistej, mimo że jeszcze nie wprowadziłam pojęcia ’czynnik’, dlatego proszę Czytelnika o cierpliwość.
Mamy zbiór danych. W zbiorze danych są zarówno obserwacje (zwykle w wierszach) i zmienne (zwykle w kolumnach). Zmienność danej zmiennej X wyrażona przez wariancję var(X) można rozłożyć na zmienność wspólną i zmienność swoistą. Zmienność wspólna jest to ta część, która jest wyjaśniona przez (ukryte) czynniki.

Zmienność swoista jest właściwa tylko danej zmiennej. Zapisując to równaniem:
wariancja zmiennej X = wariancja wspólna + wariancja swoista
Matematycznie powyższy zapis przełożę na:
varX = h2i + u2i
gdzie h2i i - wariancja wspólna (zwana też ’zasobami wspólnymi’, communalities) wyjaśniona przez czynniki ukryte, ui - wariancja swoista charakterystyczna tylko dla tej konkretnej zmiennej w zebranej bazie obserwacji.

Kombinacja liniowa.
Kombinacja liniowa ma ścisłą definicją w języku matematycznym, natomiast ja chciałabym wprowadzić pojęcie kombinacji liniowej przez podanie przykładu. Liceum MMXL wprowadziło ocenę osiągnięć ucznia na podstawie trzech typów ocen cząstkowych: wyniki w naukach przyrodniczo-technicznych (matematyka, fizyka, chemia), wyniki w naukach humanistycznych (język polski, język angielski, historia) oraz wyniki sportowe.

Zbiorcza ocena Osiągniecia szkolne liczona jest w następujący sposób:
OS = 6 · Wyniki w naukach przyrodniczo − technicznych +
5 · Wyniki w naukach humanistycznych + 4 · Wyniki Sportowe
Osiągnięcia Szkolne są zatem sumą poszczególnych ocen cząstkowych z odpowiednimi wagami - najbardziej liczą się nauki ścisłe, najmniej punktów uczeń zdobywa za w-f. Przemnożenie zmiennych przez liczby oraz zsumowanie daje jedną zmienną, OS. Można zatem powiedzieć, że Osiągnięcia Szkolne są kombinacją liniową trzech typów ocen: Wyników w naukach przyrodniczo-technicznych, humanistycznych i sportowych. Kombinacją - ponieważ kombinują, czyli łączą trzy wskaźniki i robi się jeden, Osiągnięcia Szkolne. Na dodatek, żadna z cząstkowych ocen nie jest podnoszona do kwadratu czy pierwiastkowana - jest jedynie przemnożona przez konkretną liczbę (stąd jest to kombinacja liniowa, a nie np. kwadratowa).

Macierz korelacji i jej dekompozycja według wartości własnych, które są wielkościami wariancji czynnika. Teraz powyższe zdanie nie ma większego sensu, więc zacznijmy od początku: zmienność jednej zmiennej opisywana jest za pomocą wariancji, var(X). Dalej, współzmienność dwóch zmiennych X oraz Y można przedstawić za pomocą korelacji, cor(X, Y). Jeśli mamy więcej niż dwie zmienne, współzmienność wszystkich możliwych par zmiennych możemy przedstawić w postaci tablicy, o której profesjonalnie mówi się macierz. To właśnie macierz korelacji stanowi centrum zainteresowania zarówno analizy czynnikowej, jak i analizy składowych głównych. Poznajmy trochę nowe pojęcie.
Dla trzech zmiennych X1, X2, X3 macierz korelacji wygląda następująco:



Wartości w powyższej macierzy zaznaczone zielonym kolorem znajdują się na głównej przekątnej macierzy. Każda macierz ma główną przekątną. Część macierzy jest względem niej symetryczna, tj. wartości pod główną przekątną są odbite nad główną przekątną (ona zachowuje się jak lustro). Jedną z macierzy symetrycznych jest macierz korelacji, bo przecież korelacja X1 i X2 jest taka sama jak korelacja X2 i X1 - kolejność nie ma znaczenia.
W macierzy korelacji na głównej przekątnej figurują wariancje poszczególnych zmierzonych zmiennnych:
var(X1), var(X2), var(X3)
Tak wygląda pełna macierz korelacji. Gdyby zamiast wariancji zmiennych, na przekątnej znalazłby się tylko wariancje wspólne hi2 (patrz wyżej), to taka macierz ze zmienioną główną przekątną byłaby zredukowaną macierzą korelacji. Dlaczego o tym piszę? Bo pełną macierzą korelacji zajmuje się analiza składowych głównych, a zredukowaną macierzą korelacji zajmuje się analiza czynnikowa - to jest podstawowa różnica między tymi dwoma technikami statystycznymi. Ma to ogromne konsekwencje w interpretacji wyników i dlatego nie wolno tego mieszać.

Jeszcze chwilę popatrzymy na macierze.
Dla n zmiennych X1 , X2 , ... , Xn , gdzie n jest dowolną liczbą, np. 563. Macierz korelacji jest odpowiednio większa:



Macierz jednostkowa - to macierz, która ma przekątnej (głównej) jedynki, a w pozostałych miejscach zera:



Zmienne latentne
Co to są zmienne latentne (zmienne ukryte, a tutaj: czynniki)? Najprościej rzecz ujmując, są to zmienne których nie da się bezpośrednio zaobserwować. Możemy badać czas reakcji, który jest pewnym wskaźnikiem stanów czy cech psychicznych. Możemy sprawdzać, czy dana osoba jest towarzyska, nie-małomówna, ale nie wyjmiemy termometru, żeby zbadać jej ekstrawersję. My możemy najczęściej badać przejawy ukrytych cech - inteligencji, cech osobowości, itp. Aby odkryć te ukryte zmienne należy zająć się dwoma matematycznymi obiektami związanymi z macierzami.
Są to: wartości własne oraz wektory własne - występują one parami: każdej wartości własnej przyporządkowany jest wektor własny. W zasadzie, to najbardziej interesujące są wartości własne - z jednej strony można o nich myśleć, jako liczbach, które charakteryzują macierz: są jakby jej liniami papilarnymi. Ma to przełożenie na praktykę, bo wartość własna jest równa wariancji czynnika. Z kolei nam zależy na czynnikach o jak największych wartościach własnych, bo wówczas czynniki te zawierają jak najwięcej wariancji z oryginalnego zbioru danych.

EFA i PCA
Analiz dokonuje się nie tylko po to, aby opisywać próbę, ale także, aby wykryć strukturę danych (odkryć procesy stojące za danymi) lub zredukować je do mniejszego rozmiaru. EFA (Exploratory Factor Analysis) jest przykładem modelu wspólnego czynnika, zakładającego, że za zbiorem zmierzonych zmiennych kryją się wyjaśniające ich zmienność czynniki wspólne i czynniki specyficzne (swoiste) - patrz wyżej. Czynniki wspólne są nieobserwowalnymi zmiennymi, które mogą mieć wpływ na więcej niż jedną zmienną obserwowalną X. Czynnik specyficzny (swoisty, unikalny, unique) jest właściwy tylko dla danej zmiennej X. Posługując się terminem ’kombinacje liniowe’ - każda zmierzona zmienna jest liniową kombinacją jednego lub więcej wspólnych czynników i jednego unikalnego (specyficznego) czynnika. I w drugą stronę, czynnik można przedstawić w postaci kombinacji liniowej oryginalnych zmiennych obserwowalnych i spojrzeć na niego z nieco bardziej ogólnego punktu widzenia, a także nadać abstrakcyjną nazwę.
Natomiast PCA jest metodą redukcją danych bez rozdzielania na wariancję wspólną i swoistą. Dla przykładu: zbiór dziesięciu oryginalnych zmiennych można sprowadzić do zbioru czterech nowych zmiennych, zachowując możliwie najwięcej informacji (czyli jak największą zmienność oryginalnych zmiennych, bo w gruncie rzeczy to jest ta ’informacja’). Z tego względu, celem PCA jest przedstawić oryginalne zmienne obserwowalne za pomocą liniowych kombinacji składowych, tak jakby spakować je do mniejszych zmiennych. Analiza czynnikowa oraz redukcja danych są stosowane gdy zmienne obserwowane traktujemy jako ciągłe i gdy oczekujemy ciągłych zmiennych ukrytych (to ustalasz Ty, drogi badaczu).
Poniżej znajduje się ogólny opis obu technik wraz z towarzyszącym zbiorem różnych statystyk, wspomagających badacza.
Podczas realizacji zadania EFA czy PCA, często posiłkujemy się różnymi regułami kciuka, które pomagają odpowiedzieć na pytania, przed którymi stoi badacz: jak określić liczbę czynników, ile zmiennych należy wybrać do analiz, jak ocenić wyniki etc. Mimo wszystko, reguły kciuka pozostają heurystycznymi regułami - w większości przypadków działają, ale nigdy nie jesteśmy pewni, czy nasz przypadek jest we właściwej kategorii. A ponieważ nie są udowodnionymi matematycznie zasadami, to zdania są podzielone i można spotkać różne opinie. O niektórych regułach kciuka napisałam. Dodatkowo, nie napisałam również o wszystkich możliwych statystykach wykorzystywanych w analizie - powodem takiej decyzji jest to, że jest ich bardzo dużo, a mi zależało na przed stawieniu sedna problemu EFA i PCA, zamiast tworzeniu poradnika parametrów.

Różnica między PCA a EFA
Podstawowa różnica między EFA a PCA tkwi (dosłownie) w przedmiocie analiz. PCA ’trawi’ pełną macierz korelacji, z kolei EFA zmaga się ze zredukowaną macierzą korelacji - zredukowaną o wariancję swoistą poszczególnych zmiennych obserwowalnych. EFA szuka struktury ukrytych zmiennych nieobciążonych wariancją swoistą, a PCA jest metodą redukcji danych do mniejszego rozmiaru bez rozróżnienia na rodzaje wariancji. Różnica znajduje odbicie w nomenklaturze - EFA tworzy czynniki (ukryte), a PCA - składowe (główne).

Różnice przedstawione matematycznie
PCA - Principal Components Analysis Analiza Składowych Głównych - oryginalne zmienne obserwowalne w
bazie można przedstawić w postaci kombinacji liniowych składowych:
Z = A · G
A - macierz ładunków
G - macierz składowych głównych
FA - Factor analysis Analiza czynnikowa - oryginalne zmienne obserwowalne w bazie można przedstawić w
postaci kombinacji liniowych czynników ukrytych oraz specyficznych:
Z = A · F + B · U
A - macierz ładunków
F - macierz czynników wspólnych
B - macierz ładunków specyficznych
U - macierz czynników specyficznych
Nawet jeśli te powyższe równania niewiele mówią, to z samego porównania prawych stron tych równań, widać że w pierwszym przypadku zmienność zmiennych obserwowalnych Z jest przedstawiona jako przemnożenie dwóch bytów A oraz G, a w drugim przypadku jest jeszcze coś dodanego - chodzi o to, że zmienność Z rozłożono na część wspólną i część specyficzną, tak że przedmiotem analiz stała się zredukowana macierz korelacji (to jest w dużym uproszczeniu).

Zmienne w modelu
Kluczową dla analizy czynnikowej jest decyzja o tym, które zmienne obserwowalne z bazy włączyć do modelu - to na przykład są itemy w kwestionariuszu. Odpowiedź na pytanie, jakie zmienne powinny wejść do analiz, ma daleko idące konsekwencje. Może się zdarzyć, że w wyniku wybrania nieoptymalnego zbioru zmiennych otrzymamy wyniki, delikatnie rzecz ujmując, trudne do zinterpretowania. Chodzi o stabilność algorytmów, dzięki którym otrzymujemy ’cyferki’ - źle się zachowują, jeśli mamy zmienne, które nie wnoszą żadnej informacji, np. wartości takiego itemu są te same: wszyscy odpowiedzieli nie wiem. Zaciemniać analizy mogą między innymi te zmienne (itemy), które niosą małą ilość informacji lub nie korelują między sobą. Dobrze byłoby, aby na jeden ukryty czynnik przypadało 3 lub 4 zmienne obserwowalne (albo itemy).

Statystyką wspierającą podjęcie decyzji dotyczącej zmiennych w modelu jest ZZW, Zasób Zmienności Wspólnej lub krócej: zasoby wspólne. Jest to ilość wariancji danej zmiennej obserwowalnej X, która może zostać wyjaśniona przez wybraną przez użytkowaną lub sugerowaną przez teorię liczbę czynników. Ze względu na to, że PCA operuje pełną macierzą wariancji-kowariancji, początkowy (przed uzyskiwaniem/ekstrahowaniem składowych) zasób zmienności wspólnej wynosi 1. Za to EFA korzysta ze zredukowanej macierzy korelacji i statystyki ZZW (podczas analizy czynnikowej) dla każdej zmiennej będą różne od 1. Początkowy ZZW danej zmiennej (itemu; pytania w kwestionariuszu) przed wyodrębnieniem oznacza ilość wariancji tej zmiennej wyjaśnionej przez wszystkie czynniki (albo składowe, jeśli PCA). ZZW po wyodrębnieniu oznacza ilość wariancji wyjaśnionej przez czynniki, które ostatecznie wzięły udział w danym rozwiązaniu.

Wielkość próby - Nie ma jednoznacznych wskazań. Co gorsza, nie ma też zbieżnych zdań na ten temat. W przypadku, gdy zmienne posiadają duże zasoby wspólne (ZZW, więcej: wyżej), to wystarczy około 100 elementów. Przy małych zasobach wspólnych nawet 200 czy 300 nie wystarczy. Obok wielkości próby istotnym elementem jest jakość tej próby - próba niezbyt homogeniczna (jednorodna) w badaniu może również spowodować problemy. Najlepiej jest badać różne osoby (nie tylko studentów pierwszego roku psychologii).

Ilość czynników
Aby określić liczbę czynników do dyspozycji dwa sposoby. Po pierwsze: teoria, która pozwala spodziewać się, ile czynników ukrytych występuje, np. model Wielkiej Piątki zaskakująco zakłada pięć czynników. Drugim sposobem jest wykorzystać dostępne wskaźniki, które pozwolą podjąć decyzję. Podstawowym narzędziem jest wykres osypiska (ang. scree plot), który prezentuje uszeregowane wartości własne od największej do najmniejszej. Wykres ten wypłaszcza się od pewnej wartości - przyjmuje się, że jest to punkt odcięcia liczby czynników.
Inne kryterium - kryterium Kaizera - pozwala wskazać ilość czynników na podstawie wartości własnych. Ta reguła kciuka mówi, że liczba czynników zależy od liczby wartości własne większych od jednego (1).
Poniżej znajduje się wykres osypiska (przykładowy).

Rys. Wykres osypiska dla EFA i dla PCA (LJK).

To są w zasadzie dwa nałożone na siebie wykresy osypiska - jeden, ten z czarnymi kropkami, to wykres osypiska dla analizy składowych głównych (PCA). Drugi, z kropkami o pustym środku, to wykres osypiska dla analizy czynnikowej. Dlaczego one się nie pokrywają? Tak jak już pisałam, pierwsza technika, PCA, operuje na pełnej macierzy korelacji między zmiennymi. Druga technika, FA, bazuje na zredukowanej macierzy korelacji. Stąd też obliczenia w obu technikach będą różne

Ekstrakcja czynnika
Algorytmy zaimplementowane w programie statystycznym pozwalają na wyodrębnianie (ekstrakcję) czynników za pomocą kilku metod. Są to np.: metoda największej wiarygodności, która zakłada wielowymiarowy rozkład normalny zmiennych obserwowalnych X. Cóż, po pierwsze - większość zmiennych nie ma takiego rozkładu, a po drugie - normalność rozkładu poszczególnych zmiennych nie gwarantuje normalności wspólnego rozkładu: To, że każdy z osobna item ma rozkład normalny, nie znaczy jeszcze, że wszystkie w kupie mają wielowymiarowy rozkład normalny (to nie jest oczywiste).
Metodą, która radzi sobie z powyższym problemem, jest metoda osi głównych (principal axis) - ta metoda nie wymaga normalności rozkładu, więc jest ’bezpieczniejsza’. Mimo tego, dobrze byłoby przejrzeć zmienne pod kątem występowania wartości odstających, tzw. outlierów. Zawsze przed analizami zrób tzw. data screening, pooglądaj te dane.

Ładunki czynników.
Skoro każda zmienna obserwowalna jest kombinacją liniową czynników wspólnych, to można ją przedstawić w taki sposób:
X = a · F1 + b · F2 + ... + k · Fk
gdzie F1 , F2 , ... , Fk symbolizują ukryte czynniki, a X to zmienna obserwowalna. Liczby a, b, ... k, przez które przemnażane są czynniki to są właśnie ładunki czynnikowe (factor loadings). Pokazują one, jak bardzo zmienna X ’ładuje’ dany czynnik. Im wyższa wartość, tym bardziej dana zmienna ma swój udział w czynniku. W praktyce, interesują nas te ładunki, które są powyżej 0.5 (to jest kolejna reguła kciuka). Skoro jest to reguła kciuka, to nie ma co się dziwić, że niektórzy przyjmą 0.3 za wartość progową dla ładunków.

Rotacja
Rotacja rozwiązania, czyli obracanie układu współrzędnych nowych zmiennych (czynników lub składowych) tak, aby można było łatwiej zinterpretować wyniki. Między innymi zależy nam na tym, aby jedna zmienna obserwowalna X nie ładowała więcej niż jednego czynnika na raz. Takie crossloadings zmiennej X z dwoma lub więcej czynnikami są problematyczne, np. jeśli X ładuje wysoko zarówno czynnik A i czynnik B, wówczas trudno taką zmienną poprawnie zinterpretować.

Rotacje dzielą się na ortogonalne (np. varimax) i nieortogonalne (skośne - np. oblimin). Ortogonalne nie pozwalają na to, aby czynniki były skorelowane ze sobą, natomiast nieortogonalne dopuszczają taką możliwość. Jeśli wykorzystamy rotacje nieortogonalne, to macierz ładunków czynnikowych rozłoży się na dwie części: macierz modelową (pattern matrix) oraz macierz struktury (structure matrix). Aby odczytać ładunki w takim przypadku, należy wykorzystać macierz modelową (pattern matrix).
Dopuszczenie skorelowania (czyli nieortogonalności) czynników ukrytych jest czasem dobrym rozwiązaniem z tego względu, że rzadko ukryte cechy psychologiczne, które są odpowiedzialne za strukturę otrzymanych danych, są zupełnie niezależne od siebie. Przykład (zupełnie losowy) - niech zmiennymi ukrytymi będą lęk i konserwatyzm. Mimo, że to są odrębne konstrukty psychiczne, nie można twierdzić, że są one całkowicie niezależne od siebie, dlatego warto byłoby dopuścić ich skorelowanie.

Ładunki krzyżowe
Idealnie jest, jeśli dany item ładuje tylko jeden, podstawowy dla siebie czynnik. Oznacza to wtedy, że item ten bada tylko jedną cechę, ale jest to sytuacja tylko idealna. Często jest tak, że dwa (i więcej) czynników wyraża się przez jeden item, np. pytanie o krzywdę wyrządzoną drugiej osobie może być zrozumiane jako pytanie o krzywdę dziecku. Dlatego żąda się, aby ładunki krzyżowe, czyli te ładunki, które dotyczą pozostałych czynników, a nie tego podstawowego, pozostały jak najmniejsze. I kolejna reguła kciuka jest taka, żeby ładunki wynosiły mniej niż |0.3| (chodzi o wartość bezwzględną, wszystko co leży na lewo i na prawo od zera w odległości do 0.3 jest uznawane za dopuszczalne).

Ocena analiz
Ocena danych pod katem analizy polega na ocenie kilku parametrów z których wymienię jedynie: wyznacznik macierzy korelacji oraz test sferyczności Bartletta i Kryterium KMO. Wyznacznik macierzy to kolejny, obok wartości własnych, atrybut macierzy. Dzięki niemu wiadomo, czy dany zbiór zmiennych obserwowalnych można sprowadzić do mniejszego rozmiaru. Jeśli wyznacznik macierzy jest równy 1 oznacza to, że zmienne są słabo skorelowane ze sobą i zmienić wymiaru zmiennych nie da się. Test sferyczności Bartletta 1 jest testem, który sprawdza hipotezę o tym, że wyznacznik macierzy jest równy 1.
Gdyby tak było, to macierz korelacji miałaby same jedynki na przekątnej, które oznaczałyby że jest to macierz jednostkową (patrz wyżej).
Miara Kaiser-Meyer-Olkin (miara KMO) - kolejna miara adekwatności próby, w zasadzie macierzy korelacji, sprawdzająca czy dane mogą być użyte w analizie. Pomijając równania, zadowolimy się wartościami referencyjnymi: najlepsze wartości to te bliskie 1. Minimalna wartość tej miary, uważana za dopuszczalną wynosi 0.5

Konfirmacyjna czy Eksploracyjna?
Rozróżnienie między tymi dwoma typami analizy czynnikowej (lub PCA) tak naprawdę sprowadza się do intencji badacza - czy jego celem badacza sprawdzenie struktury danych (eksploracja) czy też potwierdzenie struktury badacza (konfirmacja)? W praktyce wygląda to tak, że jeśli badacz nie ma wcześniej przyjętych założeń co do postaci danych, to po prostu podąża za wynikami analizy, np. wykres osypiska pokazuje, że istnieją trzy czynniki, zatem rzeczony badacz ’wymusza’ ekstrakcję trzech czynników i później zastanawia się czy ma to uzasadnienie teoretyczne. Może on testować, czy rozwiązanie z mniejszą lub większą liczbą czynników będzie lepsze. Jeśli badacz ma założoną pewną strukturę danych i do dyspozycji była teoria przepowiadająca z góry określoną liczbę czynników, np. tak jak w teorii MFT 5 czynników, to badacz ustawia w programie ekstrakcję 5 czynników i może to uznać, za próbę potwierdzenia swojego modelu.
Tak, ale to, co napisałam powyżej, to trochę takie akrobacje umysłowe. Użycie EFA do potwierdzenia struktury czynnikowej nie jest bezspornie przyjętą metodą potwierdzania modelu czy hipotez. Raczej używa się do tego równań strukturalnych SEM (chociaż one też mogą być wykorzystywane do eksploracji) - równania te pozwalają badać stopień rozbieżności między danymi a postulowanym przez badacza modelem, który został z góry, przed badaniem opracowany.

PODSUMOWANIE



Related Posts Plugin for WordPress, Blogger...