Interakcje i kowariancje - analiza kowariancji.




Pozwólcie, że zacznę od przykładu prawdopodobieństwa warunkowego: prawdopodobieństwo zrozumienia analizy kowariancji pod warunkiem zrozumienia pojęć 'interakcji' i 'kowariancji' jest ... duże. Matematyczny zapis: P(ANCOVA|ogarnięcie interakcji i kowariancji) = duże.
Oczywiście, to jest pseduomatematyczny zapis i przykład dość abstrakcyjny, ale samą analizę kowariancji da się zrozumieć.

Analizę kowariancji zacznę od czegoś, co pozornie nie ma związku - od tego, czym jest interakcja. Całkiem niedawno wieczorem siedziałam przy swoim biurku i zastanawiałam się, co to jest interakcja i dotarło do mnie, że to słowo w zasadzie ma wiele znaczeń, przez co trudno odnaleźć to właściwe w kontekście analizy kowariancji (lub innych modeli). Otóż, może być 'interakcja' między ludźmi: A spotyka B i zaczynają rozmowę na temat pogody. Wówczas ta interakcja ma znaczenie spotkania dwojga homo sapiens. Brak interakcji wyglądałby tak: A mija B (a B mija A), w ogóle nie zauważając siebie nawzajem, tak jak to robimy na ulicy względem osoby, która idzie chodnikiem po drugiej stronie jezdni.
'Interakcję' w chemii można zaobserwować, kiedy substancję A włożymy do substancji B i wskutek tego coś się zadzieje w próbówce, np. powstanie jakaś inna substancja C.
'Interakcja' w kontekście zmiennych (wchodzimy już w statystykę) oznacza, że mówimy nie o dwóch, a o trzech (lub więcej zmiennych). 'Interakcja' (celowo w cudzysłowie) rozumiana jako spotkanie dwóch zmiennych to kowariancja, czyli współzmienność, wyrażona przez współczynnik korelacji (możemy nagiąć tutaj te znaczenia, współczynnik korelacji to standaryzowana kowariancji, więc w gruncie rzeczy to samo). Dalej, załóżmy, że zarówno A i B osobno wpływają na C. Ale co jeśli także między nimi są jakieś oddziaływania, które wpływają na C? Jeśli istnieje interakcja między A i B, to znaczy, że C to odczuje, np. wielkość wpływu A na C zależy od tego, co powie B.

Życiowy przykład braku interakcji jest taki: na mój dzisiejszy humor ma wpływ godzina opuszczenia łoża (siódma, szósta, piąta - im wcześniej tym gorszy) oraz ilość wypitej, ciepłej, czerwonej herbaty (im więcej tym lepiej). Ale nie mam tak, że brak wyspania (piąta) zrekompensuje mi wiadro herbaty na tyle, abym poczuła się tak dobrze, jakbym wstała o siódmej i wypiła kubek. Oba zjawiska: godzina wstania oraz ilość czerwonej herbaty mają wpływ na moje samopoczucie, jednak nie występuje między nimi interakcja. Pewnie występuje korelacja, bo im później wstanę, tym mniej herbaty wypiję (ale to nie ma związku z humorem).

Interakcja.

Ogólna definicja interakcji w jakichkolwiek okolicznościach brzmi:
interakcja oznacza, że 'wpływ jednej zmiennej niezależnej na zmienną zależną zmienia się w zależności od poziomu drugiej zmiennej niezależnej' (Sosnowski, 2010). To dobra definicja profesora psychologii z Uniwersytetu Warszawskiego. Nieco mniej intuicyjna dla nie-matematyków definicja prof. Szymczaka z Uniwersytetu w Łodzi: 'Interakcję między czynnikami a i b rozumieć możemy jako łączny, nierozkładalny na sumę efektów czynnika a i czynnika b, wpływ obu czynników na badaną zmienną ciągłą' (Szymczak, 2010).
Natomiast Garret Fitzmaurice z Harvard School of Public Health pisze (2000), że 'interaction is said to arise when the effect of one explanatory  variable  depends  on  the  particular level  or  value  of  another  explanatory  variable.'

Analiza kowariancji zakłada, że między A i B nie będzie żadnych wzajemnych oddziaływań, które odczułaby zmienna zależna C. Zmienna C to najczęściej jakaś cecha psychologiczna, np. satysfakcja z życia, czas reakcji albo wynik w wybranym kwestionariuszu. Brak interakcji między zmienną zakłócającą B a zmienną niezależną A (tą która grupuje obserwacje w grupy) to jest punkt wyjścia, jeśli badacz zechce przeprowadzić akurat technikę analizy ANCOVA. Analiza kowariancji polega na oczyszczeniu zmiennej zależnej C ze zmiennej zakłócającej B tak, aby można było zbadać, czy średnie C w porównywanych grupach obserwacji. Grupy obserwacji są wyznaczone przez wartości zmiennej A. Jeśli zmienna zakłócająca B inaczej działa w jednej grupie niż w drugiej na zmienną C, to ten wpływ trudno rozdzielić.

Analizę kowariancji można rozumieć jako rozszerzenie analizy wariancji w tym sensie, że bierzemy pod uwagę zmienną zakłócającą podczas porównywania grup.

Jak to się dzieje?
Zacznijmy jeszcze raz od analizy wariancji - istnieje kilka grup do porównania pod kątem wybranej cechy. Już w tym momencie obecne są dwie zmienne: jedna grupująca obserwacje (np. Płeć albo Status Ekonomiczny czy Wykształcenie), więc musi być dyskretna - mierzona na skali nominalnej lub porządkowej; oraz druga to zmienna ciągła (na skali przedziałowej lub ilorazowej) będąca wybraną cechą (Wiek, Wzrost, wyniki w wielu skalach psychologicznych: RSES, GSES, SWLS, iloraz inteligencji, czas reakcji). Zmienna, która grupuje obserwacje, to zmienna niezależna. Zmienna, które średnie badamy to zmienna zależna (bardzo ogólnie).

Załóżmy, że badacz przeprowadził test Satysfakcji z życia w trzech grupach zawodowych: nauczyciele szkół średnich,  pielęgniarki i styliści modowi - ot, takie trzy grupy. Kwestię pobierania próby i reprezentatywności badań zostawiamy na boku, tak samo jak kwestię sensowności badania. Badacz oczywiście robił badania, aby porównać średni poziom satysfakcji. Jednocześnie wie, że w obrębie każdej grupy są osoby starsze i młodsze. Wiadomo, że w Polsce pielęgniarki są coraz starsze,a młodsze uciekają za granicę (sporo jest o tym(tutaj), styliści modowi to nowa grupa zawodowa, więc są to osoby młodsze. Z pewnych źródeł badacz przypuszcza, że wiek jest związany z satysfakcją z życia - im człowiek starszy, tym mniej od życia oczekuje, więc jest bardziej usatysfakcjonowany. Nie wiem, czy tak jest naprawdę, bo nie zajmuję się tą tematyką, ale chcę urealnić analizę kowariancji przykładem z życia. Tak więc, psycholog zbiera od osób badanych informację o ich wieku (czy to w formie pytania, ile ma Pan/Pani lat, czy w formie podania roku urodzin - nie ma znaczenia).

W ten sposób ma już trzy zmienne w bazie: pierwsza to zmienna kodująca grupę zawodową (nauczyciele, pielęgniarki, styliści), druga to wynik na skali SWLS, a trzecia to Wiek. Wobec powyższych teoretycznych rozważań, Wiek wydaje się być dobrą kandydatką na zmienną zakłocającą (zwaną też zmienną kowariantną, albo krócej: kozmienną). Ale czy zmienna Wiek (lub jakakolwiek inna zmienna dodatkowo wprowadzana do modelu) zawsze będzie zmienną zakłócającą? Jedno z założeń analizy kowariancji mówi, że zmienna zakłócająca jednakowo działa na zmienną zależną we wszystkich badanych grupach zawodowych.

Warto przeczytać to jeszcze raz: nie ma interakcji między wiekiem a grupą zawodową w kontekście satysfakcji z życia, ale jest korelacja między wiekiem a grupą zawodową. Ta korelacja obliczana będzie inaczej niż za pomocą współczynnika r-Pearsona, bo grupa zawodowa jest tylko trójelementowa, ale chodzi o to, że zmienna Wiek jest zróżnicowana w grupach zawodowych. Mamy więcej osób starszych wśród pielęgniarek i dużo osób młodych u stylistów - zmienna Wiek powoduje zafałszowanie wyników w skali Satysfakcja z życia.

Ważne jest to, że interakcja dotyczy trzech zmiennych, a korelacja - dwóch. Możliwe są następujące konfiguracje: korelacja bez interakcji, interakcja bez korelacji oraz i korelacja, i interakcja naraz. Analiza kowariancji jest przeprowadzana, gdy występuje korelacja między zmienną grupującą obserwacje a zmienną zakłócającą (czyli zmienna zakłócająca jest zróżnicowana w kategoriach zmiennej grupującej) ale nie ma interakcji między zmienną zakłócającą a grupującą w kontekście zmiennej zależnej ... w miarę jasne? Interakcja to taki trójkąt miłosny między trzema zmiennymi.
Skoro tak, to prawie jesteśmy w domu. Jeśli Wiek jest różny w tych trzech grupach zawodowych, ale nie jest ten wpływ uzależniony od zawodu, to wystarczy jego wpływ wyrugować z analiz - o! Owo 'rugowanie' robi już za nas program statystyczny (dawno temu musielibyśmy komuś zlecić rachunki). Gdybyśmy nie usunęli wpływu zmiennej zakłócającej, to ryzykowalibyśmy że wyciągniemy wnioski, które będą nieprawdziwe - będą zafałszowane przez wpływ zmiennej zakłócającej.
A teraz pokażę kilka ilustracji, które mam nadzieję, pomogą ogarnąć rozumowo tę metodę.



Rysunek na dole pokazuje średnie tej samej zmiennej zależnej w trzech grupach zawodowych, kontrolując zmienną zakłócającą.

Okazuje się, że jeśli 'odejmiemy' wpływ zmiennej zakłócającej, jaką jest Wiek, to średni poziom zmiennej zależnej (czyli Satysfakcji z życia) jest równy w trzech grupach zawodowych.

Podsumowanie.
Analizę kowariancji wykonujemy wtedy, gdy mamy podejrzenie, że istnieje zmienna zakłócająca relację między zmienną zależną a czynnikiem. To jest, sądzimy, że średnie (zmiennej zależnej) w grupach 'wyglądają inaczej' jeśli uwzględnimy wpływ pewnej zmiennej, która spełnia warunki bycia zmienną zakłócającą. Podejrzewamy wówczas, że wzorzec średnich jest fałszowany przez zmienną zakłócającą (np. zmienna zakłócająca dodaje w skali w jednej grupie, a w drugiej zabiera, tworząc w ten sposób artefakt).
Na końcu zostawiłam najważniejsze. Jeśli wystąpi interakcja między zmienną zakłócającą a czynnikiem (czyli tą zmienną, która grupuje obserwacje) to nie powinniśmy wówczas przeprowadzać analizy kowariancji ponieważ nie ma możliwości wyekstrahować wpływu zmiennej zakłócającej. W takich przypadkach należy rozważyć analizę moderacji, która w założeniu opiera się na interakcji (co najmniej) dwóch zmiennych niezależnych w modelu regresji.


3 komentarze:

saunterer pisze...

Pozwoliłem sobie na wysłanie prośby o dostęp do podlinkowanego pdf-a!

Lilianna Jarmakowska-Kostrzanowska pisze...

Działa to? Eksperymentuję z platformą bloggerem i zastanawiam się, czy moje akcje mają jakiś efekt... (choć to raczej blogger eksperymentuje ze mną i na razie świetnie się bawi:))

kotek pisze...

Dobrze, że jestem już po statystyce na studiach...