poniedziałek, 8 sierpnia 2016

Letnia inwentaryzacja!

Dzień dobry Czytelnikom:)


W tym roku już była inwentaryzacja (kilka miesięcy temu), ale uznałam, że wiele postów wymaga przejrzenia, choćby pod względem redakcyjnym. Część na pewno nadaje się do gruntownego przepisania, bo powstały dawniej, były pisane na szybko i co raz to znajduję jakieś kwiatki, które mój wewnątrzny nazi-statystyk każe się wstydzić*. Zatem zarządzam kolejną inwentaryzację...
Wakacje to idealna okazja, bo nie ma sesji, poprawek, itp. Fajnie, że jest jakiś ruch na stronie mimo wakacyjnego nastroju (pozdrawiam Was), więc uprzedzę, że może coś znikać, pojawiać się, przerabiać itp.
Do poczytania od najdalej października.

* Przecież nie napiszę, że chodzi o to, że kolorki mi się nie podobały :-)

Ryc. Letnie porządki na blogu (LJK).

poniedziałek, 1 sierpnia 2016

ANCOVA i analiza moderacji

Pojęcie moderatora jest pojęciem metodologicznym, ale w przypadku analizy moderacji od teorii przechodzi się do praktyki tak szybko, że w zasadzie sposób poszukiwania moderatora szybko zawęził się do analizy regresji i to regresja jest obecnie wiodącą technika analizy moderacji. Takie jest moje spostrzeżenie.

W skrypcie przedstawiam właśnie ten najbardziej popularny sposób analizy moderacji.

Słowo moderator ma kilka znaczeń – nas będzie interesowało jako pojęcie z zakresu metodologii (psychologii). Rozbierzemy je na czynniki: „moderować” znaczy „kierować”, więc - na chłopski rozum - moderator jako zmienna psychologiczna 'moderująca' związek między dwoma innymi zmiennymi to taka zmienna, która w jakiś sposób wpływa na związek między nimi. Ten sposób trzeba odkryć. Przykład, dobrym kandydatem na moderatora jest płeć, ponieważ istnieją zjawiska, które są częściej lub bardziej obserwowalne wśród przedstawicieli jednej płci niż drugiej (dla żartu – ciąża;) ) .


Rysunek mniej więcej ilustruje działanie moderatora – zmienne X i Y są ze sobą związane, ale moderator wpływa na ten związek.
Ryc. 1. Czym jest moderator? (rys. LJK)
Poszukałam informacji, jak inni wykładowcy traktują to pojęcie.
W skrypcie prof. Adama Tarnowskiego z Wydziału Psychologii UW znalazłam taką definicję: „Zmienna taka określająca warunki w jakich zachodzi wpływ zmiennej niezależnej na zależną nazywamy moderatorem”. Bardzo ładną definicję znalazłam w Drogowskazie statystycznym (2012):

„Moderatory to takie zmienne, które opisują warunki wystąpienia danego efektu, osoby podatne na ten efekt; odpowiadają na pytania: „kto?”, „kiedy?” „w jakich warunkach?”.

Dla statystyka moderator to po prostu kolejna zmienna w regresji liniowej, tyle że trzeba wziąć pod uwagę dodatkową zmienną niezależną w tej regresji, jaką jest interakcja (to tak po ludzku). O interakcji już było (klik) – interakcja odnosi się do co najmniej trzech zmiennych. Najlepsze w tym wszystkim bałaganie jest to, że w zasadzie wykonując model regresji liniowej powinniśmy zawsze sprawdzać, czy występuje interakcja między zmiennymi niezależnymi. A obecność interakcji sugeruje obecność moderatora – więc to zawsze mamy szukać moderatora? Hmm.


Analiza statystyczna zadania dot. moderacji

Zadanie jest następujące: pewien psycholog przeprowadził badanie wnosząc, że wyższy iloraz inteligencji poprawia poziom wykonania zadań (nie wiadomo jakiego typu, to nie jest istotne), o ile badani są wyspani. Jeśli badani są niewyspani, to nic z tego, inteligencja nie pomoże. Tak na marginesie, właśnie ja jestem takim przykładem: jeśli jestem niewyspana, to mogę tylko się uśmiechać, nic mi się nie chce, zwłaszcza myśleć i mogą mi wstawiać dwóje, klepać po głowie, wszystko, bylebym tylko mogła sobie wrócić do łóżeczka :-)


Zmienna zależną (dependent variable, DV) jest liczba popełnionych błędów (w zbiorze zmienna o nazwie Błędy). Zmiennymi niezależnymi (independent variable, IV) będą: iloraz inteligencji (w zbiorze zmienna o nazwie IQ) oraz wyspanie lub brak snu (zmienna o nazwie Sen). Zmienne: Błędy oraz IQ będą uznawana za ciągłe, zmienna Sen jest zmienną kategorialną (ma dwie wartości).

Analiza zadania.

Na początku można podejrzewać, że odpowiednią techniką statystyczną będzie analiza kowariancji ANCOVA (klik), ponieważ pozwoliłaby na 'oddzielenie wpływu inteligencji' - tak zgrabnie piszą o tym Takane i Ferguson (1997). Zatem, zmienną kowariancyjną (kozmienną, zmienną towarzyszącą, covariance variable, CV) byłaby tutaj zmienna o nazwie IQ. W takim razie zmienną niezależną jest Sen. Jest to zmienna kategorialna (lub też: dychotomiczna) i dzieli zbiór osób badanych na dwie podgrupy (wyspani, niewyspani – nie można być wyspanym i niewyspanym naraz). Zatem można o niej myśleć jako o czynniku - analogicznie do analizy wariancji. Zmienną zależną jest zmienna Błędy.

Założeniem analizy kowariancji jest zależność liniowa między zmienną zależną a kozmienną.

Poniższy rysunek pozwala na ocenę graficzną tej zależności.
Rysunek 1. Wykres rozproszenia zmiennej zależnej (DV), Błędy, oraz kozmiennej (CV), Inteligencji IQ. Podział na brak snu/wyspanie został wprowadzony dla porównania.

 
Ryc.2. Wykres rozproszenia (Rys.LJK)

Współczynnik korelacji liniowej r Pearsona między zmiennymi IQ oraz Błędy wynosi -0.71, p = 0.001. Jest on dość wysoki, co pozwala uznać, że ta zależność liniowa ma miejsce.

W analizie kowariancji drugim z założeń jest 'brak wpływu oddziaływań eksperymentalnych na zmienną towarzyszącą' (Ferguson, Takane, 1997, s. 411). To oznacza, że porównanie średnich w grupach wyznaczonych przez zmienną niezależną (która przecież jest kategorialna) nie powinno wskazywać zróżnicowania.


Z tego względu, że zmienna Sen ma dwa poziomy (Brak snu/Wyspanie), to przeprowadzony zostanie test t-Studenta. Rezultat jest taki, że czynnik Sen nie ma wpływu na średni poziom kozmiennej Inteligencja, t(9.93) = 1.35, p = 0.21.


Trzecim ważnym założeniem ANCOVA jest homogeniczność/jednorodność nachyleń prostych regresji Błędów na IQ w obu grupach wyznaczonych przez zmienną Sen (te grupy to: osoby niewyspane i osoby wyspane). Zobaczmy jak wyglądają te nachylenia.


Rysunek 2. Wykresy rozproszenia Błędów i IQ wraz z naniesionymi liniami regresji prostej. Ocena graficzna jednorodności regresji.

Linie równoległe to proste regresji Błędów (zmienna zależna, pionowo) na Inteligencję (zmienna niezależna, poziomo) w obu grupach oddzielnie.
Powinny być to linie równoległe (rys.2), ale na to nie wskazują te wykresy. Możemy zatem przypuszczać, że istnieje interakcja między kozmienną a zmienną niezależną. Oznacza to, że w zależności od wartości zmiennej Sen (te wartości to Brak snu albo Wyspanie) zależność między Inteligencją a Błędami jest różna (tak działa interakcja). W takim przypadku musimy wyrzucić do kosza pomysł o analizie kowariancji.
Wobec istnienia interakcji między zmiennymi niezależnymi (Sen oraz Inteligencja) rozwiązaniem jest przeprowadzić analizę moderacji. Przy czym najpierw należałoby ustalić, która zmienna miałaby być moderatorem. Definicja moderatora brzmi: jest to taka zmienna M, która zmienia związek (siłę lub/i kierunek) między dwoma zmiennymi X i Y.
Przykładowo, ryzyko zachorowania na schizofrenię rośnie z wiekiem, ale ta zależność jest prawdziwa tylko dla mężczyzn, dla kobiet to ryzyko jest w każdym wieku takie samo. Moderatorem jest tutaj płeć, ponieważ charakter zależności zachorowania na schizofrenię i wieku zależy od tego czynnika.
Bardziej ogólnie, z moderatorem mamy do czynienia wówczas, gdy związek między X i Y zależy od konkretnego poziomu/wartości trzeciej zmiennej M.

W części przypadków kozmienna automatycznie staje się moderatorem, w przypadku naszych badań zamiana nie jest taka prosta. Nie pytamy o moderujący wpływ inteligencji, a braku snu/wyspania. Interesuje nas, czy wyższy iloraz inteligencji poprawia jakość wykonania zadania, dlatego moderatorem jest tutaj nie wcześniejsza kozmienna (Inteligencja, IQ), ale zmienna niezależna Sen. To tylko pokazuje, że należy być przytomnym wykonując analizy, aby nie wpuścić się w maliny. Skoro z matematycznego punktu widzenia moderator i zmienna niezależna to to samo, to po naszej stronie leży ustalenie, co jest czym – w oparciu o teorię.

Spróbujemy zatem przeprowadzić analizę moderacji, która w gruncie rzeczy jest po prostu analizą regresji wielokrotnej.

Najpierw jednak przeprowadzimy, jak regresję prostą Błędów na Inteligencję. To nie jest element analizy moderacji, ale jest poglądowy, służy do zobaczenia, co się dzieje.
Tabela 1. Współczynniki analizy regresji Błędów na IQ

B
t
p
Wyraz wolny 86.37 8.45 <0.001***
IQ -0.38

0.00125
B – współczynnik regresji, t – statystyka testowa, p – p-wartość.
* <0.05 ** <0.01 ***<0.001
Cóż, współczynnik regresji nie jest wysoki, raptem B = -0.38 (mimo, że ta korelacja jest wysoka).
Co będzie działo się dalej, gdy uwzględnimy czynnik oraz interakcję czynnika z IQ?



Tabela 2. Współczynniki analizy regresji Błędów na IQ oraz Sen

B
t
p
Wyraz wolny 85.48 8.52 <0.001***
IQ -0.36 -3.89 0.00186**
Sen („brak snu”) -2.34 -1.26 0.23
B – współczynnik regresji, t – statystyka testowa, p – p-wartość.
* <0.05 ** <0.01 ***<0.001
W modelu analizy moderacji będą uwzględnione trzy elementy – dwie zmienne niezależne oraz interakcja między nimi.
Tabela 3.
Współczynniki analizy regresji Błędów na IQ, Sen oraz interakcję IQ ze Snem.

B
t
p
Wyraz wolny 63.06 6.24 <0.001***
IQ -0.15 -1.72 0.11
Sen („brak snu”) 48.51 3.16 0.009**
IQ x Sen -0.46 -3.33 0.005**
B – współczynnik regresji, t – statystyka testowa, p – p-wartość.
* <0.05 ** <0.01 ***<0.001
adj. R2 = 0.75; F(3,12) = 11.42, p = 0.0001

Obserwujemy, że po włączeniu do równania regresji zarówno zmiennej Sen, jak i interakcji Snu z IQ związek tej ostatniej (IQ) oraz Błędów pomimo początkowej wysokiej korelacji rozumiany jako współczynnik regresji bIQ znalazł się w okolicy zero (zgodne jest z testem istotności tego współczynnika regresji, bIQ = -0.15, p = 0.11). Cóż, możemy w jakimś tam stopniu posiłkować się istotnością statystyczną wyrazu interakcyjnego – jest poniżej progu 0.05, zatem to pozwala wysunąć hipotezę o moderacyjnym charakterze zmiennej Sen.
Jaki jest charakter tej moderacji? Współczynnik kierunkowy nachylenia prostej regresji w grupie osób wyspanych wynosi bIQ = -0.15 - 0.46 = - 0.61 (im wyższe IQ, tym mniej Błędów). Natomiast w grupie osób niewyspanych wynosi on bIQ = -0.15 (podobnie, im wyższe IQ, tym mniej Błędów, ale ten spadek jest mniejszy co do wartości bezwzględnej bo 0.15 < 0.61). Rysunek 3 ilustruje te wnioski.

Wobec powyższego zmienną Sen w terminach statystycznych można określić jako zmienną moderującą. Wpływ Inteligencji na Błędy zależy od obecności/braku snu i wpływ ten jest większy gdy osoba jest wyspane niż w warunku deprywacji snu (por. Sosnowski, 2010).

Mówią, że dobry obraz jest wart tysiąca słów, więc zobaczmy, jak wygląda ta moderacja.
Rysunek 3. Wynik analizy moderacji.

Linia przerywana odpowiada prostej regresji w warunkach obecności snu, a linia ciągła - w grupie osób niewyspanych. Nachylenia obu prostych do osi poziomej OX wzięły się właśnie z tych obliczeń współczynników regresji. Proste te pokazują związki między inteligencją a popełnianiem błędów w dwóch grupach (oddzielnie).

Co ciekawe, w grupie osób niewyspanych nachylenie jest bardzo małe (co wskazywałoby na to, że zależność między IQ a Błędami jest niewielka).

Ostrożna (bo wymagająca jeszcze dalszych analiz, a także diagnostyki modelu regresji) odpowiedź na pytanie badawcze brzmi, że hipoteza badawcza została potwierdzona (Iloraz inteligencji ma wpływ na ilość błędów, o ile badany jest wyspany). Wychodzi na to, że moderatorem relacji między ilorazem inteligencji a unikaniem błędów jest moderowany przez fakt, czy ktoś jest wyspany lub nie.