Statystyka w psychologii: Test t-Studenta dla zależnych

LISTOPAD 2023| LJK | ~2300 słów

Test t-Studenta dla grup zależnych (ang. t-Student's test for paired/dependent/matched data) to test wykorzystywany do porównania średnich nasileń zmiennej ilościowej w przypadku, gdy zebrane obserwacji można połączyć w pary. Wyniki w parze dotyczą tej samej zmiennej ilościowej.

SPIS TREŚCI:

Hipoteza zerowa testu t-Studenta dla zależnych
Hipoteza alternatywna testu t-Studenta dla zależnych (i jej trzy wersje)
Transformacja danych: w tym wariancie testu t-Studenta pracujemy na różnicach między pomiarami
Format danych: jakie założenia powinny spełniać dane w teście t-Studenta

Statystyka testowa w teście t-Studenta: maszynka do mielenia danych i rozkład jej wartości
Wielkość efektu w teście t-Studenta (d-Cohena)

PORÓWNANIA MIĘDZY DWIEMA GRUPAMI to najpowszechniejszy schemat badawczy w całym świecie badawczym. Dane pochodzące z takiego schematu można poddać obróbce statystycznej na dwa sposoby. Jeden z nich dotyczy obserwacji niezależnych, gdy badana cecha jest mierzona w obrębie dwóch różnych, wykluczających się kategorii np.: kobieta i mężczyzna (nie można być na raz kobietą i mężczyzną). Drugi dotyczy obserwacji zależnych. W takim badaniu korelacyjnym czy eksperymencie, osobno zbieramy osoby do jednej grupy (np. kontrolnej) i osobno do drugiej (np. eksperymentalnej). Drugi schemat badania polega na tym, że ta sama grupa osób badanych przechodzi przez pierwszy i drugi warunek badania, np. pretest i posttest. Ten pierwszy przykład danych pasuje do testu t-Studenta dla dwóch grup niezależnych KLIK. W tym poście zajmiemy się tym drugim przypadkiem.

TEST t-STUDENTA dla zależnych grup (albo par) znajduje zastosowanie w prostych eksperymentach: najpierw mierzymy wyjściowy poziom interesującej nas zmiennej. Potem osoby badane poddajemy działaniu eksperymentalnemu - obejrzeniu filmu mającego wywołać określone emocje, spożyć jakiś specyfik, wyobrazić sobie coś. Następnie znowu mierzymy poziom tej samej zmiennej, na którą to działanie eksperymentalne miało mieć wpływ. Chcemy sprawdzić, czy eksperyment coś zmienił, czyli to działanie terapeutyczne wprowadziło coś nowego.

HIPOTEZA ZEROWA I ALTERNATYWNA TESTU t-STUDENTA DLA GRUP ZALEŻNYCH
HIPOTEZA ZEROWA — Hipoteza zerowa w teście t-Studenta dla prób zależnych mówi o równości średnich poziomów - czy nasileń - zmiennej zależnej między dwoma pomiarami. Przy czym - uwaga - nie chodzi o równość dwóch średnich arytmetycznych w dwóch zebranych próbach. Hipoteza zerowa jest hipotezą statystyczną i dotyczy populacji. Znak równości jest postawiony między średnimi nasileniami zmiennej zależnej w całej interesującej nas populacji zbadanej dwukrotnie.

H₀: μ₁ = μ₂

Hipoteza zerowa w teście t-Studenta dla prób zależnych jest niemal identyczna z hipotezą zerową testu t-Studenta dla prób niezależnych. Różnica polega na tym, że to jest ta sama grupa osób badanych, więc dwukrotnie mierzymy średni poziom tej samej zmiennej między pomiarami. Indeks dolny nie oznacza zatem numeru poziomu czynnika a numer pomiaru.

JAK CZYTAĆ TEN ZAPIS? Ogólnie rzecz biorąc, w procedurze testowania istotności statystycznej hipotezy zerowej, hipoteza zerowa mówi o braku efektu. Chcąc przykroić ją na potrzeby dwukrotnego pomiaru tej samej zmiennej ilościowej, ów brak efektu możemy rozumieć jako niepowodzenie w manipulacji eksperymentalnej. Manipulacja nie przyniosła pożądanego efektu: wyniki zmiennej zależnej ani średnio nie wzrosły, ani średnio nie spadły, wciąż pozostając na tym samym poziomie.

Pamiętaj, że równość średnich wyrażona w hipotezie zerowej nigdy nie dotyczy równości średnich w próbie. Do tego celu (sprawdzenia, czy te średnie są równe w próbie) wystarczy spojrzeć na statystyki opisowe.

A teraz będą dziać się czary z danymi. W trakcie wykonywania analiz testu t-Studenta dla powtarzanych pomiarów z surowych danych przechodzimy na inny poziom.

HIPOTEZA ALTERNATYWNA — hipoteza alternatywna często bywa statystycznym odpowiednikiem hipotezy badawczej. Odpowiednikiem, czyli przełożeniem hipotezy badawczej na język symboli statystycznych. Hipoteza alternatywna również dotyczy średnich nasileń (poziomów) tej samej zmiennej zależnej między dwoma pomiarami, a znak arytmetyczny jaki stoi pomiędzy mógłby być znakiem mniejszości, większości, albo nierówności. W ten sposób mamy trzy możliwości:

LEWOSTRONNA H₁: μ₁ < μ₂ — pod wpływem działania eksperymentalnego wzrasta średnie nasilenie badanej zmiennej

OBUSTRONNA H₁: μ₁ ≠ μ₂ — działanie eksperymentalne zmienia średnie nasilenie badanej zmiennej, ale nie wiadomo, czy podwyższa, czy obniża

PRAWOSTRONNA H₁: μ₁ > μ₂ — pod wpływem działania terapeutycznego spada średnie nasilenie badanej zmiennej.

TRANSFORMACJA DANYCH – Jeszcze zanim dane wejdą do analiz, dane przechodzą pewną transformację. Polega ona na odjęciu wyników z jednego pomiaru od wyników z drugiego pomiaru. Dwa zestawy wyników zostają sprowadzone do jednego zawierającego różnice. Dla każdej obserwacji zostaje obliczona różnica między pomiarami. I to na niej wykonuje się test t-Studenta dla grup zależnych.

Zobacz, przenosząc średnią zmiennej zależnej drugiego pomiaru μ₂ na lewą stronę, otrzymujemy różnicę średnich między pomiarami μ₁ - μ₂. Wyrażenie po lewej stronie zostaje porównane do zera μ₁ - μ₂ = 0.

HIPOTEZA ZEROWA W NOWEJ ODSŁONIE - Ponieważ wykonaliśmy operację na surowych danych i zmieniliśmy ich strukturę, hipoteza zerowa również zmieni swoją postać. Zamiast porównywać średnie oryginalnej zmiennej w dwóch pomiarach, średnią różnic zmiennej zależnej między dwoma pomiarami jest porównana do zera. Arytmetycznie nie jest to duża zmiana.

H₀: μ_D = 0

Czyli wprawdzie w próbie nie oczekujemy, że wszystkie średnie będą równe zero, ale że średnia różnic między pomiarami w populacji już tak. To tak, jak gdyby przebadać całą ludzkość dwa razy, odjąć wyniki od siebie i oczekiwać, że średnia różnic dla całej populacji ani drgnie.

HIPOTEZA ALTERNATYWNA — Hipoteza alternatywna H₁ w paradygmacie NHST wygląda bardzo mgliście. Z grubsza, można ją zapisać:”H₁ nieprawda, że H₀”, więc zaprzeczenie H₁: μ₁ ≠ μ₂ oznacza brak równości między średnimi zmiennej zależnej między pomiarami. Gwoli ścisłości, my zajmujemy się średnimi różnic, więc wypadałoby napisać H₁: μ_D ≠ 0

ZAŁOŻENIA TESTU t-STUDENTA DLA GRUP ZALEŻNYCH
Każdy test statystyczny dane powinny mieć odpowiedni format, aby dało się ten test zastosować. FORMAT DANYCH: jakie założenia powinny spełniać dane w teście t-Studenta. Należy mieć na uwadze, że oględzinom poddajemy nie surowe dane z obu pomiarów, a wynik ich transformacji (przekształcenia), czyli różnice między pomiarami. To dlatego, że hipoteza zerowa o braku różnic między średnimi wartościami w pomiarach H₀: μ₁ = μ₂ stała się hipotezą zerową o zerowej średniej różnicy między pomiarami H₀: μ_D = 0. Tu koncentrujemy się na nowym, pojedynczym zestawie wyników i okaże się, że z różnych możliwych oczekiwań co do do rozkładu zmiennej zależnej zostaje jedynie normalność rozkładu.

NORMALNOŚĆ ROZKŁADU (RÓŻNIC) - Kiedy przekształcimy dane z dwóch kolumn i powstanie nam trzecia kolumna, będzie ona zmienną, której normalność badamy. Wygląda na to, że badamy normalność rozkładu nie surowych wyników - dwóch odrębnych zmiennych - a różnic między pomiarami. Badanie normalności oznacza, że badamy, czy występowanie poszczególnych wyników jest podyktowane prawem rozkładu normalnego. Rozkład normalny to specyficzny przepis na pojawianie się obserwacji. Mówi on, że najczęściej będą pojawiać się wyniki z okolicy średniej, a czym "dziwniejsza" obserwacja, tym mniejsza szansa, że wystąpi.

Jeśli chcesz dowiedzieć się, jak diagnozować normalność tymi metodami, zajrzyj do posta pt. Diagnostyka normalności: KLIK

HOMOGENICZNOŚĆ WARIANCJI - W porównaniu z testem t-Studenta dla niezależnych, w wariancie tego testu dla grup zależnych, nie obowiązuje nas badanie homogeniczności wariancji badanej cechy. Skupiając się na różnicach między pomiarami, skupiamy się na jednym zestawie danych. Pewnie nikt nie zauważył, jak gładko przeszliśmy z testu t-Studenta dla dwóch prób do testu t-Studenta dla jednej próby. Tak - test t-Studenta dla prób zależnych to tak naprawdę test t-Studenta dla jednej próby (one sample t-test), gdzie tą jedną próbą są różnice. Nie ma grup, w których mielibyśmy porównywać wariancje. Zostaje tylko badanie normalności rozkładu, ale różnic między pomiarami.

STATYSTYKA TESTOWA TESTU t-STUDENTA DLA GRUP ZALEŻNYCH
Zanim omówimy statystykę testową – a potem jej rozkład – zobaczmy, co dzieje się z danymi. W pojedynczej kolumnie znajdują się różnice między pomiarami. Wcześniej zrezygnowaliśmy z surowych danych i została nam jedna kolumna z transformowanymi danymi tj. z różnicami między pomiarami. Co by się teraz stało, gdybyśmy policzyli średnią arytmetyczną tych różnic? Czego moglibyśmy spodziewać się po tej liczbie?

Gdyby średnia arytmetyczna różnic wynosiła zero, oznaczałoby to, że – średnio rzecz biorąc – manipulacja eksperymentalna nie przyniosła żadnego efektu. Drugi pomiar jest ogólnie (średnio) taki sam jak pierwszy pomiar. Nie znaczy to oczywiście, że każda osoba ma dwa jednakowe wyniki w obu pomiarach, ale że średnie arytmetyczne oryginalnej zmiennej zależnej są równe.

Ktoś mógłby pospieszyć się i powiedzieć: niech ta średnia różnic będzie statystyką testową testu t-Studenta dla zależnych. Problem jednak jest taki sam, w teście t-Studenta dla niezależnych. Średnia arytmetyczna jakiejkolwiek zmiennej nie widzi zmienności wyników.Wobec czego średnia arytmetyczna jest dzielona przez błąd standardowy. Ten iloraz jest właśnie czymś, co nazywamy statystyką testową w teście t-Studenta dla prób zależnych a proces dzielenia jednego przez drugie jest nazywany studentyzacją.

Wszystkie warianty testu t-Studenta posiadają tę samą ideę statystyki testowej. Punktem wyjścia do jej stworzenia było to, że nie można polegać tylko i wyłącznie na porównywaniu dwóch średnich. Zwykła różnica między średnimi nie oddaje tak tego, co naprawdę dzieje się w danych. która polega na odejściu od różnicy między surowymi średnimi arytmetycznymi przy jednoczesnej tzw. studentyzacji tej różnicy (między średnimi). Najpierw trzeba zatem zrozumieć czym jest tzw. studentyzacja średniej.

STUDENTYZACJA
Studentyzacja średniej arytmetycznej to nic innego jak podzielenie tej średniej przez błąd standardowy (średniej). Błąd standardowy interpretuje się w kategoriach dobroci precyzji oszacowania. Co to znaczy? Wyjdźmy od tego, że średnia arytmetyczna w próbie jest tylko pewnym oszacowaniem średniej w populacji. O ile nie mamy przebadanej całej populacji, musimy się pogodzić z dozą niepewności wynikającą z faktu, że posiadamy wiedzę tylko o wycinku populacji. Ta miara niepewności to właśnie błąd standardowy. Precyzyjniej rzecz ujmując, błąd standardowy to miara tego, jak dobrym oszacowaniem średniej w populacji μ jest uzyskana w próbie średnia arytmetyczna. Do tego stworzono odpowiedni wzór, który zawiera informacją zarówno o stopniu rozproszenia wyników, jak i o liczbie jednostek badanych. Nawet na chłopski rozum można wywnioskować, że im więcej jednostek badanych, tym bardziej precyzyjne są nasze wskaźniki. Zaś im bardziej rozproszone wyniki osób badanych (pot. zamulone), tym mniejsza precyzja. Kiedy podzieli się średnią arytmetyczną lub różnicę między średnimi arytmetycznymi przez jej błąd standardowy, otrzymamy jedną liczbę. Będzie to wskaźnik tego, jak dobrze oszacowana poprzez średnią w próbie jest średnia w populacji.

Gdy już wiemy, jak połączyć informację z danych i wyrazić ją w postaci statystyki testowej, pojawia się kolejne pytanie - jak często zdarza się ta wartość statystyki testowej?

JAK CZĘSTO ZDARZA SIĘ WARTOŚĆ STATYSTYKI TESTOWEJ?
Dlaczego w ogóle zadajemy to pytanie? Cóż w statystyce klasycznej istnieje określony sposób postępowania podczas weryfikacji hipotez. Mamy bazę danych, której wyniki mają posłużyć do weryfikacji postawionej hipotezy badawczej. Słuchajcie, z tymi danymi coś trzeba zrobić. A ponieważ będziemy dokonywać wnioskowania o całej populacji, to musimy wyjść poza zwykły opis próby i sięgnąć po bardziej zaawansowane narzędzia niż statystyki opisowe. Pomysł jest taki, że sprawdzić, jak prawdopodobne są te wyniki. Co mam na myśli, używając w poprzednim zdaniu słowa: "wyniki"? Oczywiście, może mi chodzić o surowe wyniki osób badanych, które są w bazie danych. Może chodzić o przekształcone wyniki do różnic między pomiarami, ale ściśle rzecz ujmując chodzi mi o wartość statystyki testowej. Zadaję pytanie, jak prawdopodobna jest uzyskana w teście wartość statystyki testowej t-Studenta. I tu wchodzimy na kolejny krąg statystycznego wtajemniczenia: nie da się tak po prostu spytać o prawdopodobieństwo.

Nie, nie chodzi o jakieś matematyczne czary-mary. Chodzi o kontekst. Zdarzenia są bardziej prawdopodobne w jednym kontekście, i mniej prawdopodobne w innym. Pytanie o wartość statystyki testowej odbywa się również w pewnym kontekście - prawdziwości hipotezy zerowej. A więc, tak naprawdę zadajemy następujące pytanie: jeśli nie byłoby różnic między pomiarami, to jak prawdopodobna jest uzyskana wartość statystyki testowej? Inaczej mówiąc, jeśli manipulacja eksperymentalna nie działa, to jak typowa jest uzyskana wartość statystyki testowej? Na to pytanie odpowiada się za pomocą rozkładu wartości statystyki testowej. W tym wariancie testu t-Studenta jest to rozkład t-Studenta.

Własności rozkładu t-Studenta

jest charakteryzowany przez liczbę stopni swobody (ang. degrees of freedom). Różne stopnie swobody powodują nieco odmienne kształty tego rozkładu.

liczba stopni swobody jest związana z liczbą jednostek badanych, tj. df = N - 1, gdzie N to liczba jednostek badanych

im więcej jednostek badanych, tym większa liczba stopni swobody i tym bardziej rozkład t-Studenta przypomina rozkład normalny

Na podstawie rozkładu wartości statystyki testowej obliczana jest tzw. istotność statystyczna, czyli p-wartość (ang. p-value). P-wartość jest miarą zgodności danych z hipotezą zerową testu statystycznego, na podstawie którego ją obliczono (tu: testu t-Studenta dla grup zależnych). Z technicznego punktu widzenia, jest tym prawdopodobieństwem wystąpienia otrzymanej w teście wartości statystyki testowej - o ile manipulacja eksperymentalna nie przynosi żadnego skutku.

Sama p-wartość - sama istotność statystyczna - nie daje podstaw do twierdzenia, czy hipoteza badawcza została potwierdzona. Do tego trzeba wykonać nieco więcej kroków.

WIELKOŚĆ EFEKTU — Ponieważ istotny statystycznie wynik nie jest synonimem dużej siły zależności między zmiennymi (tu oznaczałoby to, że manipulacja eksperymentalna powoduje dużą zmianę zmiennej zależnej między pomiarami), to badacz musi zwrócić się do innego narzędzia - po wielkość efektu (ang. effect size). Wielkość efektu to miara siły związku między zmiennymi i w przypadku porównań między dwoma średnimi (nasileniami) najczęściej wykorzystuje się wielkość efektu d-Cohena.

WIELKOŚĆ EFEKTU d-COHENA — d oznacza difference (pol. różnica). Małe d nie oznacza zwykłej różnicy między średnimi zmiennej zależnej w dwóch pomiarach - a standaryzowaną. Tu znów powtarza się wątek niemożności porównań samych średnich. Średnia arytmetyczna nie zawiera informacji o rozproszeniu obserwacji wokół niej (od tego jest odchylenie standardowe). To powoduje, że dwie średnie mogą różnić się znacząco co do samego wyniku odejmowania, np. 1000 - 1 = 9999, ale z uwagi na znaczne rozproszenie obserwacji ta różnica niknie. Stąd rozsądnym rozwiązaniem problemu rzetelnego porównania dwóch grup jest uwzględnić zarówno średnie arytmetyczne, jak i rozproszenia. I tak powstało d-Cohena.

WŁASNOŚCI WIELKOŚCI EFEKTU d-COHENA

jest to pojedyncza liczba
przyjmuje wartości od minus nieskończoności do plus nieskończoności
gdy jest równa zero, wówczas średnie arytmetyczne w dwóch pomiarach są sobie równe
aby dowiedzieć się, czy otrzymana w badaniu wielkość efektu jest mała czy duża, należy skorzystać z progów (ang. benchmarków), np. systemu progów Cohena

ROZMIARÓWKA — poniżej znajduje się system progów stworzony przez Cohena w 1988.

DUŻA	od .80 do plus nieskończoności
UMIARKOWANA	od .50 do .80
MAŁA	od .20 do .50
MAŁA	od -.50 do .20
UMIARKOWANA	od -.80 do -.50
DUŻA	od minus nieskończoności do -.80

Od końca lat osiemdziesiątych ubiegłego stulecia minęło już trochę czasu i system Cohena zestarzał się. W wielu subdziedzinach psychologii powstały nowe, bardziej adekwatne do specyfiki badań w takiej poddziedzinie. Podaję go tutaj, ponieważ mimo wszystko jest nadal najczęściej wykorzystywanym systemem progów.

Pewnie spytasz, czy Cohenowi nic nie pomyliło się. Wygląda na to, że duże wielkości efektu zajmują największy obszar osi liczb rzeczywistych - to jest od minus nieskończoności do minus ośmiu dziesiątych i od ośmiu dziesiątych wzwyż. Otóż, Cohen nie popełnił błędu. Nic mu się nie pomyliło. W psychologii wielkości efektu lokują nie są ogromne, zwykle lokują się blisko zera.

Strony

Test t-Studenta dla zależnych

Brak komentarzy:

Mechanika testów klasycznych

Ważne

Łączna liczba wyświetleń