Test t-Studenta dla dwóch grup zależnych (ang. two-sample t-test)

LISTOPAD 2023 | LJK | ~2300 słów

Test t-Studenta dla grup zależnych (ang. t-Student's test for paired/dependent/matched data) to test wykorzystywany do porównania średnich nasileń zmiennej ilościowej w przypadku, gdy zebrane obserwacji można połączyć w pary. Wyniki w parze dotyczą tej samej zmiennej ilościowej.



SPIS TREŚCI:

Wprowadzenie

PORÓWNANIA MIĘDZY DWIEMA ŚREDNIMI nasileniami pewnej zmiennej (np. wzrostu, samooceny, introwersji, empatii, narcyzmu) to popularny schemat badawczy, w którym dane pochodzą z porównania dwóch różnych grup (np. kobiety vs. mężczyźni) albo z porównania tej samej grupy badanych przed i po działaniu czynnika eksperymentalnego (np. przed podaniem środka pobudzającego i po; przed zadziałaniem bodźca i po nim). Bardzo często takie dane analizuje się za pomocą testu t-Studenta. W statystyce istnieją dwie wersje tego testu - dla grup niezależnych i dla zależnych. Wersja, jaką wybierzemy, zależy od tego, jak zebraliśmy dane - czy wyniki pomiarów pochodzą od jednostek badanych jeden raz, czy może dwukrotnie.

Gdy badana cecha jest mierzona w obrębie dwóch różnych, wykluczających się kategorii np.:
kobieta i mężczyzna (nie można być i kobietą, i mężczyzną na raz), dane są nazywane niezależnymi i do ich analizy służy test t-Studenta dla grup niezależnych KLIK. Z kolei, gdy ta sama grupa osób badanych przechodzi przez pierwszy i drugi warunek badania, np. pretest i posttest, wówczas dane nazywa się zależnymi i do ich analizy służy test t-Studenta dla grup zależnych. W tym poście zajmiemy się tym drugim przypadkiem.

To oczywiście bardzo duże uproszczenie pojęcia. Zależność obserwacji oraz jej brak, czyli niezależność jest czymś więcej niż tylko krotnością brania udziału w badaniu przez jednostki badanie.

TEST t-STUDENTA dla zależnych grup (albo par obserwacji) znajduje zastosowanie w prostych eksperymentach: najpierw mierzymy wyjściowy poziom interesującej nas zmiennej,  potem osoby badane poddajemy działaniu eksperymentalnemu (np. obejrzeniu filmu mającego wywołać określone emocje, spożyciu jakiś specyfiku, wyobrażeniu sobie czegoś). Następnie znowu mierzymy poziom tej samej zmiennej, na którą to działanie eksperymentalne miało mieć wpływ. Tym samym chcemy sprawdzić, czy eksperyment coś zmienił, czyli to działanie terapeutyczne wprowadziło coś nowego. Do analiz wyników, jakie powstają dzięki temu działaniu, służy właśnie ten test.


Hipoteza zerowa H0

Hipoteza zerowa H0 w teście t-Studenta dla prób zależnych mówi o równości średnich nasileń zmiennej zależnej dokonanych między dwoma pomiarami. Na przykład średni poziom stresu (mierzony stężeniem kortyzolu we krwi) przed i po zadziałaniu bodźca. Jej symboliczny zapis jest następujący. Grecka litera μ1 oznacza średnie nasilenie badanej cechy w pierwszym pomiarze, a μ2 oznacza średnie nasilenie badanej cechy w drugim pomiarze:

H0: μ1 = μ2

Zauważ, że treść tej hipotezy zerowej w teście t-Studenta dla prób zależnych przypomina hipotezę zerową testu t-Studenta dla prób niezależnych - tam również można było ją zapisać w sposób identyczny z powyższym. Różnica polega na tym, że teraz indeksy oznaczają co innego. Poprzednio, indeks dolny oznaczał numer poziomu czynnika, np. 1 = kobiety, 2 = mężczyźni. Tym razem jest to kolejność pomiaru. 1 oznacza pierwszy pomiar, a 2 - drugi pomiar. Pamiętaj, w teście t-Studenta dla grup zależnych to jest ta sama grupa osób badanych, więc dwukrotnie mierzymy średni poziom tej samej zmiennej między pomiarami.

JAK INTERPRETOWAĆ TREŚĆ H0? | Ogólnie rzecz biorąc, w procedurze klasycznego testowania istotności statystycznej hipotezy zerowej H0, hipoteza zerowa mówi o braku efektu. Chcąc przykroić ją na potrzeby dwukrotnego pomiaru tej samej zmiennej ilościowej, ów brak efektu możemy rozumieć jako niepowodzenie w manipulacji eksperymentalnej. Innymi słowy, manipulacja nie przyniosła pożądanego efektu: wyniki zmiennej zależnej ani średnio nie wzrosły, ani średnio nie spadły, wciąż pozostając mniej więcej na tym samym poziomie.

BŁĘDY W ZAPISIE H0 | W sformułowaniu tej hipotezy wcale nie chodzi o równość dwóch średnich arytmetycznych w dwóch zebranych próbach - dotyczy ona populacji, dlatego widzisz greckie znaczki sygnalizujące nasilenie cechy na wyższym poziomie niż próba.

Pamiętaj, że równość średnich wyrażona w hipotezie zerowej nigdy nie dotyczy równości średnich w próbie. Dlatego nie piszemy H0: x̄1 = x̄2 Do celu sprawdzenia, czy te średnie x̄1 i x̄2 są równe, wystarczy spojrzeć na statystyki opisowe.

A teraz będą dziać się czary. Tak naprawdę w trakcie wykonywania analiz, test t-Studenta dla powtarzanych pomiarów zmienia się w najprostszą z tych testów wersję.

TRANSFORMACJA DANYCH SUROWYCH | W teście t-Studenta dla zależnych, jeszcze zanim dane wejdą do analiz, przechodzą pewną przemianę - transformację. Polega ona na odjęciu wyników z drugiego pomiaru od wyników z pierwszego pomiaru, czyli na obliczeniu różnicy między pomiarami. Dwa zestawy wyników zostają sprowadzone do jednego zestawu - zawierającego różnice. Dla każdej obserwacji zostaje obliczona różnica między pomiarami. W ten sposób test t-Studenta dla dwóch grup zależnych staje się jednopróbowym testem t-Studenta (ang. one-sample t-test), takim najprostszym testem, w którym średnia jednej zmiennej jest porównywana do jakiejś wartości referencyjnej. Taki test jest stosowany np. w analizie, której celem jest sprawdzić czy wybrana kategoria badanych ma określony średni poziom interesującej Cię cechy, np. μ = 120 Hg (ciśnienie skurczowe) u cukrzyków.

Jak to się dzieje, że test t-Studenta dla grup zależnych staje się testem t-Studenta dla jednej grupy? Wszystko właśnie przez tę transformację. Zobacz, przenosząc średnią zmiennej zależnej drugiego pomiaru μ2 z prawej na lewą stronę, otrzymujemy różnicę średnich między pomiarami μ1 - μ2. Wyrażenie po lewej stronie zostaje porównane do zera μ1 - μ2 = 0.

HIPOTEZA ZEROWA W NOWEJ ODSŁONIE | Ponieważ wykonaliśmy operację na surowych danych i zmieniliśmy ich strukturę, hipoteza zerowa również zmieni postać. Zamiast porównywać średnie oryginalnej zmiennej w dwóch pomiarach, teraz porównujemy bezpośrednio do zera średnią różnic zmiennej zależnej między dwoma pomiarami. Oto nowa postać hipotezy zerowej:

H0: μD = 0

JAK TO ROZUMIEĆ? | Ten zapis oznacza, że oczekujemy, aby w populacji średnia różnic była równa zero. Średnio jednak nie znaczy, że wszyscy na raz. Nie oczekujemy, że dla każdej potencjalnej jednostki różnica nasilenia zmiennej zależnej między pomiarami będzie wynosić dokładnie zero. Chodzi o to, aby różnice były najczęściej blisko zera, zaś wyniki coraz to dalsze od niego, pojawiały się coraz rzadziej.

Hipoteza alternatywna H1

HIPOTEZA ALTERNATYWNA W NHST | Hipoteza alternatywna H1 w paradygmacie NHST często wygląda bardzo mgliście. Z grubsza, można ją zapisać:”H1 nieprawda, że H0”, więc zaprzeczenie H1: μ1 ≠ μ2 oznacza brak równości między średnimi zmiennej zależnej między pomiarami. Gwoli ścisłości, ponieważ zajmujemy się średnimi różnic, równie dobrze moglibyśmy napisać H1: μD ≠ 0

Często hipotezę alternatywną H1 traktuje się jako statystyczny odpowiednik hipotezy badawczej. Odpowiednik, ponieważ jest przełożeniem hipotezy badawczej na język symboli statystycznych. Badacz zazwyczaj ma sprecyzowany kierunek zależności. Oczekuje konkretnej nierówności między średnimi, np. że po poddaniu osoby badane działaniu jakiegoś bodźca nastąpi wzrost wyników. To powoduje, że hipoteza alternatywna również dotyczy średnich nasileń (poziomów) tej samej zmiennej zależnej między dwoma pomiarami, a znak arytmetyczny jaki stoi pomiędzy mógłby być znakiem mniejszości, większości, albo nierówności. W ten sposób mamy trzy warianty hipotezy alternatywnej H1:

  • LEWOSTRONNA H1: μ1 < μ2 — np. pod wpływem działania eksperymentalnego wzrasta średnie nasilenie badanej zmiennej
  • OBUSTRONNA H1: μ1 ≠ μ2 — np. działanie eksperymentalne zmienia średnie nasilenie badanej zmiennej, ale nie wiadomo, czy podwyższa, czy obniża
  • PRAWOSTRONNA H1: μ1 > μ2 — np. pod wpływem działania terapeutycznego spada średnie nasilenie badanej zmiennej. 

ZAŁOŻENIA TESTU t-STUDENTA DLA GRUP ZALEŻNYCH
Każdy test statystyczny dane powinny mieć odpowiedni format, aby dało się ten test zastosować. Te wymogi nazywają się
założeniami testu.

FORMAT DANYCH | Zanim poznamy wymogi, przypomnę, że oględzinom poddajemy nie dane z obu pomiarów, a wynik ich transformacji, czyli różnice między pomiarami. Jak wyżej mówiliśmy, hipoteza zerowa o braku różnic między średnimi wartościami w pomiarach H0: μ1 = μ2 stała się hipotezą zerową o zerowej średniej różnicy między pomiarami H0: μD = 0. Tu koncentrujemy się na nowym, pojedynczym zestawie wyników (różnicach między pomiarami). Dzięki temu, z różnych możliwych oczekiwań co do do rozkładu zmiennej zależnej zostanie nam tylko jedyna (spoiler: normalność rozkładu).

NORMALNOŚĆ ROZKŁADU (RÓŻNIC) | Kiedy przekształcimy dane z dwóch kolumn i powstanie nam trzecia kolumna, będzie ona zmienną, której normalność badamy. Wygląda na to, że badamy normalność rozkładu nie surowych wyników - dwóch odrębnych zmiennych - a różnic między pomiarami. Badanie normalności oznacza, że badamy, czy występowanie poszczególnych wyników jest podyktowane prawem rozkładu normalnego. Rozkład normalny to specyficzny przepis na pojawianie się obserwacji. Mówi on, że najczęściej będą pojawiać się wyniki z okolicy średniej, a czym "dziwniejsza" obserwacja, tym mniejsza szansa, że wystąpi.

➡️ Jeśli chcesz dowiedzieć się, jak diagnozować normalność tymi metodami, zajrzyj do posta pt. Diagnostyka normalności: KLIK

HOMOGENICZNOŚĆ WARIANCJI | W porównaniu z testem t-Studenta dla niezależnych, w wariancie tego testu dla grup zależnych, nie obowiązuje nas badanie homogeniczności wariancji badanej cechy. Skupiając się na różnicach między pomiarami, skupiamy się na jednym zestawie danych. Pewnie nikt nie zauważył, jak gładko przeszliśmy z testu t-Studenta dla dwóch prób do testu t-Studenta dla jednej próby. Tak - test t-Studenta dla prób zależnych to tak naprawdę test t-Studenta dla jednej próby (one sample t-test), gdzie tą jedną próbą są różnice. Nie ma grup, w których mielibyśmy porównywać wariancje. Zostaje tylko badanie normalności rozkładu, ale różnic między pomiarami.

POWSTAWANIE STATYSTYKI TESTOWEJ TESTU t-STUDENTA (DLA GRUP ZALEŻNYCH)

ZACHOWANIE ŚREDNIEJ RÓŻNIC | Zanim omówimy statystykę testową – a potem jej rozkład – zastanówmy się dlaczego nie moglibyśmy po prostu porównywać średnich? W pojedynczej kolumnie, w każdym z jej wierszy znajduje się różnica między pomiarem pierwszym i drugim dla każdej osoby badanej. Pamiętasz, wcześniej mówiliśmy o transformacji danych. Wówczas zrezygnowaliśmy z surowych danych i została nam jedna kolumna z transformowanymi danymi tj. z różnicami między pomiarami. Co by się teraz stało, gdybyśmy policzyli średnią arytmetyczną tych różnic? Czego moglibyśmy spodziewać się po tej liczbie?

Gdyby średnia arytmetyczna różnic wynosiła 0, oznaczałoby to, że – średnio rzecz biorąc – manipulacja eksperymentalna nie przyniosła żadnego efektu. Wyniki w drugim pomiarze są ogólnie (średnio) takie same jak w pierwszym. Nie znaczy to oczywiście, że każda osoba ma dwa jednakowe wyniki w obu pomiarach (np. tu i tu 5), ale że średnie arytmetyczne oryginalnej zmiennej zależnej w obu pomiarach są równe.

Ktoś mógłby powiedzieć: niech ta średnia różnic będzie statystyką testową testu t-Studenta dla zależnych. Problem jednak jest taki sam, jak w teście t-Studenta dla niezależnych. Średnia arytmetyczna nie wykrywa rozproszenia wyników. Tę samą średnią arytmetyczną mogą mieć zbiory o dużym rozproszeniu, jak i o małym rozproszeniu, a stopień rozproszenia to ważna informacja. Uczeń, który ma same tróje jest bardziej stabilnym uczniem niż taki, który ma albo 1 albo 5. Trzeba wykonać jedno małe działanie, aby uwzględnić zmienność wyników, średnia arytmetyczna jest dzielona przez błąd standardowy średniej.

POWSTAWANIE STATYSTYKI TESTOWEJ | Wszystkie warianty testu t-Studenta posiadają tę samą ideę statystyki testowej. Punktem wyjścia do jej stworzenia było to, że nie można polegać tylko i wyłącznie na porównywaniu średnich. Zwykła różnica między średnimi nie oddaje tak tego, co naprawdę dzieje się w danych. Rozwiązaniem jest jest odejściu od surowych wyników poprzez tzw. studentyzację.

Statystyka testowa t-Studenta

Technicznie rzecz biorąc, studentyzacja średniej arytmetycznej to nic innego jak podzielenie średniej przez jej błąd standardowy (ang. standard error, SE). Po prawej stronie widzisz przepis na tę statystykę testową. Mała litera t oznacza wartość statystyki testowej t-Studenta, która powstaje przez podzielenie średniej różnic x̄d przez błąd standardowy średniej (który sam jest ilorazem odchylenia standardowego s i liczby obserwacji n).

CO TO JEST BŁĄD STANDARDOWY ŚREDNIEJ? | Zauważmy, że średnia arytmetyczna w próbie jest tylko pewnym oszacowaniem średniej w populacji. O ile nie mamy przebadanej całej populacji, musimy się pogodzić z dozą niepewności wynikającą z faktu, że posiadamy wiedzę tylko o wycinku populacji. Ta miara niepewności to właśnie błąd standardowy.

Błąd standardowy średniej mówi o tym, jak dobrym oszacowaniem średniej w populacji μ jest uzyskana w próbie średnia arytmetyczna x̄. Na ten błąd składają się dwie rzeczy: stopień rozproszenia wyników w formie odchylenia standardowego s oraz liczba jednostek badanych n. Dlaczego tak? Nawet na chłopski rozum można wywnioskować, że stopień rozproszenia jednostek wpływa na zawartość informacyjną naszej próby. Im bardziej skoncentrowane wokół średniej wyniki, tym bardziej precyzyjny wynik. Im bardziej rozstrzelone - tym mniej. Równie dobrze to samo można powiedzieć o liczbie osób badanych. Im więcej jednostek badanych, tym bardziej precyzyjne są nasze wskaźniki. Zaś im bardziej rozproszone wyniki osób badanych, tym mniejsza precyzja.

CO DAJE STUDENTYZACJA? | Kiedy podzieli się średnią arytmetyczną przez jej błąd standardowy, otrzymamy nową liczbę, która będzie działać jak wskaźnik tego, jak wiele informacji znajduje się w próbie - w stosunku do szumu, który zawiera każda próba. Jak wiemy, zmienność wyników osób badanych ma dwa źródła - albo jest efektem manipulacji eksperymentatora (a to wyraża się w średniej arytmetycznej) - albo efektem przypadku. Studentyzacja pozwala zbadać stosunek jednej do drugiej.

O CZYM MÓWI WARTOŚĆ STATYSTYKI TESTOWEJ t-STUDENTA? | Już sama wartość statystyki testowej t-Studenta jest w stanie nam powiedzieć, co stało się w danych. Jaką wartość możemy zobaczyć? Statystyka testowa t-Studenta przyjmuje wartości od minus nieskończoności do plus nieskończoności. Przykładowo, możesz zobaczyć dodatnią t = +3.4, ujemną t = -0.58 oraz zerową t = 0.00. Nie każda wartość statystyki ma taką samą wagę.

Jak można domyślić się, gdy statystyka testowa t-Studenta wynosi zero, t = 0.00, wówczas średnia w pierwszym pomiarze jest taka sama jak średnia w drugim pomiarze. To bardzo mocny znak tego, że celowe działanie badacza - manipulacja eksperymentalna czy zastosowany bodziec - nie wywołuje żadnej reakcji u osób badanych.

Czy w takim razie wszystkie wartości różne od zera oznaczają, że średnie różnią się? Jeszcze nie. Na szczęście, jest pewna reguła. Wokół zera rozciąga się przedział wartości statystyki testowej t-Studenta, który sygnalizuje, że w danych nic nie ma. Jego granicami są: - 1 i +1. Jeśli wartość statystyki t znajdzie się w przedziale [-1, 1], wówczas dla badacza jest to znak, że zaprojektowana przez badacza manipulacja eksperymentalna nie zadziałała. Ściślej rzecz biorąc, może i zadziałała, ale jej działanie jest zbyt słabe, aby test mógł to wykryć. Na jednych zajęciach studentka ochrzciła ten przedział mianem przedziału śmierci. Zabawna nazwa, ale jednak coś w tym określeniu jest - coś, co sprawia, że ono tak dobrze pasuje. Faktycznie, te wartości statystyki testowej, które znajdą się w nim, np. t = - 0.58 albo t = 0.31, zdradzają, że w badaniu nic nie wyszło, że średnie nasilenie badanej zmiennej w pierwszym pomiarze jest bardzo zbliżone do średniego nasilenia zmiennej w drugim pomiarze. Jednocześnie, możesz być prawie pewien, że test pokaże wynik nieistotny statystycznie.

Za to im dalej od tych granicznych wartości -1 i +1, tym lepiej. Im wyższa liczbowa (tj. bez względu na znak) wartość statystyki testowej t-Studenta, tym bardziej bodziec zadziałał na osoby badane. Co więcej, im dalej od tych wartości, tym niższa p-wartość. Najczęściej będziesz obserwować istotność statystyczną w teście.

Pamiętaj, że zajmujemy się zjawiskami empirycznymi, w których wyniki są naznaczonymi przypadkową losowością. Zróżnicowanie naszych danych ma dwa podstawowe źródła: przypadek oraz faktyczne efekty zamierzonych działań badacza. Klasyczne testowanie polega na oddzieleniu jednego od drugiego i celem statystyki testowej jest zbadanie jak wiele zmienności wyników, których źródłem jest eksperyment, zawierają nasze dane. Odbywa się to właśnie za pomocą statystyki testowej. W ten sposób klasyczne statystyki testowe ujawniają ilość informacji zawartej w danych w stosunku do wszechobecnego w świecie czysto losowego szumu.

Gdy już wiemy, jak połączyć informację z danych i wyrazić ją w postaci statystyki testowej, zwanej statystyką t-Studenta i wiemy, co ona sama do nas mówi, pojawia się kolejne pytanie - jak często zdarza się otrzymana w danym badaniu wartość statystyki testowej? Czy wartość t = -0.58 jest rzadka, czy częsta? Odpowiedź na to pytanie kryje się w rozkładzie wartości statystyki testowej, który nosi tę samą nazwę co sam test i jego statystyka: rozkład t-Studenta.

ROZKŁAD, CZYLI JAK CZĘSTO ZDARZA SIĘ OTRZYMANA W BADANIU WARTOŚĆ STATYSTYKI TESTOWEJ? | W statystyce klasycznej istnieje określony sposób postępowania podczas weryfikacji hipotez. Mamy bazę danych, której wyniki mają posłużyć do weryfikacji postawionej hipotezy badawczej. Ponieważ będziemy dokonywać wnioskowania o całej populacji, to musimy wyjść poza zwykły opis próby i sięgnąć po bardziej zaawansowane narzędzia niż statystyki opisowe. Pomysł jest taki, że sprawdzić, jak prawdopodobne są te wyniki. Co mam na myśli, używając w poprzednim zdaniu słowa: "wyniki"? Oczywiście, nie może już chodzić o surowe dane osób badanych - te, które są w bazie danych. Mogłoby chodzić o różnicę między pomiarami, ale tym razem chodzi o coś dalej. O wartość statystyki testowej, która też jest transformacją danych. Jak widzisz, testowanie polega na ciągłym przekształcaniu danych. To tutaj zadajemy pytanie, jak prawdopodobna jest uzyskana w teście wartość statystyki testowej t-Studenta. I tu wchodzimy na kolejny krąg statystycznego wtajemniczenia: nie da się tak po prostu spytać o prawdopodobieństwo jakiegoś wyniku testu.

Chodzi o kontekst. Zdarzenia są bardziej prawdopodobne w jednym kontekście, i mniej prawdopodobne w innym. Pytanie o to, jak często pojawia się konkretna wartość statystyki testowej, np. t = -0.58 albo t = 0.31, odbywa się również w pewnym kontekście. W przypadku klasycznego testowania, jest to przyjęcie założenia o prawdziwości hipotezy zerowej H01 = μ2.

A więc, tak naprawdę zadajemy następujące pytanie: jeśli nie byłoby różnic między pomiarami, to jak prawdopodobna jest uzyskana wartość statystyki testowej t-Studenta? Inaczej mówiąc, jeśli manipulacja eksperymentalna nie działa, to jak typowa jest uzyskana wartość statystyki testowej t?

Na to pytanie odpowiada się za pomocą rozkładu wartości statystyki testowej. W tym wariancie testu t-Studenta jest to rozkład t-Studenta.

KAŻDY ROZKŁAD OPOWIADA PEWNĄ HISTORIĘ... Mówi nam o tym, co będziemy obserwować pod kątem badanej cechy. Które wartości będą występować częściej, które rzadziej. Te, które badacz będzie obserwować częściej, to te, nad którymi widzimy szczyt rozkładu tworzący górkę. Te, które rzadziej będą się pojawiać, to te, które leżą w ogonach rozkładu. Wiedząc to wszystko, przeanalizujmy kształt rozkładu statystyki testowej testu t-Studenta dla grup zależnych.

Oceniając, które wartości statystyki testowej są typowe, a które nie, pamiętaj o tym, że przyjęliśmy założenie o prawdziwości hipotezy zerowej H0.

Rozkład wartości statystyki testowej t-Studenta. Nad szarym przedziałem śmierci od -1 do + 1 widzimy najwyższy punkt rozkładu - szczyt. Gdy hipoteza zerowa jest prawdziwa, to najczęściej spodziewamy się właśnie takich wartości, które sygnalizują, że w danych nic nie ma.

Rozkład t-Studenta, który widzimy na rysunku, mówi, że jeśli bodziec nie zadziałał i pomiary jednostek są podobne, to powinniśmy najczęściej obserwować wartości bliskie zero. Zobacz na powyższym rysunku, że nad przedziałem śmierci, znajduje się szczyt rozkładu. Łącznie, wartości z tego przedziału zgarniają największą szansę wystąpienia. Im bardziej wartość statystyki testowej różni się od zera, tym jest mniejsze prawdopodobieństwo jej wystąpienia - jeśli H0 ma być prawdziwa. Zauważ też, że kształt tego rozkładu jest symetryczny. Ten rozkład jednakowo traktuje wartości ujemne, jak i dodatnie. Szansa na uzyskanie wartości większej od +1 jest taka sama, jak szansa na uzyskanie wartości niżej od -1.

Od czego zależy kształt tego rozkładu? Od czegoś, co nazywa się liczbą stopni swobody (ang. degrees of freedom). To taki parametr, który często jest uzależniony od liczby osób badanych. W przypadku testu t-Studenta wynosi on df = N - 1, a więc jest to liczba osób badanych pomniejszona o jeden. Gdy w badaniu weźmie udział N = 30 osób, to df = 30 - 1 = 29.

Rozkład t-Studenta ma ciekawą własność. Jego ogony są grubsze od ogonów rozkładu normalnego, przez co częściej obserwowane są wartości skrajne. Natomiast, gdy próba rośnie i rośnie, ogony coraz bardziej przypominają ogony rozkładu normalnego. Teoretycznie, gdybyśmy dysponowali nieskończoną próbą, rozkład t-Studenta byłby rozkładem normalnym.

DO CZEGO POTRZEBNY JEST ROZKŁAD STATYSTYKI TESTOWEJ? | Na podstawie rozkładu wartości statystyki testowej obliczana jest tzw. istotność statystyczna, czyli p-wartość (ang. p-value). P-wartość jest miarą zgodności danych z hipotezą zerową testu statystycznego, na podstawie którego ją obliczono (tu: testu t-Studenta dla grup zależnych). Z technicznego punktu widzenia, jest tym prawdopodobieństwem wystąpienia otrzymanej w teście wartości statystyki testowej - o ile manipulacja eksperymentalna nie przynosi żadnego skutku.

Sama p-wartość - sama istotność statystyczna - nie daje podstaw do twierdzenia, czy hipoteza badawcza została potwierdzona. Do tego trzeba wykonać nieco więcej kroków.

WIELKOŚĆ EFEKTU W TEŚCIE t-STUDENTA DLA GRUP ZALEŻNYCH

O WIELKOŚCI EFEKTU | Ponieważ istotność statystyczna wyniku nie jest synonimem dużej siły zależności między zmiennymi (tu oznaczałoby to, że manipulacja eksperymentalna powoduje dużą zmianę zmiennej zależnej między pomiarami), to badacz musi zwrócić się do innego narzędzia celem oceny wielkości swojego odkrycia. I tu przydatna okazuje się wielkość efektu (ang. effect size). Wielkość efektu to miara siły związku między zmiennymi i w przypadku porównań między dwoma średnimi (nasileniami) najczęściej wykorzystuje się wielkość efektu d-Cohena. d oznacza difference (ang. różnicaa Cohen to nazwisko autora tej miary.

JACOB COHEN | Cohen był amerykańskim psychologiem, o którym można byłoby powiedzieć, że lubił statystykę. Jako jeden z niewielu psychologów widział wady procedury testowania NHST i robił wszystko, aby ulepszyć analizy statystyczne prowadzone przez psychologów-badaczy. Rozwijał analizę mocy, aby badacze nie przegapiali efektów i upowszechniał wskaźniki siły zależności, aby nie opierali się jedynie na istotności statystycznej.

WIELKOŚĆ EFEKTU d-COHENA | Aby zbadać, czy średnie nasilenie zmiennej w pierwszym pomiarze naprawdę różni się od średniego nasilenia zmiennej w drugim pomiarze, wykorzystuje się wskaźnik zwany d Cohena. Nie jest on zwykłą różnicą między średnimi zmiennej zależnej a standaryzowaną. Standaryzacja oznacza podzielenie przez odchylenie standardowe. W ten sposób bierze się pod uwagę zarówno różnicę między średnimi, a także stopień rozproszenia wyników. Siła zależności zależy przecież nie tylko od tego, jak bardzo średnia spadła czy wzrosła, ale także od wyraźna jest to zmiana.

WŁASNOŚCI WIELKOŚCI EFEKTU d-COHENA
  • jest to pojedyncza liczba
  • przyjmuje wartości od minus nieskończoności do plus nieskończoności; czyli d może być dowolną liczbą
  • gdy jest równa zero, wówczas średnie arytmetyczne w dwóch pomiarach są sobie równe
  • aby dowiedzieć się, czy otrzymana w badaniu wielkość efektu jest mała czy duża, należy skorzystać z progów (ang. benchmarków), np. systemu progów Cohena.

ROZMIARÓWKA COHENA | Poniżej znajduje się system progów stworzony przez Cohena w 1988.

Według tej rozmiarówki, gdy wielkość efektu d-Cohena wynosi d = 0.25, to siła zależności jest mała i wyższa od niej jest np. d = -0.79

Pewnie spytasz, czy Cohenowi nic nie pomyliło się. Wygląda na to, że duże wielkości efektu, d > 0.8 oraz d < - 0.8, zajmują największy obszar osi liczb rzeczywistych. Otóż, nie, Cohen nie popełnił błędu. Nic mu się nie pomyliło. W psychologii wielkości efektu d nie są ogromne, zwykle lokują się blisko zera.

ROZMIARÓWKA LOVAKOVA i AGADULLINY | Od końca lat osiemdziesiątych minęło już trochę czasu i system Cohena zestarzał się, niekoniecznie elegancko. W wielu subdziedzinach psychologii powstały nowe, bardziej adekwatne do specyfiki badań w takiej poddziedzinie. W psychologii społecznej funkcjonuje nieco inny system benchmarków:

Zauważ, że przesunęły się granice. W tej rozmiarówce, d = 0.18 jest już małą wielkością efektu.

Brak komentarzy: