| Test t-Studenta jest najpopularniejszym testem stosowanym w psychologii ze względu nie tylko na prostotę wykonania w programie statystycznym, ale także na to, że odpowiada najprostszemu schematowi badawczemu: porównaniom między dwoma grupami. |
Wprowadzenie: Dlaczego nie można analizować jedynie średnich arytmetycznych?
SUROWA RÓŻNICA MIĘDZY ŚREDNIMI - Mogłoby się wydawać, że porównanie dwóch grup polega na porównaniu średnich arytmetycznych (badanej zmiennej). Wystarczy odjąć jedną średnią od drugiej i w ten sposób uzyskać informację o wielkości różnic międzygrupowych. Tak łatwo jednak nie jest. Przecież w obrębie każdej z grup wyniki są zróżnicowane - osoby w grupach różnią się między sobą. Nie jest tak, że indywidualne wyniki są równe średniej arytmetycznej (zob. rysunek niżej).
Być może to banalne stwierdzenie, ale badaniach empirycznych zmienność czy zróżnicowanie wyników jest czymś normalnym i spodziewanym. Nie dość, że występują różnice między całymi grupami (np. kobiety i mężczyźni różnią się pod względem wzrostu), to jeszcze wewnątrz grup osoby różnią między sobą (np. kobiety również różnią się wzrostem, są kobiety mają 162 cm i 198 cm). Zróżnicowanie wyników indywidualnych przejawia się poprzez różne odchylenia standardowe tej samej zmiennej (np. wzrostu) mierzonego oddzielnie dla dwóch grup. Wobec tego odejmowanie tylko i wyłącznie średnich arytmetycznych nie jest miarodajne.
Porównaj dwa poniższe rysunki. Obserwacje z grupy pierwszej są zaznaczone na niebiesko, obserwacje z grupy drugiej zaznaczone są na zielono. Czarną linią ciągłą zaznaczono średnie arytmetyczne, a dwukierunkowa strzałka to różnica między średnimi arytmetycznymi. Pierwszy rysunek pokazuje, że obserwacje nie zachodzą na siebie, ponieważ pomiędzy nimi jest jeszcze trochę przestrzeni. Grupy są rozdzielone. Żadna osoba z grupy niebieskiej nie uzyskała tak wysokiego wyniku, aby można było ją zaliczyć do grupy zielonej. I w drugą stronę, żadna osoby z grupy zielonej, nie uzyskała wyniku tak niskiego, który sięgnąłby do wyników grupy niebieskiej.
Na kolejnym rysunku dwukierunkowa strzałka jest tej samej długości, symbolizując tę samą wartość różnicy między średnimi. Jednak obserwacje z obu grup zachodzą na siebie. Są osoby z grupy niebieskiej, których wynik sięgnął wyżej niż kilka osób z grupy. Jest jedna osoba z grupy niebieskiej, której wynik jest wyższy niż średnia arytmetyczna grupy zielonej.
Gdyby nie kreski i kolory można byłoby uznać, ze w zasadzie obserwacje nie różnią się pod względem wyników. A więc analizując wyniki osób badanych rozdzielonych do dwóch kategorii, nierozsądnie byłoby pominąć zmienność tych wyników w obrębie każdej z grup. Zarówno test t-Studenta, jak i wielkość efektu uwzględnia i różnicę między średnimi, i rozproszenie.
O teście t-Studenta dla dwóch grup niezależnych
BADANIA KORELACYJNE CZY EKSPERYMENTALNE? — Test t-Studenta można zastosować do wyników pochodzących z badań zarówno eksperymentalnych, w których osoby badane przydzielasz losowo do jednej z dwóch grup (zwykle nazywanymi kontrolną i eksperymentalną), quasi-eksperymentalnych, w których wygląda tak, jakby zadziałał przypadek w dobieraniu osób badanych do warunku eksperymentalnego i kontrolnego (np. płeć), oraz korelacyjnych, w których nie manipulujesz żadną zmienną.
Ta uwaga wydaje się oczywista, ale napiszmy to jasno - testu t-Studenta można stosować zarówno w warunkach eksperymentalnych, jak i nieeksperymentalnych. Dawno, dawno temu panował ścisły podział w metodach statystycznych wobec rodzaju badań. Badania korelacyjne analizowano za pomocą współczynników korelacji. Badania eksperymentalne - za pomocą testu t-Studenta lub rozszerzenia tego testu o nazwie ANOVA. Ten podział był podyktowany typem skal pomiarowych zmiennych, jakie produkowały badania. Korelacyjne produkowały zmienne ilościowe. Eksperymentalne - i jedne, i drugie. W ten sposób na wiele lat utrwalił się podział, że dane pochodzące z badań korelacyjnych analizujemy współczynnikami korelacji (tudzież regresją) a z eksperymentalnych - testem t-Studenta lub ANOVA.
Dzisiaj ta reguła straciła na aktualności. Co więcej, dane przecież nie wiedzą skąd pochodzą (tj. z jakiego typu badań), więc wszystko jest podyktowane potrzebą badacza.
NOMENKLATURA: CZYNNIK I ZMIENNA ZALEŻNA — W związku z charakterystycznym schematem badań, z jakim jest związany test t-Studenta, pojawia się specyficzna nomenklatura. Zmienna, która przydziela obserwacje do jednej z grup nazywa się czynnikiem. Grupy - czy też kategorie - tworzone przez czynniki zwane są poziomami czynnika. Zmienna, której średnie arytmetyczne porównujemy między kategoriami czynnika, nazywa się zmienną zależną. W ten sposób używamy frazy:"czynnik różnicujący średnie zmiennej zależnej", gdy mamy na myśli fakt, że osoby z różnych kategorii różnią się średnimi arytmetycznymi zmiennej, którą badamy.
MECHANIZM TESTOWANIA STATYSTYCZNEGO — Będąc jednym z klasycznych testów statystycznych przeprowadzanych w paradygmacie NHST, test t-Studenta posiada charakterystyczny schemat przepływu danych.
Punktem wyjścia - i okularami przez które patrzy się na cały proces - jest hipotezę zerowa o braku różnic międzygrupami. Ponieważ nie pracuje się na surowych danych, są one przetwarzane przez maszynkę zwaną statystyką testową t-Studenta do pojedynczej liczby zwanej wartością statystyki testowej. Wartościami tejże statystyki rządzi rozkład zwany rozkładem statystyki testowej. To on stanowi podstawę dalszych obliczeń. Polegają one na zadaniu pytania o to, jak typowa jest wartość uzyskanej statystyki testowej t a odpowiedź przychodzi w postaci p-wartości/istotności statystycznej. Na końcu, aby zabezpieczyć się przeciwko hurraoptymistycznym wnioskom wyciągniętym na podstawie istotności statystycznej, oblicza się miarę siłę zjawiska, tzw. wielkość efektu, którą w teście t-Studenta jest d-Cohena. To jest szybki skrót z posta o mechanice klasycznych testów statystycznych.
Hipoteza zerowa H0
W klasycznym testowaniu hipotez statystycznych, a dokładniej w podejściu NHST, każda hipoteza zerowa H0 przedstawia pewien szczególny model rzeczywistości. Jest to rzeczywistość, w której zmienne nie łączy żaden związek. W przypadku testu t-Studenta, hipoteza zerowa H0 mówi o tym, że wskazany przez badacza czynnik nie ma nic wspólnego z interesującą go zmienną zależną. Profesjonalnie mówiąc, czynnik nie różnicuje średnich zmiennej zależnej.
Skoro nie różnicuje, czyli średnie są takie same, to symboliczny zapis hipotezy zerowej H0 w teście t-Studenta przedstawia się następująco:
H0: μ1 = μ2
μ1 [czyt. mi jeden] to średni poziom cechy w pierwszej podpopulacji (w pierwszym poziomie czynnika);
μ2 [czyt. mi dwa] to średni poziom cechy w drugiej podpopulacji (w drugim poziomie czynnika).
Należy przy tym zwrócić uwagę na to, że w zapisie hipotezy zerowej H0 użyto greckich liter: μ1 i μ2, co pokazuje, że mamy do czynienia nie ze średnimi w próbach, a w populacjach.
Gdyby chodziło o badanie równości średnich w próbach, zapis hipotezy zerowej przybrałby taką postać: H0: x̄1 = x̄2, gdzie symbolami x z kreską, x̄, oznacza się średnie w próbach. Na chłopski rozum, testowanie hipotez w próbie to zbędne ceregiele - po co wytaczać całe testowanie hipotez, żeby stwierdzić, czy dwie średnie z dwóch prób są sobie równe lub różne? Przecież wystarczy porównać wartości średnich i wszystko stanie się jasne.
INTERPRETACJE HIPOTEZY ZEROWEJ H0 | Treść hipotezy zerowej można interpretować na co najmniej trzy różne, lecz pokrewne sposobów. Nie są to na tyle duże różnice, żeby każda z tych opcji mówiła zupełnie o czymś innym, ale na tyle różne, żeby pokazać różnorodność aspektów, na jakich można się skupić.
🔵 Po pierwsze można na hipotezę zerową patrzeć przez pryzmat średnich nasileń badanej cechy mierzonych w dwóch różnych kategoriach. Tu hipoteza zerowa H0 odnosi się do braku różnic między dwoma teoretycznymi średnimi, czyli średni poziom zmiennej zależnej (czyli danej cechy ilościowej) jest jednakowy w obu populacjach.
🔵 Po drugie, można skoncentrować się na relacji między zmiennymi, między czynnikiem i zmienną zależną i skoro czynnik oraz zmienna zależna są niezależne względem siebie, to treść hipotezy zerowej można rozumieć w następujący sposób: zmienna zależna nie reaguje na czynnik.
🔵 Po trzecie można przenieść uwagę na jednostki populacji, w tle pozostawiając cechę i kategorie. Wówczas możemy powiedzieć, że H0: dwie próby pochodzą z tego samego rozkładu. Nieważne, czy osoba badana jest w jednej, czy w drugiej populacji - średnie nasilenie cechy będzie miała takie samo.
CO JEST ISTOTNE STATYSTYCZNIE? RÓŻNICA W GRUPACH ... CZY W POPULACJACH? — Czasem skrótowo mówi się o istotności (statystycznej) średnich w dwóch grup, np. w tekście jest napisane:"analiza pokazała jedną istotnie statystyczną różnicę między kobietami a mężczyznami". Ten sposób formułowania wyników, sprawia, że bardzo łatwo pomyśleć, że szukamy przymiotnika określającego różnicę w średnich arytmetycznych między osobami w grupach. Tymczasem sprawa przedstawia się zupełnie inaczej.
Podczas weryfikacji hipotez statystycznych interesuje nas przede wszystkim populacja, a nie próba. Ta składająca się z dwóch grup próba służy jako środek do przeniesienia wniosku z próby na populację. Aby zauważyć niezerową różnicę między średnimi arytmetycznymi nie potrzeba żadnej weryfikacji hipotez. Jeśli średnia arytmetyczna n = 10 pomiarów wzrostu w grupie kobiet wynosi 168,2 cm a średnia arytmetyczna n = 10 pomiarów wzrostu w grupie mężczyzn wynosi 178,6 cm, to widzimy, że te średnie różnią się. Różnica między nimi wynosi 10,4 cm - kobiety i mężczyźni w tej dwudziestoosobowej próbie różnią się pod względem średnich wzrostu. Ale - może tak też jest i w całej populacji kobiet i mężczyzn? Aby przenieść wniosek o zróżnicowaniu wzrostu z próby na całą populację, wykorzystuje się weryfikację hipotez statystycznych.
Hipoteza alternatywna H1
W procedurze testowania istotności statystycznej hipotezy zerowej NHST hipoteza alternatywna H1 jest mgliście sformułowana i brzmi ~H0, czyli średni poziom badanej zmiennej nie jest równy. Tę nieprawdę-że-ha-zero można w teście t-Studenta można przedstawić w trzech odsłonach, której niżej omówimy.
1️⃣ H1: μ1 < μ2
Ten zapis wyraża taką myśl: średnie nasilenie badanej zmiennej jest niższe w pierwszym poziomie czynnika niż w drugim. Ponieważ znaczek nierówności jest dziubkiem skierowany w lewą stronę, to mówimy, że hipoteza jest lewostronna.
PRZYKŁAD | Gdybyśmy badali różnice międzypłciowe pod względem wzrostu a poziomy zmiennej Płeć zakodowali następująco: 1 = kobieta, 2 = mężczyzna, to wówczas taki zapis hipotezy alternatywnej H1 można byłoby odczytać w ten sposób: średnia Wzrostu u kobiet jest niższa niż u mężczyzn.
2️⃣ H1: μ1 ≠ μ2
W tym zapisie umieszczono brak równości średnich. Oznacza on nie tyle, że każda obserwacja z pierwszego poziomu czynnika jest inna od każdej obserwacji z drugiego poziomu czynnika, ale to, że średnio rzecz ujmując mamy do czynienia z różnymi nasileniami badanej zmiennej zależnej. Ponieważ między greckimi literami μ1 i μ2 znajduje się znak nierówności, to o tej hipotezie alternatywnej H1 mówimy, że jest obustronna.
PRZYKŁAD | Gdybyśmy badali różnice w inteligencji między kobietami a mężczyznami a poziomy zmiennej Płeć zakodowalibyśmy następująco:1 = kobieta, 2 = mężczyzna, to powyższy zapis hipotezy alternatywnej można byłoby odczytać następująco: średnia inteligencji u kobiet i u mężczyzn jest różna. Nie wiadomo, kto ma jej więcej, ale jest różna.
3️⃣ H1: μ1 > μ2
Trzecia opcja zapisu hipotezy alternatywnej H1 mówi o nierówności, ale w drugą stroną z kolei mówimy, że średnie nie są sobie równe.
Ponieważ znaczek nierówności jest dziubkiem skierowany w prawą stronę, to mówimy, że hipoteza jest prawostronna.
PRZYKŁAD | Gdybyśmy badali różnie w empatyczności między kobietami a mężcyznami a poziomy zmiennej Płeć zakodowali 1 = kobieta, 2 = mężczyzna, to ten symboliczny zapis hipotezy alternatywnej H1 oznaczałby, że średni poziom Empatii jest u kobiet wyższy niż u mężczyzn.
Wybór odpowiedniej hipotezy alternatywnej H1 - stosownie do przewidywanej zależności - jest bardzo ważny, ponieważ wpływa na ważny wskaźnik - na p-wartość (istotności statystycznej). Kierunek zależności wyrażony w hipotezie alternatywnej H1 przekłada się na tzw. stronę testu statystycznego. Np. lewostronnej hipotezie alternatywnej H1 odpowiada lewostronny test i lewostronnie obliczona p-wartość. Jeśli istnieją trzy wersje hipotezy alternatywnej (lewo-, prawo- i obustronna), to również istnieją trzy sposoby obliczenia p-wartości (lewo-, prawo- i obustronna). Oznacza to, że trzech badaczy przewidujący trzy różne formy zależności otrzyma trzy różne p-wartości.
➡️ W programie SPSS przez 27 wersji istniała tylko jedna p-wartość (tzw. obustronna, choć w programie tak tego nie nazywano). Od 28. wersji programu SPSS dołączono tzw. Jednostronne P i Dwustronne P, co nałożyło na badacza znajomość tych zagadnień. Niestety, połączenie lewostronnej i prawostronnej p-wartości w jedną zwaną wcale nie pomaga.
Założenia testu t-Studenta dla dwóch grup niezależnych
Jak się można domyślać, test statystyczny ruszy dopiero, gdy dane będą odpowiedniej jakości. Dane muszą spełniać kilka warunków, które dla wygody i łatwości zapamiętania warto pogrupować w trzy kategorie. Pierwsza kategoria warunków odnosi się do schematu badawczego. Druga - do pomiaru, tego jaki rodzaj wyników powstanie podczas badania i jakie operacje arytmetyczne będzie można na nich wykonać (tj. skale Stevensa, KLIK). Trzecia kategoria ma charakter probabilistyczny – od danych będziemy żądać pewnego kształtu rozkładów. Te warunki są potrzebne, abyśmy mogli zarówno wykonać test t-Studenta, jak również wyciągnąć poprawne wnioski na podstawie otrzymanych cyferek.
🔵 PIERWSZA KATEGORIA: NIEZALEŻNOŚĆ OBSERWACJI – Jak sama nazwa niezależność obserwacji to fakt po prostu niezależności obserwacji. Dwie obserwacje są niezależne, gdy posiadając jedną z nich, nie wiemy nic o drugiej.
Najłatwiej niezależność w schemacie międzygrupowym osiągnąć, przydzielając osoby badane do jednej z dwóch kategorii (czy jednego z dwóch poziomów) czynnika. Wówczas sprawa sprowadza się do ilości pomiarów dokonanych na osobach badanych. W teście t-Studenta dla dwóch grup niezależnych, osoby badane możemy badać raz - w obrębie ich własnej grupy.
Niezależność obserwacji może polegać na tym, że nie badamy osób z tej samej pary małżeńskiej - współdzielą przecież one informację.
WARIANTY TESTU t-STUDENTA | Istnienie trzech schematów badawczych (obserwacje niezależne vs. zależne) powoduje, że istnieją trzy warianty testu t-Studenta:
- dla jednej próby (one-sample t-test) – to taki wariant, w którym jest jedna grupa, której to średni poziom porównujesz do jakiegoś teoretycznego kryterium, np. czy średnie tętno seniorów wynosi 60 uderzeń na minutę.
- dla dwóch prób niezależnych (two sample t-test) – osoby badane są rozdzielone do dwóch grup i każda z nich jest badana tylko jeden raz, np. zbadano poziom uprzedzenia do wybranej mniejszości u osób mieszkających przy zachodniej i wschodniej granicy Polski.
- dla dwóch prób zależnych (paired data) – badani zostali poddani badaniu dwukrotnie, np. zbadano tętno przed i po treningu.
W tym poście omawiamy ten drugi typ testu t-Studenta, tj. test t-Studenta dla grup niezależnych.
🔵 DRUGA KATEGORIA: TYP POMIARU ZMIENNYCH— Mechanizm testu t-Studenta jest tak skonstruowany, aby badać dwie średnie. Chodzi o to, że wzór, który stanowi sedno tego testu, przyjmuje tylko średnie, odchylenia standardowe i liczebności obu próg. Dane powinny być rozdzielone na dwie kategorie, zaś wybrana cecha powinna umożliwiać obliczanie średniej arytmetycznej na swoich wartościach. Wobec tego, jedna zmienna powinna być jakościowa, a druga - ilościowa. Według skal Stevensa: zmienna, która grupuje osoby badane, powinna być nominalna lub porządkowa - zawsze o dwóch kategoriach.
Test t-Studenta nie obsłuży takich danych, w których obie zmienne są jakościowe. Nie da rady nim badać związków między płcią a ręcznością (tj. dominującą stroną ciała, tu raczej zastosujemy test chi-kwadrat). Zmienna zależna tym razem musi dać możliwość policzenia średniej na jej wartościach. Co oznacza, że jeśli pamiętasz skale Stevensa, to musi być zmienną mierzoną na skali interwałowej albo na skali ilorazowej.
✅ Zobaczmy kilka przykładów badań, gdzie test t-Studenta jest użyteczny:
- czy poziom inteligencji emocjonalnej różni się między kobietami i mężczyznami?
- czy nasilenie ekstrawersji wśród aktorów i osób wykonujących zawód bibliotekarza?
- czy deprywacja kontroli (kontrola lub jej brak) prowadzi do ruminacji?
- czy aktywizacja wizerunku rodzica (aktywizacja lub jej brak) ma wpływ na odraczanie gratyfikacji wśród dzieci?
Dwa pierwsze przykłady to schematy quasieksperymentalne, dwa ostatnie – eksperymentalne, w każdym z nich mamy tylko dwie grupy: wyznaczoną przez płeć, przez typ zawodów oraz kontrolną i eksperymentalną.
❌ Test t-Studenta NIE nadaje się do:
- porównań między więcej niż trzema grupami (idź do: ANOVA)
- sprawdzenia zależności między płcią i stopniem upośledzenia (zmienna nominalna + zmienna porządkowa)
- sprawdzenia czy występuje związek między płcią a zaburzeniem np. czy kobiety częściej występuje schizofrenia (zmienna nominalna + zmienna nominalna)
- związek między samooceną a narcyzmem (zmienna przedziałowa+zmienna przedziałowa)
🔵 TRZECIA KATEGORIA: WYMAGANIA PROBABILISTYCZNE — Ten typ wymogów odnosi się do rozkładu badanej zmiennej, czyli do tego jakim prawem mają się rządzić szanse występowania poszczególnych wartości zmiennej. Dlaczego jest to ważne? Testy statystyczne wykorzystują dane w pośredni sposób – przekształcając je do pojedynczej liczby zwanej wartością statystyki testowej. Statystyka testowa ma również rozkład swoich wartości – jedne zdarzają się częściej, a inne rzadziej. Ten rozkład jest kluczowy, ponieważ to na jego podstawie wyciągamy poprawne wnioski. Dzięki różnym dowodom z dziedziny statystyki wiemy, że ma on pożądaną postać tylko wtedy, gdy dane pochodzą z konkretnego rozkładu. W przypadku testu t-Studenta muszą spełniać trzecią kategorię założeń: normalność rozkładu oraz homogeniczność wariancji zmiennej zależnej.
NORMALNOŚĆ ROZKŁADU cechy w obu poziomach czynnika. Żądamy, aby w jednej i w drugiej grupie, wartości badanej cechy pojawiały się zgodnie z rozkładem normalnym, aby były zbliżone do rozkładu normalnego. Chcemy zobaczyć coś takiego:
Żądanie normalności rozkładu badanej cechy to bardzo mocne żądanie – biorąc pod uwagę fakt, że rozkład normalny w badaniach psychologicznych nie jest często spotykany. Trudno oczekiwać, żeby każda badana cecha miała rozkład normalny, bo przecież test t-Studenta jest najpopularniejszym testem. Musi być jakiś sposób na to, że móc go wykonać, nawet jeśli rozkład cechy nie jest normalny. Z pomocą przychodzi Centralne Twierdzenie Graniczne.
Tak naprawdę, mechanizm testu t-Studenta potrzebuje normalności rozkładu statystyki testowej, a nie tego, aby sama cecha miała rozkład normalny. Jeśli wiesz, że badana cecha ma w populacji rozkład normalny, to nie ma najmniejszych obaw - statystyka testowa test t-Studenta ma rozkład dokładnie taki powinna mieć, aby analizy były rzetelne. Jeśli ten rozkład cechy nie jest normalny, to dzięki Centralnemu Twierdzeniu Granicznego i przy dostatecznie dużej liczebności próby można postępować tak, jakby statystyka testowa posiadała pożądany rozkład normalny i procedować z analizami. Oczywiście, zawsze pozostaje pytanie, jak duża próba jest duża, ale to już zupełnie inna para kaloszy.
DIAGNOSTYKA NORMALNOŚCI ROZKŁADU - Jest pięć podstawowych charakterystyk potrzebnych do sprawdzenia, czy dany rozkład jest rozkładem normalnym: skośność, kurtoza, boxplot, qqplot, histogram.
Jeśli chcesz dowiedzieć się, jak diagnozować normalność tymi metodami, zajrzyj do posta pt. Diagnostyka normalności: KLIK
Gdy już wiemy, że wartości zmiennej zależnej pojawiają się zgodnie z prawem zwanym rozkładem normalnym, przechodzimy do ostatniej kwestii wyznaczającej ich dobroć do zastosowania testu - do czegoś, co w żargonie statystycznym nazywa się homogenicznością wariancji lub jednorodnością wariancji zmiennej zależnej.
HOMOGENICZNOŚĆ (JEDNORODNOŚĆ) WARIANCJI zmiennej zależnej — To własność charakteryzująca co najmniej dwa zestawy danych. Polega ona na zbliżonym stopniu rozproszenia zmiennej zależnej między poziomami czynnika. Zależy nam na tym, aby dane posiadały zbliżony stopień rozproszenia, ponieważ gwarantuje to nam, że kategorie czynnika będą różnić się co najwyżej średnim nasileniem cechy, a nie jeszcze dodatkowymi aspektami. W ten sposób zapewniony będzie kanon jednej różnicy, co znacznie ułatwia interpretację.
W tym schemacie badawczym jesteśmy zainteresowani różnicą (lub jej brakiem) średnich nasileń zmiennej zależnej. Jeśli dodamy do tego różne rozproszenia, może się okazać, że porównujemy jabłka z gruszkami.
Jak badać homogeniczność wariancji? Oczywiście nie oczekujemy, że zobaczymy dwie kolumny w bazie będą miały te same wartości. Że jeśli w jednej kategorii mamy pięć osób o wyniku równym 4,55 to i w drugiej kategorii będzie tyle samo osób o tym samym wyniku. Zależy nam na średnim stopniu rozproszenia i w tym celu świetnie sprawdza się miara zwana odchyleniem standardowym. Odchylenie standardowe oznaczane literą s lub skrótem SD od angielskiego standard deviation mierzy średni stopień odchylenia wartości od średniej arytmetycznej. W ten sposób mając dwa odchylenia standardowe o tej samej wartości, np. s1 = 3,97 i s2 = 3,97 nie oczekujemy jednakowych wyników w bazie, ale tego samego stopnia rozproszenia względem średniej arytmetycznej.
Szkopuł w tym, że w próbach identyczne odchylenia standardowe równe sobie, s1 = s2, spotykane są niezmiernie rzadko. Przecież mamy do czynienia ze zjawiskami losowymi, przez co trudno liczyć na równość odchyleń standardowych. Nawet trudno żądać identycznego wyniku do piątego miejsca po przecinku. Musimy się zatem wykazać pewną dozą elastyczności w ocenie jednorodności wariancji. Innymi słowy, kiedy możemy przejść do porządku dziennego nad niezerową różnicą między odchyleniami standardowymi. Za to musimy wiedzieć, kiedy jest to problem? Kiedy jesteśmy elastyczni, a kiedy powinniśmy pożegnać się z homogenicznością wariancji?
Mamy tutaj dwie ścieżki postępowania w ocenie jednorodności wariancji: wiodą one albo poprzez oglądanie miar rozproszenia, albo poprzez wykonanie kolejnego test istotności statystycznej. SPSS, niestety, promuje pewne zachowania, które nie są do końca są dobre (tzw. testoza, czyli testuj wszystko, co możesz).
SPOSÓB 1 [REGUŁA KCIUKA] — Pierwszy sposób badania homogeniczności wariancji wykorzystuje statystyki opisowych - dokładnie miary rozproszenia, jakimi są odchylenia standardowe. Badanie polega na podzieleniu wyższego odchylenia standardowego przez mniejsze. Aby uznać, że homogeniczność wariancji została zachowana, iloraz musi być niższy niż 2. W ten sposób niemal palpacyjnie oceniasz, czy stopień rozproszenia wyników w obu grupach jest zbliżony.
Jeśli odchylenie standardowe w pierwszym poziomie czynnika wynosi wynosi s1 = 2,75, zaś w drugim poziomie czynnika wynosi s2 = 1,25, to iloraz odchyleń standardowych jest wyższy od dwóch, 2.75/1.25 > 2 i wówczas trudno uznać jednorodność wariancji.
SPOSÓB 2 [TEST STATYSTYCZNY] — Drugi sposób to klasyczne testy statystyczne. Są co najmniej dwa testy homogeniczności wariancji: Levene'a i Bartletta. SPSS w teście t-Studenta dla dwóch grup podaje tylko ten pierwszy a zastrzeżeniach poczytasz niżej w kolorowej ramce. Oba z tych testów mają tą samą hipotezę zerową H0: σ1 = σ2. Symbol σ (czyt. sigma) oznacza wariancję zmiennej zależnej w jednej z populacji. W ten sposób ta hipoteza zerowa sygnalizuje, że żąda równości rozproszeń w populacji. Mówi ona mniej więcej tyle: - "nie obchodzi mnie to, że w zebranych danych odchylenia standardowe są różne. Ważne, żeby w populacjach były tożsame." Stosując tę ścieżkę postępowania, badaczowi zależy, aby zobaczyć wynik nieistotny statystycznie, np. p = 0,451.
| Problem z testem Levene’a czy Bartletta jest taki sam jak ze wszystkimi testami istotności statystycznej – nie kontrolując liczebności próby, nie za bardzo wiadomo, co istotność lub nieistotność statystyczna tak naprawdę oznacza. Brakuje tu czegoś, co pozwoliłoby ocenić ocenić, czy istotny statystycznie wynik testu Levene’a naprawdę pokazuje różne wariancje. Ponadto, takie wielokrotne testowanie wzmacnia testozę wśród badaczy, czyli tendencję do testowania wszystkiego, co się da, byleby nie podjąć własnej decyzji. SPSS jest mistrzem w promowaniu takiego zachowania, ponieważ z tabelek wyświetlanych przez program w outpucie mamy jedynie wynik testu statystycznego i p-wartość. Dzięki temu bardzo trudno jest zapisać wynik testu. Do poprawnego zapisu potrzebujemy jeszcze stopni swobody (degrees of freedom), a nigdzie ich nie ma. |
Po spełnieniu wszystkich założeń testu t-Studenta (również tych superrestrykcyjnych z normalnością rozkładu badanej cechy w obu poziomach czynnika) otrzymujemy obraz danych, które w teorii wyglądają mniej więcej tak, jak na poniższym rysunku. Są to dane pochodzące z dwóch rozkładów normalnych o tym samym stopniu rozciągnięcia ramion. Zadaniem badacza jest sprawdzić, który z tych modeli jest bliższy rzeczywistości. Czy model hipotezy zerowej, gdzie dane pochodzą z tego samego rozkładu (tej samej populacji) - krzywe pokrywają się. Czy z dwóch populacji, które różnią się jedynie przesunięciem szczytu względem na osi poziomej OX. W rozkładzie normalnym szczyt znajduje się nad średnią, stąd test t-Studenta dotyczy średnich.
Statystyka testowa testu t-Studenta
W klasycznym testowaniu hipotez, nie pracujemy na surowych danych. Wędrują one wraz z hipotezą zerową do maszynki zwanej statystyką testową, która - technicznie rzecz ujmując - jest po prostu wzorem matematycznym, który sprowadza dane do pojedynczej liczby zwanej wartością statystyki testowej t. W teście t-Studenta, który zajmuje się dwoma grupami, ten wzór można opisać krótko jako studentyzowaną różnicę między średnimi arytmetycznymi, czyli różnicę między średnimi podzieloną przez jej błąd standardowy.
Na postać mianownika wpływa równoliczność grup i równość wariancji. Zatem licznik pozostaje takie sam, a mianownik zmienia się w zależności od okoliczności.
Poniższy wzór to jeden ze wzorów na statystykę testową testu t-Studenta: grupy są równoliczne, zaś wariancja jest homogeniczna.
WARTOŚĆ STATYSTYKI TESTOWEJ t-STUDENTA | Jest to pojedyncza liczba, do której przekształcono surowe dane. Przyjrzymy się trochę tej statystyce. Możliwe wartości, jakie t może przyjąć, rozciągają się od minus nieskończoności do plus nieskończoności. Oznacza to, że w tabeli zawierającej wyniki analiz testu t-Studenta możecie zobaczyć zarówno niską wartość - albo dużą. Ujemną lub dodatnią. Czasami można nawet zobaczyć zero.
Dzieje się tak, gdy średnie arytmetyczna zmiennej zależnej są identyczne. Zauważ, że we wzorze na statystykę testową - w jej liczniku - znajduje się różnicę między nimi. Jeśli średnie arytmetyczne w obu grupach są blisko siebie, to i wartość statystyki testowej będzie mała. Im bardziej się od siebie różnią, tym ta wartość t jest większa.
CO ZNACZY t = 3,045? | Wartość statystyki testowej testu t-Studenta nie jest po prostu jakąś tam sobie liczbą, która nic nie mówi. Zauważ, że jest agregatem informacji wydobytych z surowych danych. Umiejętność odczytania jej wartości jest pomocna w zrozumieniu tego, co się dzieje w analizach.
Niech punktem wyjścia będzie spostrzeżenie, że zerowa jej wartość, czyli t = 0, pojawia się w chwili, w której średnie arytmetyczne w obu grupach są równe. Na przykła:, średnie nasilenie empatii u kobiet jest takie samo jak u mężczyzn - albo: średnie IQ między kobietami a mężczyznami są jednakowe.
Wyobraźmy sobie taką sytuację, w której czynnik nie działa na zmienną zależną (np. nie ma międzypłciowych różnic w empatii). Gdyby - uwaga! Używam tu trybu przypuszczającego - gdyby nie było różnic między jednymi a drugimi, wartość statystyki testowej t powinna w badaniu wyjść zero - niezależnie od tego, na jaką próbę badacz trafi. Powinna, ale rzadko trafia się. Dlaczego?
Niestety (a może i "stety"), w rzeczywistym świecie, trzeba wziąć pod uwagę tzw. losowe fluktuacje. A to osoba badana nie dosłyszała o co chodzi, a to zagapiła się, a to nie wyspała - powodów jest mnóstwo. Narzędzia pomiarowe nie są doskonałe, zawsze trafią się jakieś zafałszowania. To bezpośrednio przekłada się na surowy wynik osoby badanej, co w dalszej kolejności pociąga za sobą to, że ta wartość statystyki t nie będzie równa zero - mimo, że przecież miało nie być różnic. Innymi słowy, nawet gdy nie ma różnic między średnimi w populacji, to w próbie sprawy będą przecież wyglądać nieco inaczej. Wobec tego, należy wykazać się pewną elastycznością. Wokół zera istnieje mały przedział wartości statystyki testowej t, które zwiastują brak wpływu czynnika na zmienną zależną (mimo, że nie są dokładnie równe zero).
Przedział sięga od -1 do 1. Jeśli wartość statystyki t wpadnie w ten przedział, to najczęściej zobaczysz wynik nieistotny statystycznie, p wyższe od 0,05 (np. p = 0,072) oraz niezbyt zachwycającą siłę efektu. Piszę najczęściej, ponieważ testy statystyczne są bardzo wrażliwe na wielkość próby. W małych próbach, np. gdy N = 10, nawet czynnik który teoretycznie powininen różnicować średnie (jak ta płeć wobec empatii), wypadnie bardzo blado.
Nie pytajcie, czy znajdująca się na granicy przedziału wartość t = 1,00 (lub analogicznie t = -1,00) to już zły znak. W statystyce ciężko o jednoznaczną odpowiedź. Co najwyżej mogę powiedzieć, że gdy t = 1 to najczęściej oznacza to kłopot. W statystyce wszystkie krawędzie są nieostre (nawet te, które zdają się być jasno wyznaczone).
O ile przedział [-1,1] jest problematyczny, o tyle wartości już spoza tego przedziału wskazują, że czynnik będzie różnicować średnie zmiennej zależnej. Oczywiście, im dalej od krawędzi - tym lepiej. Oprócz tego, czy wartość statystyki testowej w badaniu wypadła poza przedział [-1,1], ważne jest to, czy jest po jego lewej stronie, czy po prawiej. Znak statystyki testowej t mówi o tym, który poziom czynnika (która grupa) ma wyższą średnią.
Pamiętajmy, że wartość statystyki testowej t-Studenta zależy od różnicy między średnimi arytmetycznymi. Różnica to ta operacja arytmetyczna, w której ważna jest kolejność. Od średniej arytmetycznej z pierwszego poziomu czynnika jest odejmowana średnia arytmetyczna z drugiego poziomu czynnika. Jeśli od czegoś mniejszego odejmiemy coś większego (np. 3 - 10), to rezultat wyjdzie ujemny. Jeśli od czegoś większego odejmiemy coś mniejszego (np. 10 - 3), to rezultat wyjdzie dodatni. To jest ważne o tyle, gdy dane przeczą postawionej hipotezie badawczej.
Hipoteza badawcza przewiduje, że średnie nasilenie empatii jest wyższe u kobiet niż u mężczyzn, tymczasem trafia się specyficzna próba złożona z pielęgniarzy i maklerek, gdzie ta zależność odwraca się. Z góry przepraszam za aktywację stereotypów, ale mam nadzieję, że wiecie o co chodzi. Znak statystyki testowej jest naszym bezpiecznikiem - o ile pamiętasz, który poziom czynnika był tym pierwszym, a który drugim.
Podsumowując, przykładowa wartość statystyki testowej t = 3,019 jest tą wartością statystyki testowej t-Studenta, która pokazuje, że średnie zmiennej zależnej są różne w obrębie poziomów czynnika. Można spodziewać się istotności statystycznej a także niezbyt małej wielkości efektu. Dodatni znak tej wartości oznacza, że wyższym średnim nasileniem badanej zmiennej (cokolwiek nią jest) charakteryzują się osoby z pierwszego poziomu czynnika niż osoby z drugiego poziomu.
Mimo tego, że wartość statystyki testowej niesie sporo informacji, to na jej obejrzeniu analiza danych nie kończy się. Teraz trzeba ocenić, jak typowa jest otrzymana wartość statystyki testowej. Ponieważ dane są losowe (czyt. przed przeprowadzeniem badania nie wiemy, jakie otrzymamy), to ta losowość przenosi się na wartości statystyki testowej - one też są losowe. Przed zebraniem danych, a i przed rozpoczęciem analiz, nie wiemy jaką wartość otrzymamy. Czy będzie to -1,45 czy może 257,87. Część z nich jest częstsza, a część z nich - rzadsza lub ekstremalnie rzadko spotykana. To z kolei oznacza, że należy odwołać się do rozkładu statystyki testowej.
Rozkład (wartości) statystyki testowej testu t-Studenta
Pamiętaj, że każdy klasyczny test statystyczny ma wbudowany rozkład wartości statystyki testowej. Choć jest to tylko matematyczny, abstrakcyjny twór, który odstrasza wielu początkujących badaczy, opowiada on pewną historię o wartościach statystyki testowej. Roztacza on wizję tego, jak wyglądałby świat, w którym Twoje zmienne nie miałyby ze sobą żadnego związku. Jak to byłoby, gdyby czynnik nie miał żadnego znaczenia dla badanej zmiennej zależnej? Powiesz, że wówczas średnie arytmetyczne powinny być sobie ku sobie zbliżone a wartość statystyki testowej t bliska zeru. Spójrz więc na ten rysunek - szczyt rozkładu znajduje się nad zerem. Im dalej od tego miejsca, tym coraz rzadziej spotykane są wartości. Tak właśnie rozkład opowiada o tym, co dzieje się z wartościami testu (dokładniej: wartościami statystyki testowej).
W teście t-Studenta ten rozkład jest precyzyjnie określonym rozkładem t-Studenta posiadającym tylko jeden parametr zwany stopniami swobody (ang. df, degrees of freedom), a ten z kolei jest uzależniony od liczby osób biorących udział w badaniu, df = N - 1, gdzie N to liczba osób badanych. Ten rozkład stanowi podstawę obliczenia p-wartości (ang. p-value) zwanej istotnością statystyczną (ang. statistical significance).
Porozmawiajmy o konkretach. W konkretnym badaniu, konkretny badacz otrzymuje konkretną wartość statystyki testowej. Dalej musi ocenić, jak częsty jest to wynik w pewnej szczególnej sytuacji - w sytuacji, w której hipoteza zerowa o braku różnic międzygrupowych jest prawdziwa. Zadajemy zatem pytanie, czy otrzymany przez nas wynik jest typowy lub nie, jeśli obie próby pochodzą z tej samej populacji. Odpowiedź na to pytanie otrzymujemy w kategoriach prawdopodobieństwa i nazywamy ją albo p-wartością lub istotnością statystyczną. Więcej na temat p-wartości/istotności statystycznej znajdziesz w osobnym poście KLIK Dowiesz się również z niego, że tak naprawdę odpowiadamy na pytanie o to, jak bardzo prawdopodobna jest uzyskana wartość statystyki testowej - i jeszcze większa.
Wielkość efektu d-Cohena
WIELKOŚĆ EFEKTU - Wielkość efektu to krótko mówiąc, miara siły zjawiska. W schematach międzygrupowych, gdy porównujemy średnie nasilenia zmiennej zależnej pomiędzy kategoriami czynnika, mówi ona jak bardzo czynnik różnicuje średnie. Ponieważ wynik istotny statystycznie może być wynikiem nieistotnym praktycznie, to do oceny siły związku między zmiennymi stosujemy wielkość efektu. Wielkość efektu jest miarą siły zjawiska i w przypadku porównań między dwiema grupami oznacza ona to, jak bardzo średnie badanej cechy różnią się od siebie. Więcej na ten temat znajdziesz w poście o wielkości efektu KLIK
| Warto też powiedzieć, że żeby obejrzeć wielkość efektu w jakimkolwiek badaniu, nie trzeba jednoczęsnie korzystać z testów istotności statystycznej. Test t-Studenta i wielkość efektu to dwie różne rzeczy. |
MIANOWNIK ZWANY STANDARYZATOREM — Skoro różnica między średnimi nie wystarcza do oceny siły zależności, to należy ją podzielić przez jakiś mianownik. Co można włożyć do owego mianownika? Można na przykład zmierzyć wariancję wszystkich wyników bez dzielenia ich na dwie kategorie. Ale takie postępowanie powoduje, że nagle wszystkie wyniki odnosimy do ich ogólnej średniej, a zatem dla jednej i dla drugiej zmieniamy poziom odniesienia, jakim do tej pory była średnia arytmetyczna w danej grupie. Zatem takie postępowanie nie jest dobre.
MIANOWNIK: POŁĄCZONA WARIANCJA [d-COHENA] — W takim razie można spróbować czegoś, co nazywa się wariancją połączoną (ang. pooled variance). Najprościej rzecz ujmując - uśredniamy wariancje i to jest właśnie wielkość efektu d Cohena. Litera d w nazwie tej miary pochodzi od angielskiego słowa difference, oznaczającego różnicę. Dzięki temu, wyniki odnoszone są do swoich własnych średnich arytmetycznych, a my mamy uchwyconą zmienność wyników w obu grupach.
WIELKOŚĆ EFEKTU d-COHENA — Jest to tzw. standaryzowana różnica między średnimi. Tu standaryzacja oznacza podzielenie różnicy między średnimi arytmetycznymi przez rozproszenie wyników bez względu na to, do jakiej grupy należą.
MIANOWNIK: WARIANCJA W GRUPIE KONTROLNEJ [delta Glassa] — technicznie rzecz biorąc, jest to metoda najprostsza. Polega na włożeniu do mianownika zmienności jednej z grupy: tej, która ma być grupą odniesienia. To postępowanie ma sens, gdyby badacza interesowało zestawianie grup i w przypadku badań eksperymentalnych to ma sens. Jedna z nich jest kontrolna, a druga – eksperymentalna, więc siłą rzeczy różnicę między średnimi arytmetycznymi odnosi się do grupy kontrolnej, a dokładniej: względem zmienności wyników w tej grupie. Zatem dla wielkości efektu delta Glassa w mianowniku znajduje się zwykle odchylenie standardowe s jednej z grup.
Wybierając jedną z wielkości efektu, otrzymujemy pojedynczą liczbę (zwaną wartością wielkości efektu d-Cohena/delty Glassa). To może być d = -0,33 albo d = 1,25.
ROZMIARÓWKA —
Mała wielkość efektu to te wartości, które zaczynają się od |0.20|.
Umiarkowana wielkość efektu to te wartości, które przekraczają |0.50|.
Duża wielkość efektu to ta powyżej |0.80|.
DODATKOWE INFORMACJE — Jakie wartości mogą przybierać wyniki wzorów na wielkości efektu d Cohena czy delta Glassa? Poniższe własności wynikają wprost z tych wzorów. W liczniku znajduje się różnica między średnimi, zaś w mianowniku pierwiastek. Skoro pierwiastek może być tylko dodatni, to jedynym co ogranicza to różnica w odejmowaniu. A zatem - pełna dowolność.
- Wielkości efektu osiągają wyniki zarówno ujemne, jak i dodatnie..
- W zasadzie nie są niczym ograniczone: wielkość efektu d Cohena czy delta Glassa mogą wynosi -5,23 albo +3,26



























