Test t-Studenta

Test t-Studenta jest najpopularniejszym testem stosowanym w psychologii ze względu nie tylko na prostotę wykonania w programie statystycznym, ale także na to, że odpowiada najprostszemu schematowi badawczemu: porównaniom między dwoma grupami.

SPIS TREŚCI:

SUROWA RÓŻNICA MIĘDZY ŚREDNIMI - Mogłoby się wydawać, że porównanie dwóch grup polega na porównaniu średnich arytmetycznych (badanej zmiennej). Wystarczy odjąć jedną średnią od drugiej i w ten sposób uzyskać informację o wielkości różnic międzygrupowych. Tak łatwo jednak nie jest. Przecież w obrębie każdej z grup wyniki są zróżnicowane - osoby w grupach różnią się między sobą. Nie jest tak, że indywidualne wyniki są równe średniej arytmetycznej (zob. rysunek niżej).

Być może to banalne stwierdzenie, ale badaniach empirycznych zmienność wyników jest czymś normalnym i spodziewanym. Nie dość, że występują różnice między całymi grupami (np. kobiety i mężczyźni różnią się pod względem wzrostu), to jeszcze wewnątrz grup osoby różnią między sobą (np. kobiety również różnią się wzrostem, są kobiety mają 162 cm i 198 cm). Zróżnicowanie wyników indywidualnych przejawia się poprzez różne odchylenia standardowe tej samej zmiennej (np. wzrostu) mierzonego oddzielnie dla dwóch grup. Wobec tego odejmowanie tylko i wyłącznie średnich arytmetycznych nie jest miarodajne.

Porównaj dwa poniższe rysunki. Obserwacje z grupy pierwszej są zaznaczone na niebiesko, obserwacje z grupy drugiej zaznaczone są na zielono. Czarną linią ciągłą zaznaczono średnie arytmetyczne, a dwukierunkowa strzałka to różnica między średnimi arytmetycznymi. Pierwszy rysunek pokazuje, że obserwacje nie zachodzą na siebie, ponieważ pomiędzymi nimi jest jeszcze trochę przestrzeni. Grupy są rozdzielone. Żadna osoba z grupy niebieskiej nie uzyskała tak wysokiego wyniku, aby można było ją zaliczyć do grupy zielonej. I w drugą stronę, żadna osoby z grupy zielonej, nie uzyskała wyniku tak niskiego, który sięgnąłby do wyników grupy niebieskiej.

Na kolejnym rysunku dwukierunkowa strzałka jest tej samej długości, symbolizując tę samą wartość różnicy między średnimi. Jednak obserwacje z obu grup zachodzą na siebie. Są osoby z grupy niebieskiej, których wynik sięgnął wyżej niż kilka osób z grupy. Jest jedna osoba z grupy niebieskiej, której wynik jest wyższy niż średnia arytmetyczna grupy zielonej.

Gdyby nie kreski i kolory można byłoby uznać, ze w zasadzie obserwacje nie różnią się pod względem wyników. A więc analizując wyniki osób badanych rozdzielonych do dwóch kategorii, nierozsądnie byłoby pominąć zmienność tych wyników w obrębie każdej z grup. Zarówno test t-Studenta, jak i wielkość efektu uwzględnia i różnicę między średnimi, i rozproszenie.

BADANIA KORELACYJNE CZY EKSPERYMENTALNE? — Test t-Studenta można zastosować do wyników pochodzących z badań zarówno eksperymentalnych, w których osoby badane przydzielasz losowo do jednej z dwóch grup (kontrolnej i eksperymentalnej), quasi-eksperymentalnych, w których wygląda tak, jakby zadziałał przypadek w dobieraniu osób badanych do warunku eksperymentalnego i kontrolnego (np. płeć), oraz korelacyjnych, w których nie manipulujesz żadną zmienną.

NOMENKLATURA: CZYNNIK I ZMIENNA ZALEŻNA — W związku z charakterystycznym schematem badań, z jakim jest związany test t-Studenta, pojawia się specyficzna nomenklatura. Zmienna, która grupuje obserwacje do grup, nazywa się czynnikiem. Zmienna, której średnie arytmetyczne liczymy, nazywa się zmienną zależną. Warto zapamiętać to nazewnictwo, zwłaszcza, że używa go jeden z popularniejszych programów do analizy danych (SPSS).

Będąc jednym z klasycznych testów statystycznych przeprowadzanych w paradygmacie NHST, test t-Studenta posiada następujący schemat: hipoteza zerowa plus dość mgliście sformułowana hipoteza alternatywna, maszynka do mielenia danych zwana statystyką testową, wartości tej statystyki testowej mają rozkład (zwany rozkładem statystyki testowej), na podstawie którego oblicza się typowość uzyskanego wyniku (w postaci p-wartości) i na końcu oblicza się jeszcze wielkość efektu d Cohena. To jest szybki skrót z posta o mechanice klasycznych testów statystycznych zaś odnośnie wnioskowania znajduje się w serii postów.

HIPOTEZA ZEROWA w teście t-Studenta mówi o równości dwóch średnich (badanej cechy) w dwóch populacjach - między dwoma teoretycznymi średnimi.

Teoretyczne średnie można symbolicznie zapisać μ1 to średnia cechy w jednej populacji oraz μ2 to średnia cechy w drugiej populacji. W ten sposób hipoteza zerowa w teście t-Studenta symbolicznie przedstawia się następująco:

H0: μ1 = μ2
OZNACZENIA — μ1 [czyt. mi jeden] to średni poziom cechy w pierwszej podpopulacji, μ2 [czyt. mi dwa] to średni poziom cechy w drugiej podpopulacji.

INTERPRETACJA — Ten symboliczny zapis można rozumieć w następujący sposób: H0: średni poziom cechy jest równy w obu populacjach. Możliwa jest też nieco inaczej brzmiąca interpretacja: dwie próby pochodzą z tego samego rozkładu. Zauważ, że użyte w zapisie są greckie litery μ oznaczające, że chodzi o populację. To powoduje, że ten drugi zapis bywa mylący i sugeruje, że chodzi o porównanie dwóch próbek. Na chłopski rozum, byłby to zbędny zabieg - po co wytaczać całe testowanie hipotez, aby stwierdzić, czy dwie średnie z dwóch prób są sobie równe lub różne? Przecież wystarczy porównać dwie liczby do tego.

CO JEST ISTOTNE STATYSTYCZNIE? RÓŻNICA W GRUPACH ... CZY W POPULACJACH? — Czasem skrótowo mówi się o istotności (statystycznej) średnich w dwóch grup, np. w tekście jest napisane:"analiza pokazała jedną istotnie statystyczną różnicę między kobietami a mężczyznami". Ten sposób formułowania wyników, sprawia, że bardzo łatwo pomyśleć, że szukamy przymiotnika określającego różnicę w średnich arytmetycznych między osobami w grupach.

Podczas weryfikacji hipotez statystycznych to, co nas interesuje to populacja, a nie próba. Ta składająca się z dwóch grup próba służy jako środek do przeniesienia wniosku z próby na populację. Aby zauważyć niezerową różnicę między średnimi arytmetycznymi nie potrzeba żadnej weryfikacji hipotez. Jeśli średnia arytmetyczna n = 10 pomiarów wzrostu w grupie kobiet wynosi 168,2 cm a średnia arytmetyczna n = 10 pomiarów wzrostu w grupie mężczyzn wynosi 178,6 cm, to widzimy, że te średnie różnią się. Różnica między nimi wynosi 10,4 cm - kobiety i mężczyźni w tej dwudziestoosobowej próbie różnią się pod względem średnich wzrostu. Aby przenieść ten wniosek z próby na całą populację kobiet i mężczyzn, wykorzystuje się weryfikację hipotez.

HIPOTEZA ALTERNATYWNA jest w NHST zwykle dość mgliście sformułowana i brzmi: H1: średni poziom cechy w obu podpopulacjach nie jest sobie równy. Symboliczny zapis przedstawia się w ten sposób:

H1: μ1 ≠ μ2
Obecność takiej niewyraźnej hipotezy alternatywne widać jedynie w tym, czy wybieramy test jedno- , czy dwustronny. Od 28. wersji SPSS dostępne są dwie wersje testu t-Studenta (dotychczas była jedna i nie było żadnej filozofii).

Jednostronny test t-Studenta to test, który sugeruje nierówność w hipotezie alternatywnej, czyniąc z nią tzw. kierunkową hipotezę statystyczną.

H1: μ1 < μ2

Kierunkowość wskazuje na konkretny kierunek zależności: uważamy, że średnia w jednej populacji będzie wyższa niż w drugiej populacji. Zamiast: kobiety i mężczyźni różnią się od siebie (bezkierunkowa), to hipoteza brzmi: "średni poziom badanej cechy wśród kobiet jest wyższy niż u mężczyzn".
W miejsce braku równości pojawia się znak nierówności (mniejsze, większe).

Zauważ, że te symbole użyte w hipotezie zerowej i alternatywnej to greckie znaczki. Oznaczają one, że chodzi o równość średnich w populacji, nie zaś w próbie. Kiedy zbierzesz dwie grupy, to najczęściej będą się różnić średnimi arytmetycznymi. Do zauważenia różnicy między dwiema liczbami nie potrzebujesz testów statystycznych – wystarczy je zobaczyć. To, do czego stosujesz testy statystyczne, to przeniesienie wniosków z próby na populację, a więc czy z tego faktu, że różnią się dwie próby, można powiedzieć, że różnią się dwie populacje, z których te próby pochodzą.

FORMAT DANYCH — w podręcznikach zwany założeniami danego testu, a chodzi o to, co nam potrzeba, aby program statystyczny ruszył z obliczeniami. Dane muszą spełniać kilka warunków, które dla wygody i łatwości zapamiętania warto pogrupować w trzy kategorie. Pierwsza kategoria warunków odnosi się do schematu badawczego. Druga określa typ zmiennej (tj. skale Stevensa) a trzecia kategoria ma charakter probabilistyczny – od danych będziemy żądać pewnego kształtu rozkładów. Te warunki są potrzebne, abyśmy mogli zarówno wykonać test t-Studenta, jak również wyciągnąć poprawne wnioski na podstawie otrzymanych cyferek. .

PIERWSZA KATEGORIA: NIEZALEŻNOŚĆ OBSERWACJI – Niezależność obserwacji sprowadza się do ilości pomiarów dokonanych na osobach badanych. Osoby badane możemy badać raz, przydzielając do jednej z dwóch grup, albo dwa razy - już bez podziału na grupy. Jeden i drugi sposób stworzy dwa zestawy wyników. Pierwszy przypadek to przykład niezależnych obserwacji (nie mylić z niezależnością zmiennych). Obserwacja może należeć: albo tylko do grupy kontrolnej, albo tylko do eksperymentalnej. Być albo kobietą, albo mężczyzną. Są to dwa rozłączne warunki: albo A albo B.
Drugi przypadek to przykład zależnych obserwacji. Łatwiej o nich pomyśleć, jak o powtarzanych pomiarach. Badane osoby przechodzą przez badanie dwukrotnie, więc (nieco sztuczną) grupą jest kolejność pomiaru: pierwszy pomiar, drugi pomiar. Na przykład szybkość przyswajania wiedzy przed spożyciem kofeiny i po spożyciu kofeiny.
Obok tego badacz może przebadać jedną grupę badanych i porównać ich średni poziom z innym, teoretycznym poziomem odniesienia. Na przykład: lekarz medycyny może sprawdzić, czy osoby dotknięte schizofrenią mają książkowe ciśnienie krwi 120/80.

WARIANTY TESTU T-STUDENTA: Możliwość wyboru schematu badania (obserwacje niezależne vs. zależne) powoduje, że istniejeą warianty testu t-Studenta:

  • dla jednej próby (one-sample t-test) – to taki wariant, w którym jest jedna grupa, której to średni poziom porównujesz do jakiegoś teoretycznego kryterium, np. czy średnie tętno seniorów wynosi 60 uderzeń na minutę.
  • dla dwóch prób niezależnych (two sample t-test) – osoby badane są rozdzielone do dwóch grup i każda z nich jest badana tylko jeden raz, np. zbadano poziom uprzedzenia do wybranej mniejszości u osób mieszkających przy zachodniej i wschodniej granicy Polski.
  • dla dwóch prób zależnych (paired data) – badani zostali poddani badaniu dwukrotnie, np. zbadano tętno przed i po treningu.

W tym poście omawiamy test t-Studenta dla grup niezależnych.

DRUGA KATEGORIA: TYP POMIARU zmiennych — Mechanizm testu t-Studenta jest tak skonstruowany, aby badać dwie średnie. Chodzi o to, że wzór, który stanowi sedno tego testu, przyjmuje tylko średnie, odchylenia standardowe i liczebności obu próg. Dane powinny być rozdzielone na dwie kategorie, zaś wybrana cecha powinna umożliwiać obliczanie średniej arytmetycznej na swoich wartościach. Wobec tego, jedna zmienna powinna być jakościowa, a druga - ilościowa. Według skal Stevensa: zmienna, która grupuje osoby badane, powinna być nominalna lub porządkowa o dwóch kategoriach. Druga zmienna powinna być zmienna przedziałowa lub ilorazowa.

Test t-Studenta nie obsłuży takich danych, w których obie zmienne są jakościowe. Nie da rady nim badać związków między płcią a ręcznością (raczej chi-kwadrat). Zmienna musi dawać możliwość policzenia średniej na jej wartościach. Co oznacza, że jeśli pamiętasz skale Stevensa, to musi być zmienną mierzoną na skali interwałowej albo na skali ilorazowej. Druga zmienna musi dawać możliwość rozdzielenia osób badanych do grupy.

Przykłady badań, gdzie test t-Studenta jest użyteczny:

  • czy poziom inteligencji emocjonalnej różni się między kobietami i mężczyznami?
  • czy nasilenie ekstrawersji wśród aktorów i osób wykonujących zawód bibliotekarza?
  • czy deprywacja kontroli prowadzi do ruminacji?
  • czy aktywizacja wizerunku rodzica ma wpływ na odraczanie gratyfikacji wśród dzieci?

Dwa pierwsze przykłady to schematy quasieksperymentalne, dwa ostatnie – eksperymentalne, w każdym z nich mamy tylko dwie grupy: wyznaczoną przez płeć, przez typ zawodów oraz kontrolną i eksperymentalną.

Test t-Studenta NIE nadaje się do:

  • porównań między więcej niż trzema grupami (idź do: ANOVA)
  • sprawdzenia zależności między płcią i stopniem upośledzenia (zmienna nominalna + zmienna porządkowa)
  • sprawdzenia czy występuje związek między płcią a zaburzeniem np. czy kobiety częściej występuje schizofrenia (zmienna nominalna + zmienna nominalna)
  • związek między samooceną a narcyzmem (zmienna przedziałowa+zmienna przedziałowa)

TRZECIA KATEGORIA: WYMAGANIA PROBABILISTYCZNE — testy statystyczne wykorzystują dane w pośredni sposób – przekształcając je do pojedynczej liczby zwanej wartością statystyki testowej. Statystyka testowa ma również rozkład swoich wartości – jedne zdarzają się częściej, a inne rzadziej. Ten rozkład musi być odpowiednim, ponieważ to na jego podstawie wyciągamy poprawne wnioski. A żeby mieć dobry rozkład, to dane, które wchodzą do statystyki testowej, muszą spełniać trzecią kategorię założeń: normalność rozkładu zmiennej zależnej oraz homogeniczność wariancji.

NORMALNOŚĆ ROZKŁADU cechy w obu grupach. Żądamy, aby w jednej i w drugiej grupie, wartości badanej cechy pojawiały się zgodnie z rozkładem normalnym. Chcemy zobaczyć coś takiego:

Żądanie normalności rozkładu badanej cechy to bardzo mocne żądanie – biorąc pod uwagę fakt, że rozkład normalny w badaniach psychologicznych nie jest często spotykany. Trudno oczekiwać, żeby każda badana cecha miała rozkład normalny, bo przecież test t-Studenta jest najpopularniejszym testem. Musi być jakiś sposób na to, że móc go wykonać, nawet jeśli rozkład cechy nie jest normalny. Z pomocą przychodzi Centralne Twierdzenie Graniczne.

Mechanizm testu t-Studenta tak naprawdę potrzebuje normalności rozkładu statystyki testowej, a nie tego, aby sama cecha miała rozkład normalny. Jeśli wiesz, że badana cecha ma w populacji rozkład normalny, to nie ma najmniejszych obaw - statystyka testowa test t-Studenta ma rozkład dokładnie taki powinna mieć, aby analizy były rzetelne. Jeśli ten rozkład cechy nie jest normalny, to dzięki Centralnemu Twierdzeniu Granicznego i przy dostatecznie dużej liczebności próby można postępować tak, jakby statystyka testowa posiadała pożądany rozkład normalny i procedować z analizami. Oczywiście, zawsze pozostaje pytanie, jak duża próba jest duża.

DIAGNOSTYKA NORMALNOŚCI ROZKŁADU - Jest pięć podstawowych charakterystyk potrzebnych do sprawdzenia, czy dany rozkład jest rozkładem normalnym: skośność, kurtoza, boxplot, qqplot, histogram.

Jeśli chcesz dowiedzieć się, jak diagnozować normalność tymi metodami, zajrzyj do posta pt. Diagnostyka normalności: KLIK

HOMOGENICZNOŚĆ (JEDNORODNOŚĆ) WARIANCJI — oznacza jednakowość rozproszeń wyników w obu grupach. Badacz posiada wyniki pomiarów cechy w jednej i w drugiej grupie. Jest zainteresowany ich średnimi – czy może wnioskować, że populacje, z których grupy wywodzą się, są takie same, czy też różne. Podczas dokonywania jakichkolwiek porównań ważne jest to, żeby nie porównywać gruszek z jabłkami, tzn. aby badane grupy różniły się co najwyżej jedną charakterystyką (średnią), nie zaś pozostałymi. Różne rozproszenia (np. odchylenie standardowe) oznaczałoby, że grupy są zbyt różne. Nie dokonuje się porównania między zdolnościami poznawczymi między dorosłymi a przedszkolakami – to zbyt różne etapy w życiu. Z tego powodu oczekujemy jednakowej wariancji w podpopulacjach z jakich wybrano dwie grupy.

I znów – trudno oczekiwać, żeby odchylenie standardowe w jednej i w drugiej grupie było jednakowe. Na przykład odchylenie standardowe badanej cechy w grupie kontrolnej SD = 1,20, zaś w w drugiej – SD = 1,4. Ponieważ mamy do czynienia ze zjawiskami losowymi, których wyniku nie da się z góry przewidzieć, to i nie możemy oczekiwać równości między odchyleniami standardowymi. Musimy się zatem wykazać pewną elastycznością. Innymi słowy, kiedy możemy przejść do porządku dziennego nad niezerową różnicą między odchyleniami standardowymi, a kiedy jest to problem?

Mamy tutaj dwie ścieżki postępowania: albo poprzez oglądanie tych miar rozproszenia, albo poprzez kolejny test istotności statystycznej. SPSS, niestety, promuje pewne zachowania, które nie są do końca są dobre (tzw. testoza – testuj wszystko, co możesz).

SPOSÓB 1 [REGUŁA KCIUKA] — Pierwszy to poprzez podzielenie większej odchylenia standardowego przez mniejsze i sprawdzenie czy wynik tego ilorazu znajduje się poniżej 2. Chodzi o to, że Jeśli odchylenie standardowe
SPOSÓB 2 [TEST STATYSTYCZNY] — Są co najmniej dwa testy homogeniczności wariancji: Levene'a i Bartletta. Oba z nich mają tą samą hipotezę zerową H0: σ1 = σ2 - wariancja zmiennej zależnej w jednej populacji (reprezentowana przez pierwszą zbadaną grupę) jest równa wariancji zmiennej zależnej w drugiej podpulacji (reprezentowanej przez drugą zbadaną grupę). Mocno podkreślam, że próby są tutaj jedynie środkiem do wnioskowania o populacjach, bo siłą rzeczy odchylenia standardowe (czyli pierwiastek z wariancji) uzyskane w badaniu będą różne.

Problem z testem Levene’a czy Bartletta jest taki sam jak ze wszystkimi testami istotności statystycznej – nie kontrolując liczebności próby, nie za bardzo wiadomo, co ich wynik oznacza. A na dodatek, brakuje im wielkości efektu, zatem tym bardziej trudno ocenić, czy istotny statystycznie wynik testu Levene’a naprawdę pokazuje różne wariancje, czy też nie. Ponadto, takie wielokrotne testowanie wzmacnia testozę wśród badaczy, czyli tendencję do testowania wszystkiego, co się da, byleby nie podjąć własnej decyzji. SPSS jest mistrzem w promowaniu takiego zachowania, ponieważ z tabelek wyświetlanych przez program w outpucie mamy jedynie wynik testu statystycznego i p-wartość. Dzięki temu bardzo trudno jest zapisać wynik testu. Do poprawnego zapisu potrzebujemy jeszcze stopni swobody (degrees of freedom), a nigdzie ich nie ma.

Po spełnieniu założeń (tych superrestrykcyjnych z normalnością rozkładu badanej cechy w obu grupach) otrzymujemy dane, które w teorii wyglądają mniej więcej tak, jak na poniższym rysunku. Są to dwa rozkłady normalne, które różnią się jedynie przesunięciem na osi poziomej OX - czyli średnią.

Maszynka zwana STATYSTYKĄ TESTOWĄ — Dane wraz z hipotezą testową wkładamy do wzoru na statystykę testową. Ten wzór można opisać krótko jako standaryzowaną różnicę między średnimi, czyli stosunek różnicy między średnimi przez rozproszenie. Problem jaki pozostaje, to jak zmierzyć rozproszenie w obu grupach. Na postać mianownika wpływa równoliczność grup i równość wariancji. Zatem licznik pozostaje takie sam, a mianownik zmienia się w zależności od okoliczności.

Poniższy wzór to jeden ze wzorów na statystykę testową testu t-Studenta: grupy są równoliczne, zaś wariancja jest homogeniczna.

WYNIK STATYSTYKI TESTOWEJ – to pojedyncza liczba. Ten wynik może być mały albo duży. Ujemny lub dodatni. Zauważ, że we wzorze na statystykę testową, w jej liczniku mamy różnicę między średnimi arytmetycznymi. Jeśli średnie są bardzo blisko siebie, to cała wartość statystyki testowej będzie mała.

Ale na obliczeniu wartości statystyki testowej analiza nie kończy się. Ponieważ dane są losowe, to i wyniki statystyki testowej też są losowe. Część z nich jest częstsza, a część z nich jest rzadsza. Ponieważ wartości statystyki testowej mają różne szanse wystąpienia, możemy mówić o rozkładzie statystyki testowej w teście t-Studenta.

ROZKŁAD STATYSTYKI TESTOWEJ – w teście t-Studenta zależy tylko od liczby osób biorących udział w badaniu. Jest to rozkład t-Studenta z pewną liczbą stopni swobody. To na jego podstawie oblicza się p-wartość.

Badacz otrzymuje konkretną wartość statystyki testowej, musi ocenić, czy jest to częsty wynik, gdyby przyjąć, że hipoteza zerowa jest prawdziwa. Zadajemy zatem pytanie, czy otrzymany przez nas wynik jest typowy lub nie, jeśli populacje są sobie równe. Odpowiedź na to pytanie jest w kategoriach prawdopodobieństwa i nazywamy ją albo p-wartością, albo (za SPSS-em) istotnością statystyczną. Więcej na temat p-wartość znajdziesz tutajL KLIK

WIELKOŚĆ EFEKTU - Ponieważ wynik istotny statystycznie może być wynikiem nieistotnym praktycznie, to do oceny siły związku między zmiennymi stosujemy wielkość efektu. Wielkość efektu jest miarą siły zjawiska i w przypadku porównań między dwiema grupami oznacza ona to, jak bardzo średnie badanej cechy różnią się od siebie. Więcej na ten temat znajdziesz w poście o wielkości efektu KLIK

Warto też powiedzieć, że żeby obejrzeć wielkość efektu w jakimkolwiek badaniu, nie trzeba jednoczęsnie korzystać z testów istotności statystycznej. Test t-Studenta i wielkość efektu to dwie różne rzeczy.

MIANOWNIK — Skoro różnica między średnimi nie wystarcza, to należy ją podzielić przez jakiś mianownik. Co można włożyć do owego mianownika? Można na przykład zmierzyć wariancję wszystkich wyników bez dzielenia ich na dwie kategorie. Ale takie postępowanie powoduje, że nagle wszystkie wyniki odnosimy do ich ogólnej średniej, a zatem dla jednej i dla drugiej zmieniamy poziom odniesienia, jakim do tej pory była średnia arytmetyczna w danej grupie. Zatem takie postępowanie nie jest dobre.

MIANOWNIK: POŁĄCZONA WARIANCJA [d-COHENA] — W takim razie można spróbować czegoś, co nazywa się wariancją połączoną (pooled variance). Najprościej rzecz ujmując - uśredniamy wariancje i to jest właśnie wielkość efektu d Cohena (d oznacza difference, różnica). Dzięki temu, wyniki odnoszone są do swoich własnych średnich arytmetycznych, a my mamy uchwyconą zmienność wyników w obu grupach.

WIELKOŚĆ EFEKTU d-COHENA — Jest to tzw. standaryzowana różnica między średnimi, gdzie standaryzacja po prostu oznacza podzielenie różnicy między średnimi arytmetycznymi przez rozproszenie wyników bez względu na to, do jakiej grupy należą.

MIANOWNIK: WARIANCJA W GRUPIE KONTROLNEJ [delta Glassa] — technicznie rzecz biorąc, jest to metoda najprostsza. Polega na włożeniu do mianownika zmienności jednej z grupy: tej, która ma być grupą odniesienia. To postępowanie ma sens, gdyby badacza interesowało zestawianie grup i w przypadku badań eksperymentalnych to ma sens. Jedna z nich jest kontrolna, a druga – eksperymentalna, więc siłą rzeczy różnicę między średnimi arytmetycznymi odnosi się do grupy kontrolnej, a dokładniej: względem zmienności wyników w tej grupie. Zatem dla wielkości efektu delta Glassa w mianowniku znajduje się zwykle odchylenie standardowe s jednej z grup.

Wybierając jedną z wielkości efektu, otrzymujemy pojedynczą liczbę (zwaną wartością wielkości efektu d-Cohena/delty Glassa). To może być -0,33 albo 1,25.

ROZMIARÓWKA — Mała wielkość efektu to te wartości, które zaczynają się od |0.20|.
Umiarkowana wielkość efektu to te wartości, które przekraczają |0.50|.
Duża wielkość efektu to ta powyżej |0.80|.

DODATKOWE INFORMACJE — Jakie wartości mogą przybierać wyniki wzorów na wielkości efektu d Cohena czy delta Glassa? Poniższe własności wynikają wprost z tych wzorów. W liczniku znajduje się różnica między średnimi, zaś w mianowniku pierwiastek. Skoro pierwiastek może być tylko dodatni, to jedynym co ogranicza to różnica w odejmowaniu. A zatem - pełna dowolność.

  • Wielkości efektu osiągają wyniki zarówno ujemne, jak i dodatnie..
  • W zasadzie nie są niczym ograniczone: wielkość efektu d Cohena czy delta Glassa mogą wynosi -5,23 albo +3,26

DO IT YOURSELF: JAK WYKONAĆ TEST T-STUDENTA W SPSS? — W SPSS-ie klikamy kolejno: Analiza -> Porównywanie średnich. Musimy wybrać zmienną kodującą podział na grupy (np. "Płeć") oraz oczywiście, badaną cechę, czyli kolumnę np. ''MFQ_HARM_AVG''. Tak nazwana jest kolumna oznaczająca wartości zmiennej.


Wybieramy Test t dla prób niezależnych.
Pojawia się okno dialogowe test t dla prób niezależnych.
Musimy teraz wskazać, która zmienna to zmienna zależna, dla której można policzyć średnie w dwóch grupach. Oraz która zmienna to zmienna dwuwartościowa, która grupuje (dlatego grupująca) obserwacje w dwie rozłączne grupy. Można tę zmienną nazwać też czynnikiem.

Kiedy wybierasz zmienną grupującą, to musisz wskazać, jak zakodowano te grupy. U mnie jest tak, że jeśli obserwacją jest kobieta, to ma przypisane 0. A jeśli to mężczyzna, to ma przypisane 1.
Napiszę to na wszelki wypadek, bo niektórzy biorą ten podział osobiście. Żaden podział nie będzie dobry i ktoś się obrazi. Więc... skoro tak... to ja ułatwiam sobie zapamiętywanie pod względem podobieństw anatomicznych :-)


Zmienne wybrane. Naciskamy enter i pojawia się tabelka, w której są dwa testy.



Dlaczego o tym mówimy? Bo wybór odpowiedniego wiersza z tabelki SPSS-owskiej przedstawiającej wyniki testu t-Studenta zależy od wyniku testu Levene'a. I pewnie też ocena na kolokwium czy egzaminie).


W pierwszej i drugiej kolumnie jest statystyka testowa i jej istotność statystyczna. Analizę zaczynamy właśnie od tego testu, dlatego, że w zależności od jego wyniku będziemy interesować się pierwszym lub drugim wierszem w tej tabeli.

P-wartość w teście Levene'a ma wartość dużo niższą od poziomu istotności alfa równego 0.05, stąd pewnie zgodnie z taką szkołą można uznać, że wariancje w grupach nie są równe.

Skoro nie są rówe, to będziemy odczytywać wyniki znajdujące się w drugim wierszu tej tabeli.


16 komentarzy:

kinomyszka pisze...

Świetne opracowanie. Bardzo praktyczne i przystępnym językiem pisane. Czytam dalej.

Lilianna Jarmakowska-Kostrzanowska pisze...

Cześć, kinomyszka! Bardzo dziękuję za miłe słowa :-) i oczywiście polecam czytanie dalej. W końcu - jakby na to nie patrzeć - po to to piszę :-)

Tetra pisze...

Hej

Jak odniesiesz się do tego, że założeniem testu t Studenta (jak i anovy lub innych metod parametrycznych) wcale nie jest normalność rozkładu mierzonej zmiennej w zbadanej grupie? Z tego co piszą wszyscy, którzy nie chcą upraszczać tematu. W teście t Studenta dla prób niezależnych to chyba rozkład średniej z próby powinien być zbliżony do normalnego, prawda?
Wiecej na ten temat:
1. https://www.researchgate.net/publication/299497976_Silly_or_Pointless_Things_People_Do_When_Analyzing_Data_1_Testing_for_Normality_as_a_Precursor_to_a_t-test

2. http://www2.psychology.uiowa.edu/faculty/mordkoff/GradStats/part%201/I.07%20normal.pdf

3. Znana Ci zapewne książka Fielda

4. wiele wiele więcej :)

Czy pisanie w podręcznikach (i na tym blogu), że to zmienna powinna mieć rozkład normalny nie jest po prostu uproszczeniem? Uczono mnie np. na zajęciach z testu t Studenta dla prób zależnych, że oba pomiary powinny mieć rozkład zgodny z normalnym co znów jest nieprawdą bo to różnica między pomiarami powinna mieć rozkład normalny. Tylko gdzie? W mojej próbie? W populacji? Czy znów mowa o rozkładzie z próby?

Teresa

Tetra pisze...

I jeszcze do ANOVA. Jest to model liniowy jak regresja więc tak jak regresja założenie normalności rozkładu dotyczy reszt a nie zmiennej zależnej. Jedno piszą tak a inni inaczej i jestem bardzo confused. Proszę o wyjaśnienie.

Lilianna Jarmakowska-Kostrzanowska pisze...

Dzień dobry, Tereso,

Dziękuję też za linki, to oczywiście nie są jedyne materiały o owczym pędzie do normalności. Nie piszę z książki Andy'ego Fielda, bo z wieloma rzeczami, które są tam przedstawione po prostu nie zgadzam się. Ale tak, jest mi znana.

Pisząc posta o teście t-Studenta miałam do wyboru:
a) napisać superobszerny i esktrawyczerpujący post, który siłą rzeczy wyszedłby dla zaawansowanych, a potrzebowałam napisać post dla studentów. Psychologii.

b) napisać krótki test, wprowadzający, podający najlepszą możliwą wiedzę, a post o teście t-Studenta 2.0 zostawić na później. Znów, siłą rzeczy musiałam zgodzić się na pewne uproszczenia.

Po przemyśleniu spraw i wyważeniu plusów i minusów zdecydowałam się na opcję b. Opcję (a) zostawiłam na czas pisania doktoratu z metod statystycznych - wówczas zamieszczę post 2.0. Wierz mi, że nie jest to najprzyjemniejszy dla mnie kompromis.

Dawno temu, mój post o teście t-Studenta zawierał informację, o której piszesz, że de facto jest nam potrzebna normalność rozkładu średnich. Co oczywiście rodzi kolejne problemy (i tak dalej - zobacz, że z postu o teście t-Studenta zrobiłby się post naszpikowany dygresjami, bo niestety temat ten jest bardziej złożony). A potem czytając własne posty doszłam do wniosku, że to od razu z grubej rury, a nie było jeszcze nawet nie ma odniesienia do jakiejś podstrony, która tłumaczyłaby koncept "rozkład średnich". Może rzeczywiście, dla osób już znających temat, jakąś myślą jest to, żeby w poście umieścić taką adnotację o normalności zmiennej zależnej i że to nie jest takie proste. W tym momencie - wielkie dzięki za sugestię.

Na pewno żądanie od danych, żeby były normalne jest najbezpieczniejszą kwestią (suma normalnych jest normalna), bo inaczej przechodzimy do już aproksymacji - i tutaj ja, jako osoba stojąca za blogiem, mam zawsze ten sam dylemat: jak głęboko grzebnąć w temacie. Poruszasz temat ANOVA oraz reszt - ale ja jeszcze na blogu nie mam chyba ani słowa o resztach. Chwała Ci za to, że masz taką wiedzę, ja muszę jeszcze trochę myśleć o studencie psychologii, który dopiero zaczął kurs ze statystyki i nie mogę od razu zwikipediować tekstu. Tak to wygląda z mojej strony.

Dzięki za obszerny komentarz (takie są właśnie fajne), a dzięki Twojemu też mam szansę przedstawić proces tworzenia postów niejako od kuchni i podejmowania czasami trudnych decyzji.

Tetra pisze...

Wszystko rozumiem tylko ja miałam inny cel. Nie chciałam pokazać, że coś jest nie tak prosząc o wyjaśnienie (choć w sumie tak zaczęłam pierwszy komentarz :)) tylko pytam specjalistkę CO POWINNO MIEĆ ROZKŁAD NORMALNY. Pomijając fakt, że nic nie musi wcale mieć rozkładu normalnego bo od niego nie zależy jakość wyników statystyki testowej a od innych czynników. Jestem studentką psychologii i jako taka właśnie zadaję pytanie :)
Np. przy teście t Studenta lub ANOVA. Kształt rozkładu jak najbardziej zbliżony do normalnego powinien mieć:
1. rozkład średniej z próby
2. zmienna zależna w badanej grupie (w obu czy trzech porównywanych podgrupach)
3. różnica między średnimi
4. zmienna zależna w populacji
5. reszty
6. inne

Dzięki!

Lilianna Jarmakowska-Kostrzanowska pisze...

Dziękuję za słowa uznania (specjalistka:) - wiem, że nic nie wiem:) Postaram się odpowiedzieć najlepiej jak mogę: odpowiedź (1) - ale ja bym powiedziała "rozkład średnich" oraz (5). I na dodatek: średnia różnic (ani jak wspomniałaś: same pomiary, ani proste różnice między nimi). Pewnie to wszystko wymagałoby jakiegoś dłuższego posta.

Jeśli chodzi o jakąkolwiek regresję liniową, to rozkład normalny mają mieć reszty, a nie zmienna zależna - według mojego pojęcia tego, co robimy, ale widziałam już w podręcznikach to mocne założenie o normalności rozkładu zależnej.

Na koniec, poprosiłabym Cię - jeśli oczywiście masz czas - o rozwinięcie tego zdania:"Pomijając fakt, że nic nie musi wcale mieć rozkładu normalnego bo od niego nie zależy jakość wyników statystyki testowej a od innych czynników." Wydaje się być bardzo skondensowane i jestem ciekawa, co masz na myśli :-)

Tetra pisze...

W tym zdaniu mam na myśli to co napisane jest we wszystkich artykułach świata (które chyba niechcący przeczytałam :)) z których wynika, że oczywiście rozkład zmiennej ma znaczenie, ale absolutnie nie musi być normalny by wartość p działała (btw. powielasz na blogu językowego potwora w postaci "p wartość" zamiast pisać "wartość p"). Także artykuły jak ten Micceriego o porównaniu p value do jednorożca. No i oczywiście te, które pokazują, że w sumie to jaki by nie był rozkład zmiennej to przy dostatecznie dużych próbach naprawdę test t Studenta działa dobrze. Dopóki np. średnia jest faktycznie dobrą MTC (powiedzmy, że dopóki nie ma outlierów?). Mimo wszystko też czuję, że im więcej czytam tym mniej wiem. Znajomy dziś zadał podobne pytane na cross validated, które pewnie dobrze znasz i uzyskał bardzo "złą" odpowiedź brzmiącą "bywa różnie, kwadratowo i podłużnie"
"You seem to be looking for a simple answer to a simple question, but few simple questions in statistics do have simple answers: there is always a conditional "it depends" prefixed to them. A good analogy would be a question about medicine: it would be fair to ask "what should I do when I think I have a cold," but a real answer would have to inquire about you, your symptoms, your medical history, and so on. Statistical problems are no less individual and complex"

Wracając do tematu. Dlaczego "wszyscy" w swoich podręcznikach piszą, że to rozkład zmiennej w porównywanych grupach powinien mieć rozkład normalny skoro nie jest to prawdą?

Lilianna Jarmakowska-Kostrzanowska pisze...

Dlaczego "wszyscy" piszą? Nie umiem odpowiedzieć za motywację wszystkich, wyjaśnienie mojej znajduje się w komentarzu wyżej :-) Ale możemy sobie podywagować, jak to psychologowie, dlaczego tak się dzieje. Może dzieje się to z tego samego powodu, dla którego wszyscy w podstawówce uczymy się, żeby przechodzić tylko w wyznaczonych miejscach na zielonym, a potem jakoś tak inaczej dzieje się... Albo uczymy się, że jest Pluton to planeta, a bodajże od 10 lat już nią nie jest. Może dlatego, że najpierw na sztywno uczymy się, żeby coś robić, a potem pojawiają się wyjątki, które z czasem spychają ogólną regułę do narożnika. A może ci "wszyscy" piszą tak, bo nie wiedzą i trzeba ich dokształcić.
Ja po przemyśleniu postanowiłam, że umieszczę w ciągu najbliższego czasu adnotację do postu 2.0., bo może faktycznie bez uprzedzenia za duże uproszczenie jest w moim tekście.

Natomiast piszesz, że powielam językowego potworka w postaci p-wartości. Hmm. Ja na tę kalkę językową przestałam zwracać uwagę, ale dopóki nie podasz mi jakichś dobrych argumentów (o co Cię w tym momencie proszę), to to pozostaje tylko Twoją opinią.

Tetra pisze...

Bardzo Ci dziękuję za odpowiedź.
Jeśli chodzi o p-value to niestety nie mam mocniejszych argumentów niż te które wymienię poniżej. Może Cię to przekona, a może nie ale dla mnie p-wartość brzmi jak MacBig zamiast BigMac w znanej nam wszystkim restauracji.
1. Wikipedia - może nie "najsuperowsze" źródło ale jednak w całym wpisie mowa jest o wartości p a nie p wartości. Co jak co ale chyba dbają tam o poprawność językową?
https://pl.wikipedia.org/wiki/Warto%C5%9B%C4%87_p

2. Mickey Mouse - przecież to Myszka Miki a nie Miki Myszka

3. Donald Duck - przecież to Kaczor Donald a nie Donald Kaczor

4. Student's t test - przecież to test t Studenta a nie Studenta t test.

i wiele wiele więcej, ale na pewno wiesz co mam na myśli :)

Lilianna Jarmakowska-Kostrzanowska pisze...

Rzeczywiście jest dużo przykładów, choć jest też Piotruś Pan :-)
Prawdopodobnie bardziej poprawnie byłoby tak, jak proponujesz:"wartość p", natomiast muszę poprawność złożyć na ołtarzu komunikatywności, dodatkowo kusi mnie to, że w opracowaniach angielskich jest "p-value" a nie "value p". I myślę, że będziemy musiały się z tym jakoś pogodzić, nie wszystko jest przekładalne z angielskiego na nasze. A przekład wręcz może mieć zupełnie odwrotne skutki, np. tak jak próbuje się przełożyć słowo "bootstrap" (lub też:"bootstrapping")

Kuba pisze...

Witam serdecznie. Bardzo ciekawy blog! Mam pytanie do powyższego wpisu a dokładnie do wielokrotne testowania. Czy dobrze rozumiem, że przeprowadzając test normalności, homogeniczności wariancji i jeszcze test studenta zwiększamy błąd I rodzaju i to jest sytuacja gdzie np. można zastosować poprawkę Bonferroniego bo testy są powiązanie? Co w przypadku gdy chcemy przetestować np. tylko normalność rozkładu ale kilkoma różnymi testami, czy wtedy również zwiększa się błąd I rodzaju, wydaje mi się że nie bo te testy są niezależne ale nie mam pewności. Pozdrawiam!

ALKa pisze...

Post bardzo przystępny i przydatny. Ale nigdzie nie mogę znaleźć informacji, jak interpretuje się samą wartość testu t. Czy jeżeli t=2,75, to jest to "lepsze" czy "gorsze" od t=10,21? I o czym świadczy ujemna wartość (np. t=-4,23) -czy ten minus traktuje się podobnie, jak w korelacji, czy pomija milczeniem? Czy to daje się jakoś zinterpretować, porównać, czy z zasady bazuje się tylko na średnich?

Lilianna Jarmakowska-Kostrzanowska pisze...

Cześć ALKa - dzięki za feedback, uwzględnię go przy aktualizacji posta, bo rzeczywiście nic nie ma o samej wartości statystyki testowej. Wydaje się, że 2,75 jest "gorsze" niż 10,21, bo we wzorze mamy różnicę średnich i 10,21 oznaczałoby większą różnicę niż 2,75, ale ponieważ nie jest to surowa różnica średnich, to znaczenie ma jeszcze wariancja w grupach i wielkość próby i ... dlatego trzeba więcej tekstu napisać :-) Minus ma takie samo znaczenie jak przy odejmowaniu 7 - 5 to to samo co do wartości bezwzględnej co 5 - 7, ale znaczenie ma kolejność. W tym przypadku, która średnia stoi po lewej stronie minusa, a która po prawej minusa.
Pozdrowienia

Anonimowy pisze...

Dzięki temu blogu skończę studia <33 cudowna robota, proszę nie przestawać <333

Lilianna Jarmakowska-Kostrzanowska pisze...

Bardzo dziękuję:) Cieszę się, że się podoba :)