Test t-Studenta jest najpopularniejszym testem stosowanym w psychologii ze względu nie tylko na prostotę wykonania w programie statystycznym, ale także na to, że odpowiada najprostszemu schematowi badawczemu: porównaniom między dwoma grupami. |
Wprowadzenie: Dlaczego nie można analizować jedynie średnich arytmetycznych?
SUROWA RÓŻNICA MIĘDZY ŚREDNIMI - Mogłoby się wydawać, że porównanie dwóch grup polega na porównaniu średnich arytmetycznych (badanej zmiennej). Wystarczy odjąć jedną średnią od drugiej i w ten sposób uzyskać informację o wielkości różnic międzygrupowych. Tak łatwo jednak nie jest. Przecież w obrębie każdej z grup wyniki są zróżnicowane - osoby w grupach różnią się między sobą. Nie jest tak, że indywidualne wyniki są równe średniej arytmetycznej (zob. rysunek niżej).
Być może to banalne stwierdzenie, ale badaniach empirycznych zmienność czy zróżnicowanie wyników jest czymś normalnym i spodziewanym. Nie dość, że występują różnice między całymi grupami (np. kobiety i mężczyźni różnią się pod względem wzrostu), to jeszcze wewnątrz grup osoby różnią między sobą (np. kobiety również różnią się wzrostem, są kobiety mają 162 cm i 198 cm). Zróżnicowanie wyników indywidualnych przejawia się poprzez różne odchylenia standardowe tej samej zmiennej (np. wzrostu) mierzonego oddzielnie dla dwóch grup. Wobec tego odejmowanie tylko i wyłącznie średnich arytmetycznych nie jest miarodajne.
Porównaj dwa poniższe rysunki. Obserwacje z grupy pierwszej są zaznaczone na niebiesko, obserwacje z grupy drugiej zaznaczone są na zielono. Czarną linią ciągłą zaznaczono średnie arytmetyczne, a dwukierunkowa strzałka to różnica między średnimi arytmetycznymi. Pierwszy rysunek pokazuje, że obserwacje nie zachodzą na siebie, ponieważ pomiędzy nimi jest jeszcze trochę przestrzeni. Grupy są rozdzielone. Żadna osoba z grupy niebieskiej nie uzyskała tak wysokiego wyniku, aby można było ją zaliczyć do grupy zielonej. I w drugą stronę, żadna osoby z grupy zielonej, nie uzyskała wyniku tak niskiego, który sięgnąłby do wyników grupy niebieskiej.
Na kolejnym rysunku dwukierunkowa strzałka jest tej samej długości, symbolizując tę samą wartość różnicy między średnimi. Jednak obserwacje z obu grup zachodzą na siebie. Są osoby z grupy niebieskiej, których wynik sięgnął wyżej niż kilka osób z grupy. Jest jedna osoba z grupy niebieskiej, której wynik jest wyższy niż średnia arytmetyczna grupy zielonej.
Gdyby nie kreski i kolory można byłoby uznać, ze w zasadzie obserwacje nie różnią się pod względem wyników. A więc analizując wyniki osób badanych rozdzielonych do dwóch kategorii, nierozsądnie byłoby pominąć zmienność tych wyników w obrębie każdej z grup. Zarówno test t-Studenta, jak i wielkość efektu uwzględnia i różnicę między średnimi, i rozproszenie.
O teście t-Studenta dla dwóch grup niezależnych
BADANIA KORELACYJNE CZY EKSPERYMENTALNE? — Test t-Studenta można zastosować do wyników pochodzących z badań zarówno eksperymentalnych, w których osoby badane przydzielasz losowo do jednej z dwóch grup (zwykle nazywanymi kontrolną i eksperymentalną), quasi-eksperymentalnych, w których wygląda tak, jakby zadziałał przypadek w dobieraniu osób badanych do warunku eksperymentalnego i kontrolnego (np. płeć), oraz korelacyjnych, w których nie manipulujesz żadną zmienną.
Ta uwaga wydaje się oczywiste, ale niektórych gnębi - zwłaszcza tych, którzy urodzili się przed I Wojną Światową, ponieważ dawno, dawno temu panował ścisły podział w metodach statystycznych wobec rodzaju badań. Badania korelacyjne analizowano za pomocą współczynników korelacji. Badania eksperymentalne - za pomocą testu t-Studenta lub rozszerzenia tego testu o nazwie ANOVA. Ten podział był podyktowany typem skal pomiarowych zmiennych, jakie produkowały badania. Korelacyjne produkowały zmienne ilościowe. Eksperymentalne - i jedne, i drugie. W ten sposób na wiele lat utrwalił się podział, że dane pochodzące z badań korelacyjnych analizujemy współczynnikami korelacji (tudzież regresją) a z eksperymentalnych - testem t-Studenta lub ANOVA.
Dzisiaj ta reguła straciła na aktualności. Co więcej, dane przecież nie wiedzą skąd pochodzą (tj. z jakiego typu badań), więc wszystko jest podyktowane potrzebą badacza.
NOMENKLATURA: CZYNNIK I ZMIENNA ZALEŻNA — W związku z charakterystycznym schematem badań, z jakim jest związany test t-Studenta, pojawia się specyficzna nomenklatura. Zmienna, która przydziela obserwacje do jednej z grup nazywa się czynnikiem. Grupy - czy też kategorie - tworzone przez czynniki zwane są poziomami czynnika. Zmienna, której średnie arytmetyczne porównujemy między kategoriami czynnika, nazywa się zmienną zależną. W ten sposób używamy frazy:"czynnik różnicujący średnie zmiennej zależnej", gdy mamy na myśli fakt, że osoby z różnych kategorii różnią się średnimi arytmetycznymi zmiennej, którą badamy.
MECHANIZM TESTOWANIA STATYSTYCZNEGO — Będąc jednym z klasycznych testów statystycznych przeprowadzanych w paradygmacie NHST, test t-Studenta posiada charakterystyczny schemat przepływu danych.
Punktem wyjścia - i okularami przez które patrzy się na cały proces - jest hipotezę zerowa o braku różnic międzygrupami. Ponieważ nie pracuje się na surowych danych, są one przetwarzane przez maszynkę zwaną statystyką testową t-Studenta do pojedynczej liczby zwanej wartością statystyki testowej. Wartościami tejże statystyki rządzi rozkład zwany rozkładem statystyki testowej. To on stanowi podstawę dalszych obliczeń. Polegają one na zadaniu pytania o to, jak typowa jest wartość uzyskanej statystyki testowej t a odpowiedź przychodzi w postaci p-wartości/istotności statystycznej. Na końcu, aby zabezpieczyć się przeciwko hurraoptymistycznym wnioskom wyciągniętym na podstawie istotności statystycznej, oblicza się miarę siłę zjawiska, tzw. wielkość efektu, którą w teście t-Studenta jest d-Cohena. To jest szybki skrót z posta o mechanice klasycznych testów statystycznych.
Hipoteza zerowa H0
W klasycznym testowaniu hipotez statystycznych, a dokładniej w podejściu NHST, każda hipoteza zerowa H0 przedstawia pewien szczególny model rzeczywistości. Jest to rzeczywistość, w której zmienne nie łączy żaden związek. W przypadku testu t-Studenta, hipoteza zerowa H0 mówi o tym, że wskazany przez badacza czynnik nie ma nic wspólnego z interesującą go zmienną zależną. Profesjonalnie mówiąc, czynnik nie różnicuje średnich zmiennej zależnej.
Skoro nie różnicuje, czyli średnie są takie same, to symboliczny zapis hipotezy zerowej H0 w teście t-Studenta przedstawia się następująco:
H0: μ1 = μ2
μ1 [czyt. mi jeden] to średni poziom cechy w pierwszej podpopulacji (w pierwszym poziomie czynnika);
μ2 [czyt. mi dwa] to średni poziom cechy w drugiej podpopulacji (w drugim poziomie czynnika).
Należy przy tym zwrócić uwagę na to, że w zapisie hipotezy zerowej H0 użyto greckich liter: μ1 i μ2, co pokazuje, że mamy do czynienia nie ze średnimi w próbach, a w populacjach.
Gdyby chodziło o badanie równości średnich w próbach, zapis hipotezy zerowej przybrałby taką postać: H0: x̄1 = x̄2, gdzie symbolami x z kreską, x̄, oznacza się średnie w próbach. Na chłopski rozum, testowanie hipotez w próbie to zbędne ceregiele - po co wytaczać całe testowanie hipotez, żeby stwierdzić, czy dwie średnie z dwóch prób są sobie równe lub różne? Przecież wystarczy porównać wartości średnich i wszystko stanie się jasne.
INTERPRETACJE HIPOTEZY ZEROWEJ H0 | Treść hipotezy zerowej można interpretować na co najmniej trzy różne, lecz pokrewne sposobów. Nie są to na tyle duże różnice, żeby każda z tych opcji mówiła zupełnie o czymś innym, ale na tyle różne, żeby pokazać różnorodność aspektów, na jakich można się skupić.
🔵 Po pierwsze można na hipotezę zerową patrzeć przez pryzmat średnich nasileń badanej cechy mierzonych w dwóch różnych kategoriach. Tu hipoteza zerowa H0 odnosi się do braku różnic między dwoma teoretycznymi średnimi, czyli średni poziom zmiennej zależnej (czyli danej cechy ilościowej) jest jednakowy w obu populacjach.
🔵 Po drugie, można skoncentrować się na relacji między zmiennymi, między czynnikiem i zmienną zależną i skoro czynnik oraz zmienna zależna są niezależne względem siebie, to treść hipotezy zerowej można rozumieć w następujący sposób: zmienna zależna nie reaguje na czynnik.
🔵 Po trzecie można przenieść uwagę na jednostki populacji, w tle pozostawiając cechę i kategorie. Wówczas możemy powiedzieć, że H0: dwie próby pochodzą z tego samego rozkładu. Nieważne, czy osoba badana jest w jednej, czy w drugiej populacji - średnie nasilenie cechy będzie miała takie samo.
CO JEST ISTOTNE STATYSTYCZNIE? RÓŻNICA W GRUPACH ... CZY W POPULACJACH? — Czasem skrótowo mówi się o istotności (statystycznej) średnich w dwóch grup, np. w tekście jest napisane:"analiza pokazała jedną istotnie statystyczną różnicę między kobietami a mężczyznami". Ten sposób formułowania wyników, sprawia, że bardzo łatwo pomyśleć, że szukamy przymiotnika określającego różnicę w średnich arytmetycznych między osobami w grupach. Tymczasem sprawa przedstawia się zupełnie inaczej.
Podczas weryfikacji hipotez statystycznych interesuje nas przede wszystkim populacja, a nie próba. Ta składająca się z dwóch grup próba służy jako środek do przeniesienia wniosku z próby na populację. Aby zauważyć niezerową różnicę między średnimi arytmetycznymi nie potrzeba żadnej weryfikacji hipotez. Jeśli średnia arytmetyczna n = 10 pomiarów wzrostu w grupie kobiet wynosi 168,2 cm a średnia arytmetyczna n = 10 pomiarów wzrostu w grupie mężczyzn wynosi 178,6 cm, to widzimy, że te średnie różnią się. Różnica między nimi wynosi 10,4 cm - kobiety i mężczyźni w tej dwudziestoosobowej próbie różnią się pod względem średnich wzrostu. Ale - może tak też jest i w całej populacji kobiet i mężczyzn? Aby przenieść wniosek o zróżnicowaniu wzrostu z próby na całą populację, wykorzystuje się weryfikację hipotez statystycznych.
Hipoteza alternatywna H1
W procedurze testowania istotności statystycznej hipotezy zerowej NHST hipoteza alternatywna H1 jest mgliście sformułowana i brzmi ~H0, czyli średni poziom badanej zmiennej nie jest równy. Tę nieprawdę-że-ha-zero można w teście t-Studenta można przedstawić w trzech odsłonach, której niżej omówimy.
1️⃣ H1: μ1 < μ2
Ten zapis wyraża taką myśl: średnie nasilenie badanej zmiennej jest niższe w pierwszym poziomie czynnika niż w drugim. Ponieważ znaczek nierówności jest dziubkiem skierowany w lewą stronę, to mówimy, że hipoteza jest lewostronna.
PRZYKŁAD | Gdybyśmy badali różnice międzypłciowe pod względem wzrostu a poziomy zmiennej Płeć zakodowali następująco: 1 = kobieta, 2 = mężczyzna, to wówczas taki zapis hipotezy alternatywnej H1 można byłoby odczytać w ten sposób: średnia Wzrostu u kobiet jest niższa niż u mężczyzn.
2️⃣ H1: μ1 ≠ μ2
W tym zapisie umieszczono brak równości średnich. Oznacza on nie tyle, że każda obserwacja z pierwszego poziomu czynnika jest inna od każdej obserwacji z drugiego poziomu czynnika, ale to, że średnio rzecz ujmując mamy do czynienia z różnymi nasileniami badanej zmiennej zależnej. Ponieważ między greckimi literami μ1 i μ2 znajduje się znak nierówności, to o tej hipotezie alternatywnej H1 mówimy, że jest obustronna.
PRZYKŁAD | Gdybyśmy badali różnice w inteligencji między kobietami a mężczyznami a poziomy zmiennej Płeć zakodowalibyśmy następująco:1 = kobieta, 2 = mężczyzna, to powyższy zapis hipotezy alternatywnej można byłoby odczytać następująco: średnia inteligencji u kobiet i u mężczyzn jest różna. Nie wiadomo, kto ma jej więcej, ale jest różna.
3️⃣ H1: μ1 > μ2
Trzecia opcja zapisu hipotezy alternatywnej H1 mówi o nierówności, ale w drugą stroną z kolei mówimy, że średnie nie są sobie równe.
Ponieważ znaczek nierówności jest dziubkiem skierowany w prawą stronę, to mówimy, że hipoteza jest prawostronna.
PRZYKŁAD | Gdybyśmy badali różnie w empatyczności między kobietami a mężcyznami a poziomy zmiennej Płeć zakodowali 1 = kobieta, 2 = mężczyzna, to ten symboliczny zapis hipotezy alternatywnej H1 oznaczałby, że średni poziom Empatii jest u kobiet wyższy niż u mężczyzn.
Wybór odpowiedniej hipotezy alternatywnej H1 - stosownie do przewidywanej zależności - jest bardzo ważny, ponieważ wpływa na ważny wskaźnik - na p-wartość (istotności statystycznej). Kierunek zależności wyrażony w hipotezie alternatywnej H1 przekłada się na tzw. stronę testu statystycznego. Np. lewostronnej hipotezie alternatywnej H1 odpowiada lewostronny test i lewostronnie obliczona p-wartość. Jeśli istnieją trzy wersje hipotezy alternatywnej (lewo-, prawo- i obustronna), to również istnieją trzy sposoby obliczenia p-wartości (lewo-, prawo- i obustronna). Oznacza to, że trzech badaczy przewidujący trzy różne formy zależności otrzyma trzy różne p-wartości.
➡️ W programie SPSS przez 27 wersji istniała tylko jedna p-wartość (tzw. obustronna, choć w programie tak tego nie nazywano). Od 28. wersji programu SPSS dołączono tzw. Jednostronne P i Dwustronne P, co nałożyło na badacza znajomość tych zagadnień. Niestety, połączenie lewostronnej i prawostronnej p-wartości w jedną zwaną wcale nie pomaga.
Założenia testu t-Studenta dla dwóch grup niezależnych
Jak się można domyślać, test statystyczny ruszy dopiero, gdy dane będą odpowiedniej jakości. Dane muszą spełniać kilka warunków, które dla wygody i łatwości zapamiętania warto pogrupować w trzy kategorie. Pierwsza kategoria warunków odnosi się do schematu badawczego. Druga - do pomiaru, tego jaki rodzaj wyników powstanie podczas badania i jakie operacje arytmetyczne będzie można na nich wykonać (tj. skale Stevensa, KLIK). Trzecia kategoria ma charakter probabilistyczny – od danych będziemy żądać pewnego kształtu rozkładów. Te warunki są potrzebne, abyśmy mogli zarówno wykonać test t-Studenta, jak również wyciągnąć poprawne wnioski na podstawie otrzymanych cyferek.
🔵 PIERWSZA KATEGORIA: NIEZALEŻNOŚĆ OBSERWACJI – Jak sama nazwa niezależność obserwacji to fakt po prostu niezależności obserwacji. Dwie obserwacje są niezależne, gdy posiadając jedną z nich, nie wiemy nic o drugiej.
Najłatwiej niezależność w schemacie międzygrupowym osiągnąć, przydzielając osoby badane do jednej z dwóch kategorii (czy jednego z dwóch poziomów) czynnika. Wówczas sprawa sprowadza się do ilości pomiarów dokonanych na osobach badanych. W teście t-Studenta dla dwóch grup niezależnych, osoby badane możemy badać raz - w obrębie ich własnej grupy.
Niezależność obserwacji może polegać na tym, że nie badamy osób z tej samej pary małżeńskiej - współdzielą przecież one informację.
WARIANTY TESTU t-STUDENTA | Istnienie trzech schematów badawczych (obserwacje niezależne vs. zależne) powoduje, że istnieją trzy warianty testu t-Studenta:
- dla jednej próby (one-sample t-test) – to taki wariant, w którym jest jedna grupa, której to średni poziom porównujesz do jakiegoś teoretycznego kryterium, np. czy średnie tętno seniorów wynosi 60 uderzeń na minutę.
- dla dwóch prób niezależnych (two sample t-test) – osoby badane są rozdzielone do dwóch grup i każda z nich jest badana tylko jeden raz, np. zbadano poziom uprzedzenia do wybranej mniejszości u osób mieszkających przy zachodniej i wschodniej granicy Polski.
- dla dwóch prób zależnych (paired data) – badani zostali poddani badaniu dwukrotnie, np. zbadano tętno przed i po treningu.
W tym poście omawiamy ten drugi typ testu t-Studenta, tj. test t-Studenta dla grup niezależnych.
🔵 DRUGA KATEGORIA: TYP POMIARU ZMIENNYCH— Mechanizm testu t-Studenta jest tak skonstruowany, aby badać dwie średnie. Chodzi o to, że wzór, który stanowi sedno tego testu, przyjmuje tylko średnie, odchylenia standardowe i liczebności obu próg. Dane powinny być rozdzielone na dwie kategorie, zaś wybrana cecha powinna umożliwiać obliczanie średniej arytmetycznej na swoich wartościach. Wobec tego, jedna zmienna powinna być jakościowa, a druga - ilościowa. Według skal Stevensa: zmienna, która grupuje osoby badane, powinna być nominalna lub porządkowa - zawsze o dwóch kategoriach.
Test t-Studenta nie obsłuży takich danych, w których obie zmienne są jakościowe. Nie da rady nim badać związków między płcią a ręcznością (tj. dominującą stroną ciała, tu raczej zastosujemy test chi-kwadrat). Zmienna zależna tym razem musi dać możliwość policzenia średniej na jej wartościach. Co oznacza, że jeśli pamiętasz skale Stevensa, to musi być zmienną mierzoną na skali interwałowej albo na skali ilorazowej.
✅ Zobaczmy kilka przykładów badań, gdzie test t-Studenta jest użyteczny:
- czy poziom inteligencji emocjonalnej różni się między kobietami i mężczyznami?
- czy nasilenie ekstrawersji wśród aktorów i osób wykonujących zawód bibliotekarza?
- czy deprywacja kontroli (kontrola lub jej brak) prowadzi do ruminacji?
- czy aktywizacja wizerunku rodzica (aktywizacja lub jej brak) ma wpływ na odraczanie gratyfikacji wśród dzieci?
Dwa pierwsze przykłady to schematy quasieksperymentalne, dwa ostatnie – eksperymentalne, w każdym z nich mamy tylko dwie grupy: wyznaczoną przez płeć, przez typ zawodów oraz kontrolną i eksperymentalną.
❌ Test t-Studenta NIE nadaje się do:
- porównań między więcej niż trzema grupami (idź do: ANOVA)
- sprawdzenia zależności między płcią i stopniem upośledzenia (zmienna nominalna + zmienna porządkowa)
- sprawdzenia czy występuje związek między płcią a zaburzeniem np. czy kobiety częściej występuje schizofrenia (zmienna nominalna + zmienna nominalna)
- związek między samooceną a narcyzmem (zmienna przedziałowa+zmienna przedziałowa)
🔵 TRZECIA KATEGORIA: WYMAGANIA PROBABILISTYCZNE — Ten typ wymogów odnosi się do rozkładu badanej zmiennej, czyli do tego jakim prawem mają się rządzić szanse występowania poszczególnych wartości zmiennej. Dlaczego jest to ważne? Testy statystyczne wykorzystują dane w pośredni sposób – przekształcając je do pojedynczej liczby zwanej wartością statystyki testowej. Statystyka testowa ma również rozkład swoich wartości – jedne zdarzają się częściej, a inne rzadziej. Ten rozkład jest kluczowy, ponieważ to na jego podstawie wyciągamy poprawne wnioski. Dzięki różnym dowodom z dziedziny statystyki wiemy, że ma on pożądaną postać tylko wtedy, gdy dane pochodzą z konkretnego rozkładu. W przypadku testu t-Studenta muszą spełniać trzecią kategorię założeń: normalność rozkładu oraz homogeniczność wariancji zmiennej zależnej.
NORMALNOŚĆ ROZKŁADU cechy w obu poziomach czynnika. Żądamy, aby w jednej i w drugiej grupie, wartości badanej cechy pojawiały się zgodnie z rozkładem normalnym, aby były zbliżone do rozkładu normalnego. Chcemy zobaczyć coś takiego:
Żądanie normalności rozkładu badanej cechy to bardzo mocne żądanie – biorąc pod uwagę fakt, że rozkład normalny w badaniach psychologicznych nie jest często spotykany. Trudno oczekiwać, żeby każda badana cecha miała rozkład normalny, bo przecież test t-Studenta jest najpopularniejszym testem. Musi być jakiś sposób na to, że móc go wykonać, nawet jeśli rozkład cechy nie jest normalny. Z pomocą przychodzi Centralne Twierdzenie Graniczne.
Tak naprawdę, mechanizm testu t-Studenta potrzebuje normalności rozkładu statystyki testowej, a nie tego, aby sama cecha miała rozkład normalny. Jeśli wiesz, że badana cecha ma w populacji rozkład normalny, to nie ma najmniejszych obaw - statystyka testowa test t-Studenta ma rozkład dokładnie taki powinna mieć, aby analizy były rzetelne. Jeśli ten rozkład cechy nie jest normalny, to dzięki Centralnemu Twierdzeniu Granicznego i przy dostatecznie dużej liczebności próby można postępować tak, jakby statystyka testowa posiadała pożądany rozkład normalny i procedować z analizami. Oczywiście, zawsze pozostaje pytanie, jak duża próba jest duża, ale to już zupełnie inna para kaloszy.
DIAGNOSTYKA NORMALNOŚCI ROZKŁADU - Jest pięć podstawowych charakterystyk potrzebnych do sprawdzenia, czy dany rozkład jest rozkładem normalnym: skośność, kurtoza, boxplot, qqplot, histogram.
Jeśli chcesz dowiedzieć się, jak diagnozować normalność tymi metodami, zajrzyj do posta pt. Diagnostyka normalności: KLIK
Gdy już wiemy, że wartości zmiennej zależnej pojawiają się zgodnie z prawem zwanym rozkładem normalnym, przechodzimy do ostatniej kwestii wyznaczającej ich dobroć do zastosowania testu - do czegoś, co w żargonie statystycznym nazywa się homogenicznością wariancji lub jednorodnością wariancji zmiennej zależnej.
HOMOGENICZNOŚĆ (JEDNORODNOŚĆ) WARIANCJI zmiennej zależnej — To własność charakteryzująca co najmniej dwa zestawy danych. Polega ona na zbliżonym stopniu rozproszenia zmiennej zależnej między poziomami czynnika. Zależy nam na tym, aby dane posiadały zbliżony stopień rozproszenia, ponieważ gwarantuje to nam, że kategorie czynnika będą różnić się co najwyżej średnim nasileniem cechy, a nie jeszcze dodatkowymi aspektami. W ten sposób zapewniony będzie kanon jednej różnicy, co znacznie ułatwia interpretację.
W tym schemacie badawczym jesteśmy zainteresowani różnicą (lub jej brakiem) średnich nasileń zmiennej zależnej. Jeśli dodamy do tego różne rozproszenia, może się okazać, że porównujemy jabłka z gruszkami.
Jak badać homogeniczność wariancji? Oczywiście nie oczekujemy, że zobaczymy dwie kolumny w bazie będą miały te same wartości. Że jeśli w jednej kategorii mamy pięć osób o wyniku równym 4,55 to i w drugiej kategorii będzie tyle samo osób o tym samym wyniku. Zależy nam na średnim stopniu rozproszenia i w tym celu świetnie sprawdza się miara zwana odchyleniem standardowym. Odchylenie standardowe oznaczane literą s lub skrótem SD od angielskiego standard deviation mierzy średni stopień odchylenia wartości od średniej arytmetycznej. W ten sposób mając dwa odchylenia standardowe o tej samej wartości, np. s1 = 3,97 i s2 = 3,97 nie oczekujemy jednakowych wyników w bazie, ale tego samego stopnia rozproszenia względem średniej arytmetycznej.
Szkopuł w tym, że w próbach identyczne odchylenia standardowe równe sobie, s1 = s2, spotykane są niezmiernie rzadko. Przecież mamy do czynienia ze zjawiskami losowymi, przez co trudno liczyć na równość odchyleń standardowych. Nawet trudno żądać identycznego wyniku do piątego miejsca po przecinku. Musimy się zatem wykazać pewną dozą elastyczności w ocenie jednorodności wariancji. Innymi słowy, kiedy możemy przejść do porządku dziennego nad niezerową różnicą między odchyleniami standardowymi. Za to musimy wiedzieć, kiedy jest to problem? Kiedy jesteśmy elastyczni, a kiedy powinniśmy pożegnać się z homogenicznością wariancji?
Mamy tutaj dwie ścieżki postępowania w ocenie jednorodności wariancji: wiodą one albo poprzez oglądanie miar rozproszenia, albo poprzez wykonanie kolejnego test istotności statystycznej. SPSS, niestety, promuje pewne zachowania, które nie są do końca są dobre (tzw. testoza, czyli testuj wszystko, co możesz).
SPOSÓB 1 [REGUŁA KCIUKA] — Pierwszy sposób badania homogeniczności wariancji wykorzystuje statystyki opisowych - dokładnie miary rozproszenia, jakimi są odchylenia standardowe. Badanie polega na podzieleniu wyższego odchylenia standardowego przez mniejsze. Aby uznać, że homogeniczność wariancji została zachowana, iloraz musi być niższy niż 2. W ten sposób niemal palpacyjnie oceniasz, czy stopień rozproszenia wyników w obu grupach jest zbliżony.
Jeśli odchylenie standardowe w pierwszym poziomie czynnika wynosi wynosi s1 = 2,75, zaś w drugim poziomie czynnika wynosi s2 = 1,25, to iloraz odchyleń standardowych jest wyższy od dwóch, 2.75/1.25 > 2 i wówczas trudno uznać jednorodność wariancji.
SPOSÓB 2 [TEST STATYSTYCZNY] — Drugi sposób to klasyczne testy statystyczne. Są co najmniej dwa testy homogeniczności wariancji: Levene'a i Bartletta. SPSS w teście t-Studenta dla dwóch grup podaje tylko ten pierwszy a zastrzeżeniach poczytasz niżej w kolorowej ramce. Oba z tych testów mają tą samą hipotezę zerową H0: σ1 = σ2. Symbol σ (czyt. sigma) oznacza wariancję zmiennej zależnej w jednej z populacji. W ten sposób ta hipoteza zerowa sygnalizuje, że żąda równości rozproszeń w populacji. Mówi ona mniej więcej tyle: - "nie obchodzi mnie to, że w zebranych danych odchylenia standardowe są różne. Ważne, żeby w populacjach były tożsame." Stosując tę ścieżkę postępowania, badaczowi zależy, aby zobaczyć wynik nieistotny statystycznie, np. p = 0,451.
Problem z testem Levene’a czy Bartletta jest taki sam jak ze wszystkimi testami istotności statystycznej – nie kontrolując liczebności próby, nie za bardzo wiadomo, co istotność lub nieistotność statystyczna tak naprawdę oznacza. Brakuje tu czegoś, co pozwoliłoby ocenić ocenić, czy istotny statystycznie wynik testu Levene’a naprawdę pokazuje różne wariancje. Ponadto, takie wielokrotne testowanie wzmacnia testozę wśród badaczy, czyli tendencję do testowania wszystkiego, co się da, byleby nie podjąć własnej decyzji. SPSS jest mistrzem w promowaniu takiego zachowania, ponieważ z tabelek wyświetlanych przez program w outpucie mamy jedynie wynik testu statystycznego i p-wartość. Dzięki temu bardzo trudno jest zapisać wynik testu. Do poprawnego zapisu potrzebujemy jeszcze stopni swobody (degrees of freedom), a nigdzie ich nie ma. |
Po spełnieniu wszystkich założeń testu t-Studenta (również tych superrestrykcyjnych z normalnością rozkładu badanej cechy w obu poziomach czynnika) otrzymujemy obraz danych, które w teorii wyglądają mniej więcej tak, jak na poniższym rysunku. Są to dane pochodzące z dwóch rozkładów normalnych o tym samym stopniu rozciągnięcia ramion. Zadaniem badacza jest sprawdzić, który z tych modeli jest bliższy rzeczywistości. Czy model hipotezy zerowej, gdzie dane pochodzą z tego samego rozkładu (tej samej populacji) - krzywe pokrywają się. Czy z dwóch populacji, które różnią się jedynie przesunięciem szczytu względem na osi poziomej OX. W rozkładzie normalnym szczyt znajduje się nad średnią, stąd test t-Studenta dotyczy średnich.
Statystyka testowa testu t-Studenta
W klasycznym testowaniu hipotez, nie pracujemy na surowych danych. Wędrują one wraz z hipotezą zerową do maszynki zwanej statystyką testową, która - technicznie rzecz ujmując - jest po prostu wzorem matematycznym, który sprowadza dane do pojedynczej liczby zwanej wartością statystyki testowej t. W teście t-Studenta, który zajmuje się dwoma grupami, ten wzór można opisać krótko jako studentyzowaną różnicę między średnimi arytmetycznymi, czyli różnicę między średnimi podzieloną przez jej błąd standardowy.
Na postać mianownika wpływa równoliczność grup i równość wariancji. Zatem licznik pozostaje takie sam, a mianownik zmienia się w zależności od okoliczności.
Poniższy wzór to jeden ze wzorów na statystykę testową testu t-Studenta: grupy są równoliczne, zaś wariancja jest homogeniczna.
WARTOŚĆ STATYSTYKI TESTOWEJ t-STUDENTA | Jest to pojedyncza liczba, do której przekształcono surowe dane. Przyjrzymy się trochę tej statystyce. Możliwe wartości, jakie t może przyjąć, rozciągają się od minus nieskończoności do plus nieskończoności. Oznacza to, że w tabeli zawierającej wyniki analiz testu t-Studenta możecie zobaczyć zarówno niską wartość - albo dużą. Ujemną lub dodatnią. Czasami można nawet zobaczyć zero.
Dzieje się tak, gdy średnie arytmetyczna zmiennej zależnej są identyczne. Zauważ, że we wzorze na statystykę testową - w jej liczniku - znajduje się różnicę między nimi. Jeśli średnie arytmetyczne w obu grupach są blisko siebie, to i wartość statystyki testowej będzie mała. Im bardziej się od siebie różnią, tym ta wartość t jest większa.
CO ZNACZY t = 3,045? | Wartość statystyki testowej testu t-Studenta nie jest po prostu jakąś tam sobie liczbą, która nic nie mówi. Zauważ, że jest agregatem informacji wydobytych z surowych danych. Umiejętność odczytania jej wartości jest pomocna w zrozumieniu tego, co się dzieje w analizach.
Niech punktem wyjścia będzie spostrzeżenie, że zerowa jej wartość, czyli t = 0, pojawia się w chwili, w której średnie arytmetyczne w obu grupach są równe. Na przykła:, średnie nasilenie empatii u kobiet jest takie samo jak u mężczyzn - albo: średnie IQ między kobietami a mężczyznami są jednakowe.
Wyobraźmy sobie taką sytuację, w której czynnik nie działa na zmienną zależną (np. nie ma międzypłciowych różnic w empatii). Gdyby - uwaga! Używam tu trybu przypuszczającego - gdyby nie było różnic między jednymi a drugimi, wartość statystyki testowej t powinna w badaniu wyjść zero - niezależnie od tego, na jaką próbę badacz trafi. Powinna, ale rzadko trafia się. Dlaczego?
Niestety (a może i "stety"), w rzeczywistym świecie, trzeba wziąć pod uwagę tzw. losowe fluktuacje. A to osoba badana nie dosłyszała o co chodzi, a to zagapiła się, a to nie wyspała - powodów jest mnóstwo. Narzędzia pomiarowe nie są doskonałe, zawsze trafią się jakieś zafałszowania. To bezpośrednio przekłada się na surowy wynik osoby badanej, co w dalszej kolejności pociąga za sobą to, że ta wartość statystyki t nie będzie równa zero - mimo, że przecież miało nie być różnic. Innymi słowy, nawet gdy nie ma różnic między średnimi w populacji, to w próbie sprawy będą przecież wyglądać nieco inaczej. Wobec tego, należy wykazać się pewną elastycznością. Wokół zera istnieje mały przedział wartości statystyki testowej t, które zwiastują brak wpływu czynnika na zmienną zależną (mimo, że nie są dokładnie równe zero).
Przedział sięga od -1 do 1. Jeśli wartość statystyki t wpadnie w ten przedział, to najczęściej zobaczysz wynik nieistotny statystycznie, p wyższe od 0,05 (np. p = 0,072) oraz niezbyt zachwycającą siłę efektu. Piszę najczęściej, ponieważ testy statystyczne są bardzo wrażliwe na wielkość próby. W małych próbach, np. gdy N = 10, nawet czynnik który teoretycznie powininen różnicować średnie (jak ta płeć wobec empatii), wypadnie bardzo blado.
Nie pytajcie, czy znajdująca się na granicy przedziału wartość t = 1,00 (lub analogicznie t = -1,00) to już zły znak. W statystyce ciężko o jednoznaczną odpowiedź. Co najwyżej mogę powiedzieć, że gdy t = 1 to najczęściej oznacza to kłopot. W statystyce wszystkie krawędzie są nieostre (nawet te, które zdają się być jasno wyznaczone).
O ile przedział [-1,1] jest problematyczny, o tyle wartości już spoza tego przedziału wskazują, że czynnik będzie różnicować średnie zmiennej zależnej. Oczywiście, im dalej od krawędzi - tym lepiej. Oprócz tego, czy wartość statystyki testowej w badaniu wypadła poza przedział [-1,1], ważne jest to, czy jest po jego lewej stronie, czy po prawiej. Znak statystyki testowej t mówi o tym, który poziom czynnika (która grupa) ma wyższą średnią.
Pamiętajmy, że wartość statystyki testowej t-Studenta zależy od różnicy między średnimi arytmetycznymi. Różnica to ta operacja arytmetyczna, w której ważna jest kolejność. Od średniej arytmetycznej z pierwszego poziomu czynnika jest odejmowana średnia arytmetyczna z drugiego poziomu czynnika. Jeśli od czegoś mniejszego odejmiemy coś większego (np. 3 - 10), to rezultat wyjdzie ujemny. Jeśli od czegoś większego odejmiemy coś mniejszego (np. 10 - 3), to rezultat wyjdzie dodatni. To jest ważne o tyle, gdy dane przeczą postawionej hipotezie badawczej.
Hipoteza badawcza przewiduje, że średnie nasilenie empatii jest wyższe u kobiet niż u mężczyzn, tymczasem trafia się specyficzna próba złożona z pielęgniarzy i maklerek, gdzie ta zależność odwraca się. Z góry przepraszam za aktywację stereotypów, ale mam nadzieję, że wiecie o co chodzi. Znak statystyki testowej jest naszym bezpiecznikiem - o ile pamiętasz, który poziom czynnika był tym pierwszym, a który drugim.
Podsumowując, przykładowa wartość statystyki testowej t = 3,019 jest tą wartością statystyki testowej t-Studenta, która pokazuje, że średnie zmiennej zależnej są różne w obrębie poziomów czynnika. Można spodziewać się istotności statystycznej a także niezbyt małej wielkości efektu. Dodatni znak tej wartości oznacza, że wyższym średnim nasileniem badanej zmiennej (cokolwiek nią jest) charakteryzują się osoby z pierwszego poziomu czynnika niż osoby z drugiego poziomu.
Mimo tego, że wartość statystyki testowej niesie sporo informacji, to na jej obejrzeniu analiza danych nie kończy się. Teraz trzeba ocenić, jak typowa jest otrzymana wartość statystyki testowej. Ponieważ dane są losowe (czyt. przed przeprowadzeniem badania nie wiemy, jakie otrzymamy), to ta losowość przenosi się na wartości statystyki testowej - one też są losowe. Przed zebraniem danych, a i przed rozpoczęciem analiz, nie wiemy jaką wartość otrzymamy. Czy będzie to -1,45 czy może 257,87. Część z nich jest częstsza, a część z nich - rzadsza lub ekstremalnie rzadko spotykana. To z kolei oznacza, że należy odwołać się do rozkładu statystyki testowej.
Rozkład (wartości) statystyki testowej testu t-Studenta
Pamiętaj, że każdy klasyczny test statystyczny ma wbudowany rozkład wartości statystyki testowej. Choć jest to tylko matematyczny, abstrakcyjny twór, który odstrasza wielu początkujących badaczy, opowiada on pewną historię o wartościach statystyki testowej. Roztacza on wizję tego, jak wyglądałby świat, w którym Twoje zmienne nie miałyby ze sobą żadnego związku. Jak to byłoby, gdyby czynnik nie miał żadnego znaczenia dla badanej zmiennej zależnej? Powiesz, że wówczas średnie arytmetyczne powinny być sobie ku sobie zbliżone a wartość statystyki testowej t bliska zeru. Spójrz więc na ten rysunek - szczyt rozkładu znajduje się nad zerem. Im dalej od tego miejsca, tym coraz rzadziej spotykane są wartości. Tak właśnie rozkład opowiada o tym, co dzieje się z wartościami testu (dokładniej: wartościami statystyki testowej).
W teście t-Studenta ten rozkład jest precyzyjnie określonym rozkładem t-Studenta posiadającym tylko jeden parametr zwany stopniami swobody (ang. df, degrees of freedom), a ten z kolei jest uzależniony od liczby osób biorących udział w badaniu, df = N - 1, gdzie N to liczba osób badanych. Ten rozkład stanowi podstawę obliczenia p-wartości (ang. p-value) zwanej istotnością statystyczną (ang. statistical significance).
Porozmawiajmy o konkretach. W konkretnym badaniu, konkretny badacz otrzymuje konkretną wartość statystyki testowej. Dalej musi ocenić, jak częsty jest to wynik w pewnej szczególnej sytuacji - w sytuacji, w której hipoteza zerowa o braku różnic międzygrupowych jest prawdziwa. Zadajemy zatem pytanie, czy otrzymany przez nas wynik jest typowy lub nie, jeśli obie próby pochodzą z tej samej populacji. Odpowiedź na to pytanie otrzymujemy w kategoriach prawdopodobieństwa i nazywamy ją albo p-wartością lub istotnością statystyczną. Więcej na temat p-wartości/istotności statystycznej znajdziesz w osobnym poście KLIK Dowiesz się również z niego, że tak naprawdę odpowiadamy na pytanie o to, jak bardzo prawdopodobna jest uzyskana wartość statystyki testowej - i jeszcze większa.
Wielkość efektu d-Cohena
WIELKOŚĆ EFEKTU - Wielkość efektu to krótko mówiąc, miara siły zjawiska. W schematach międzygrupowych, gdy porównujemy średnie nasilenia zmiennej zależnej pomiędzy kategoriami czynnika, mówi ona jak bardzo czynnik różnicuje średnie. Ponieważ wynik istotny statystycznie może być wynikiem nieistotnym praktycznie, to do oceny siły związku między zmiennymi stosujemy wielkość efektu. Wielkość efektu jest miarą siły zjawiska i w przypadku porównań między dwiema grupami oznacza ona to, jak bardzo średnie badanej cechy różnią się od siebie. Więcej na ten temat znajdziesz w poście o wielkości efektu KLIK
Warto też powiedzieć, że żeby obejrzeć wielkość efektu w jakimkolwiek badaniu, nie trzeba jednoczęsnie korzystać z testów istotności statystycznej. Test t-Studenta i wielkość efektu to dwie różne rzeczy. |
MIANOWNIK ZWANY STANDARYZATOREM — Skoro różnica między średnimi nie wystarcza do oceny siły zależności, to należy ją podzielić przez jakiś mianownik. Co można włożyć do owego mianownika? Można na przykład zmierzyć wariancję wszystkich wyników bez dzielenia ich na dwie kategorie. Ale takie postępowanie powoduje, że nagle wszystkie wyniki odnosimy do ich ogólnej średniej, a zatem dla jednej i dla drugiej zmieniamy poziom odniesienia, jakim do tej pory była średnia arytmetyczna w danej grupie. Zatem takie postępowanie nie jest dobre.
MIANOWNIK: POŁĄCZONA WARIANCJA [d-COHENA] — W takim razie można spróbować czegoś, co nazywa się wariancją połączoną (ang. pooled variance). Najprościej rzecz ujmując - uśredniamy wariancje i to jest właśnie wielkość efektu d Cohena. Litera d w nazwie tej miary pochodzi od angielskiego słowa difference, oznaczającego różnicę. Dzięki temu, wyniki odnoszone są do swoich własnych średnich arytmetycznych, a my mamy uchwyconą zmienność wyników w obu grupach.
WIELKOŚĆ EFEKTU d-COHENA — Jest to tzw. standaryzowana różnica między średnimi. Tu standaryzacja oznacza podzielenie różnicy między średnimi arytmetycznymi przez rozproszenie wyników bez względu na to, do jakiej grupy należą.
MIANOWNIK: WARIANCJA W GRUPIE KONTROLNEJ [delta Glassa] — technicznie rzecz biorąc, jest to metoda najprostsza. Polega na włożeniu do mianownika zmienności jednej z grupy: tej, która ma być grupą odniesienia. To postępowanie ma sens, gdyby badacza interesowało zestawianie grup i w przypadku badań eksperymentalnych to ma sens. Jedna z nich jest kontrolna, a druga – eksperymentalna, więc siłą rzeczy różnicę między średnimi arytmetycznymi odnosi się do grupy kontrolnej, a dokładniej: względem zmienności wyników w tej grupie. Zatem dla wielkości efektu delta Glassa w mianowniku znajduje się zwykle odchylenie standardowe s jednej z grup.
Wybierając jedną z wielkości efektu, otrzymujemy pojedynczą liczbę (zwaną wartością wielkości efektu d-Cohena/delty Glassa). To może być d = -0,33 albo d = 1,25.
ROZMIARÓWKA —
Mała wielkość efektu to te wartości, które zaczynają się od |0.20|.
Umiarkowana wielkość efektu to te wartości, które przekraczają |0.50|.
Duża wielkość efektu to ta powyżej |0.80|.
DODATKOWE INFORMACJE — Jakie wartości mogą przybierać wyniki wzorów na wielkości efektu d Cohena czy delta Glassa? Poniższe własności wynikają wprost z tych wzorów. W liczniku znajduje się różnica między średnimi, zaś w mianowniku pierwiastek. Skoro pierwiastek może być tylko dodatni, to jedynym co ogranicza to różnica w odejmowaniu. A zatem - pełna dowolność.
- Wielkości efektu osiągają wyniki zarówno ujemne, jak i dodatnie..
- W zasadzie nie są niczym ograniczone: wielkość efektu d Cohena czy delta Glassa mogą wynosi -5,23 albo +3,26
16 komentarzy:
Świetne opracowanie. Bardzo praktyczne i przystępnym językiem pisane. Czytam dalej.
Cześć, kinomyszka! Bardzo dziękuję za miłe słowa :-) i oczywiście polecam czytanie dalej. W końcu - jakby na to nie patrzeć - po to to piszę :-)
Hej
Jak odniesiesz się do tego, że założeniem testu t Studenta (jak i anovy lub innych metod parametrycznych) wcale nie jest normalność rozkładu mierzonej zmiennej w zbadanej grupie? Z tego co piszą wszyscy, którzy nie chcą upraszczać tematu. W teście t Studenta dla prób niezależnych to chyba rozkład średniej z próby powinien być zbliżony do normalnego, prawda?
Wiecej na ten temat:
1. https://www.researchgate.net/publication/299497976_Silly_or_Pointless_Things_People_Do_When_Analyzing_Data_1_Testing_for_Normality_as_a_Precursor_to_a_t-test
2. http://www2.psychology.uiowa.edu/faculty/mordkoff/GradStats/part%201/I.07%20normal.pdf
3. Znana Ci zapewne książka Fielda
4. wiele wiele więcej :)
Czy pisanie w podręcznikach (i na tym blogu), że to zmienna powinna mieć rozkład normalny nie jest po prostu uproszczeniem? Uczono mnie np. na zajęciach z testu t Studenta dla prób zależnych, że oba pomiary powinny mieć rozkład zgodny z normalnym co znów jest nieprawdą bo to różnica między pomiarami powinna mieć rozkład normalny. Tylko gdzie? W mojej próbie? W populacji? Czy znów mowa o rozkładzie z próby?
Teresa
I jeszcze do ANOVA. Jest to model liniowy jak regresja więc tak jak regresja założenie normalności rozkładu dotyczy reszt a nie zmiennej zależnej. Jedno piszą tak a inni inaczej i jestem bardzo confused. Proszę o wyjaśnienie.
Dzień dobry, Tereso,
Dziękuję też za linki, to oczywiście nie są jedyne materiały o owczym pędzie do normalności. Nie piszę z książki Andy'ego Fielda, bo z wieloma rzeczami, które są tam przedstawione po prostu nie zgadzam się. Ale tak, jest mi znana.
Pisząc posta o teście t-Studenta miałam do wyboru:
a) napisać superobszerny i esktrawyczerpujący post, który siłą rzeczy wyszedłby dla zaawansowanych, a potrzebowałam napisać post dla studentów. Psychologii.
b) napisać krótki test, wprowadzający, podający najlepszą możliwą wiedzę, a post o teście t-Studenta 2.0 zostawić na później. Znów, siłą rzeczy musiałam zgodzić się na pewne uproszczenia.
Po przemyśleniu spraw i wyważeniu plusów i minusów zdecydowałam się na opcję b. Opcję (a) zostawiłam na czas pisania doktoratu z metod statystycznych - wówczas zamieszczę post 2.0. Wierz mi, że nie jest to najprzyjemniejszy dla mnie kompromis.
Dawno temu, mój post o teście t-Studenta zawierał informację, o której piszesz, że de facto jest nam potrzebna normalność rozkładu średnich. Co oczywiście rodzi kolejne problemy (i tak dalej - zobacz, że z postu o teście t-Studenta zrobiłby się post naszpikowany dygresjami, bo niestety temat ten jest bardziej złożony). A potem czytając własne posty doszłam do wniosku, że to od razu z grubej rury, a nie było jeszcze nawet nie ma odniesienia do jakiejś podstrony, która tłumaczyłaby koncept "rozkład średnich". Może rzeczywiście, dla osób już znających temat, jakąś myślą jest to, żeby w poście umieścić taką adnotację o normalności zmiennej zależnej i że to nie jest takie proste. W tym momencie - wielkie dzięki za sugestię.
Na pewno żądanie od danych, żeby były normalne jest najbezpieczniejszą kwestią (suma normalnych jest normalna), bo inaczej przechodzimy do już aproksymacji - i tutaj ja, jako osoba stojąca za blogiem, mam zawsze ten sam dylemat: jak głęboko grzebnąć w temacie. Poruszasz temat ANOVA oraz reszt - ale ja jeszcze na blogu nie mam chyba ani słowa o resztach. Chwała Ci za to, że masz taką wiedzę, ja muszę jeszcze trochę myśleć o studencie psychologii, który dopiero zaczął kurs ze statystyki i nie mogę od razu zwikipediować tekstu. Tak to wygląda z mojej strony.
Dzięki za obszerny komentarz (takie są właśnie fajne), a dzięki Twojemu też mam szansę przedstawić proces tworzenia postów niejako od kuchni i podejmowania czasami trudnych decyzji.
Wszystko rozumiem tylko ja miałam inny cel. Nie chciałam pokazać, że coś jest nie tak prosząc o wyjaśnienie (choć w sumie tak zaczęłam pierwszy komentarz :)) tylko pytam specjalistkę CO POWINNO MIEĆ ROZKŁAD NORMALNY. Pomijając fakt, że nic nie musi wcale mieć rozkładu normalnego bo od niego nie zależy jakość wyników statystyki testowej a od innych czynników. Jestem studentką psychologii i jako taka właśnie zadaję pytanie :)
Np. przy teście t Studenta lub ANOVA. Kształt rozkładu jak najbardziej zbliżony do normalnego powinien mieć:
1. rozkład średniej z próby
2. zmienna zależna w badanej grupie (w obu czy trzech porównywanych podgrupach)
3. różnica między średnimi
4. zmienna zależna w populacji
5. reszty
6. inne
Dzięki!
Dziękuję za słowa uznania (specjalistka:) - wiem, że nic nie wiem:) Postaram się odpowiedzieć najlepiej jak mogę: odpowiedź (1) - ale ja bym powiedziała "rozkład średnich" oraz (5). I na dodatek: średnia różnic (ani jak wspomniałaś: same pomiary, ani proste różnice między nimi). Pewnie to wszystko wymagałoby jakiegoś dłuższego posta.
Jeśli chodzi o jakąkolwiek regresję liniową, to rozkład normalny mają mieć reszty, a nie zmienna zależna - według mojego pojęcia tego, co robimy, ale widziałam już w podręcznikach to mocne założenie o normalności rozkładu zależnej.
Na koniec, poprosiłabym Cię - jeśli oczywiście masz czas - o rozwinięcie tego zdania:"Pomijając fakt, że nic nie musi wcale mieć rozkładu normalnego bo od niego nie zależy jakość wyników statystyki testowej a od innych czynników." Wydaje się być bardzo skondensowane i jestem ciekawa, co masz na myśli :-)
W tym zdaniu mam na myśli to co napisane jest we wszystkich artykułach świata (które chyba niechcący przeczytałam :)) z których wynika, że oczywiście rozkład zmiennej ma znaczenie, ale absolutnie nie musi być normalny by wartość p działała (btw. powielasz na blogu językowego potwora w postaci "p wartość" zamiast pisać "wartość p"). Także artykuły jak ten Micceriego o porównaniu p value do jednorożca. No i oczywiście te, które pokazują, że w sumie to jaki by nie był rozkład zmiennej to przy dostatecznie dużych próbach naprawdę test t Studenta działa dobrze. Dopóki np. średnia jest faktycznie dobrą MTC (powiedzmy, że dopóki nie ma outlierów?). Mimo wszystko też czuję, że im więcej czytam tym mniej wiem. Znajomy dziś zadał podobne pytane na cross validated, które pewnie dobrze znasz i uzyskał bardzo "złą" odpowiedź brzmiącą "bywa różnie, kwadratowo i podłużnie"
"You seem to be looking for a simple answer to a simple question, but few simple questions in statistics do have simple answers: there is always a conditional "it depends" prefixed to them. A good analogy would be a question about medicine: it would be fair to ask "what should I do when I think I have a cold," but a real answer would have to inquire about you, your symptoms, your medical history, and so on. Statistical problems are no less individual and complex"
Wracając do tematu. Dlaczego "wszyscy" w swoich podręcznikach piszą, że to rozkład zmiennej w porównywanych grupach powinien mieć rozkład normalny skoro nie jest to prawdą?
Dlaczego "wszyscy" piszą? Nie umiem odpowiedzieć za motywację wszystkich, wyjaśnienie mojej znajduje się w komentarzu wyżej :-) Ale możemy sobie podywagować, jak to psychologowie, dlaczego tak się dzieje. Może dzieje się to z tego samego powodu, dla którego wszyscy w podstawówce uczymy się, żeby przechodzić tylko w wyznaczonych miejscach na zielonym, a potem jakoś tak inaczej dzieje się... Albo uczymy się, że jest Pluton to planeta, a bodajże od 10 lat już nią nie jest. Może dlatego, że najpierw na sztywno uczymy się, żeby coś robić, a potem pojawiają się wyjątki, które z czasem spychają ogólną regułę do narożnika. A może ci "wszyscy" piszą tak, bo nie wiedzą i trzeba ich dokształcić.
Ja po przemyśleniu postanowiłam, że umieszczę w ciągu najbliższego czasu adnotację do postu 2.0., bo może faktycznie bez uprzedzenia za duże uproszczenie jest w moim tekście.
Natomiast piszesz, że powielam językowego potworka w postaci p-wartości. Hmm. Ja na tę kalkę językową przestałam zwracać uwagę, ale dopóki nie podasz mi jakichś dobrych argumentów (o co Cię w tym momencie proszę), to to pozostaje tylko Twoją opinią.
Bardzo Ci dziękuję za odpowiedź.
Jeśli chodzi o p-value to niestety nie mam mocniejszych argumentów niż te które wymienię poniżej. Może Cię to przekona, a może nie ale dla mnie p-wartość brzmi jak MacBig zamiast BigMac w znanej nam wszystkim restauracji.
1. Wikipedia - może nie "najsuperowsze" źródło ale jednak w całym wpisie mowa jest o wartości p a nie p wartości. Co jak co ale chyba dbają tam o poprawność językową?
https://pl.wikipedia.org/wiki/Warto%C5%9B%C4%87_p
2. Mickey Mouse - przecież to Myszka Miki a nie Miki Myszka
3. Donald Duck - przecież to Kaczor Donald a nie Donald Kaczor
4. Student's t test - przecież to test t Studenta a nie Studenta t test.
i wiele wiele więcej, ale na pewno wiesz co mam na myśli :)
Rzeczywiście jest dużo przykładów, choć jest też Piotruś Pan :-)
Prawdopodobnie bardziej poprawnie byłoby tak, jak proponujesz:"wartość p", natomiast muszę poprawność złożyć na ołtarzu komunikatywności, dodatkowo kusi mnie to, że w opracowaniach angielskich jest "p-value" a nie "value p". I myślę, że będziemy musiały się z tym jakoś pogodzić, nie wszystko jest przekładalne z angielskiego na nasze. A przekład wręcz może mieć zupełnie odwrotne skutki, np. tak jak próbuje się przełożyć słowo "bootstrap" (lub też:"bootstrapping")
Witam serdecznie. Bardzo ciekawy blog! Mam pytanie do powyższego wpisu a dokładnie do wielokrotne testowania. Czy dobrze rozumiem, że przeprowadzając test normalności, homogeniczności wariancji i jeszcze test studenta zwiększamy błąd I rodzaju i to jest sytuacja gdzie np. można zastosować poprawkę Bonferroniego bo testy są powiązanie? Co w przypadku gdy chcemy przetestować np. tylko normalność rozkładu ale kilkoma różnymi testami, czy wtedy również zwiększa się błąd I rodzaju, wydaje mi się że nie bo te testy są niezależne ale nie mam pewności. Pozdrawiam!
Post bardzo przystępny i przydatny. Ale nigdzie nie mogę znaleźć informacji, jak interpretuje się samą wartość testu t. Czy jeżeli t=2,75, to jest to "lepsze" czy "gorsze" od t=10,21? I o czym świadczy ujemna wartość (np. t=-4,23) -czy ten minus traktuje się podobnie, jak w korelacji, czy pomija milczeniem? Czy to daje się jakoś zinterpretować, porównać, czy z zasady bazuje się tylko na średnich?
Cześć ALKa - dzięki za feedback, uwzględnię go przy aktualizacji posta, bo rzeczywiście nic nie ma o samej wartości statystyki testowej. Wydaje się, że 2,75 jest "gorsze" niż 10,21, bo we wzorze mamy różnicę średnich i 10,21 oznaczałoby większą różnicę niż 2,75, ale ponieważ nie jest to surowa różnica średnich, to znaczenie ma jeszcze wariancja w grupach i wielkość próby i ... dlatego trzeba więcej tekstu napisać :-) Minus ma takie samo znaczenie jak przy odejmowaniu 7 - 5 to to samo co do wartości bezwzględnej co 5 - 7, ale znaczenie ma kolejność. W tym przypadku, która średnia stoi po lewej stronie minusa, a która po prawej minusa.
Pozdrowienia
Dzięki temu blogu skończę studia <33 cudowna robota, proszę nie przestawać <333
Bardzo dziękuję:) Cieszę się, że się podoba :)
Prześlij komentarz