Test t-Studenta jest najpopularniejszym testem stosowanym w psychologii ze względu nie tylko na prostotę wykonania w programie statystycznym, ale także na to, że odpowiada najprostszemu schematowi badawczemu: porównaniom między dwoma grupami. |
Wprowadzenie: Dlaczego nie można analizować jedynie średnich arytmetycznych?
SUROWA RÓŻNICA MIĘDZY ŚREDNIMI - Mogłoby się wydawać, że porównanie dwóch grup polega na porównaniu średnich arytmetycznych (badanej zmiennej). Wystarczy odjąć jedną średnią od drugiej i w ten sposób uzyskać informację o wielkości różnic międzygrupowych. Tak łatwo jednak nie jest. Przecież w obrębie każdej z grup wyniki są zróżnicowane - osoby w grupach różnią się między sobą. Nie jest tak, że indywidualne wyniki są równe średniej arytmetycznej (zob. rysunek niżej).
Być może to banalne stwierdzenie, ale badaniach empirycznych zmienność wyników jest czymś normalnym i spodziewanym. Nie dość, że występują różnice między całymi grupami (np. kobiety i mężczyźni różnią się pod względem wzrostu), to jeszcze wewnątrz grup osoby różnią między sobą (np. kobiety również różnią się wzrostem, są kobiety mają 162 cm i 198 cm). Zróżnicowanie wyników indywidualnych przejawia się poprzez różne odchylenia standardowe tej samej zmiennej (np. wzrostu) mierzonego oddzielnie dla dwóch grup. Wobec tego odejmowanie tylko i wyłącznie średnich arytmetycznych nie jest miarodajne.
Porównaj dwa poniższe rysunki. Obserwacje z grupy pierwszej są zaznaczone na niebiesko, obserwacje z grupy drugiej zaznaczone są na zielono. Czarną linią ciągłą zaznaczono średnie arytmetyczne, a dwukierunkowa strzałka to różnica między średnimi arytmetycznymi. Pierwszy rysunek pokazuje, że obserwacje nie zachodzą na siebie, ponieważ pomiędzymi nimi jest jeszcze trochę przestrzeni. Grupy są rozdzielone. Żadna osoba z grupy niebieskiej nie uzyskała tak wysokiego wyniku, aby można było ją zaliczyć do grupy zielonej. I w drugą stronę, żadna osoby z grupy zielonej, nie uzyskała wyniku tak niskiego, który sięgnąłby do wyników grupy niebieskiej.
Na kolejnym rysunku dwukierunkowa strzałka jest tej samej długości, symbolizując tę samą wartość różnicy między średnimi. Jednak obserwacje z obu grup zachodzą na siebie. Są osoby z grupy niebieskiej, których wynik sięgnął wyżej niż kilka osób z grupy. Jest jedna osoba z grupy niebieskiej, której wynik jest wyższy niż średnia arytmetyczna grupy zielonej.
Gdyby nie kreski i kolory można byłoby uznać, ze w zasadzie obserwacje nie różnią się pod względem wyników. A więc analizując wyniki osób badanych rozdzielonych do dwóch kategorii, nierozsądnie byłoby pominąć zmienność tych wyników w obrębie każdej z grup. Zarówno test t-Studenta, jak i wielkość efektu uwzględnia i różnicę między średnimi, i rozproszenie.
O teście t-Studenta dla dwóch grup niezależnych
BADANIA KORELACYJNE CZY EKSPERYMENTALNE? — Test t-Studenta można zastosować do wyników pochodzących z badań zarówno eksperymentalnych, w których osoby badane przydzielasz losowo do jednej z dwóch grup (zwykle nazywanymi kontrolną i eksperymentalną), quasi-eksperymentalnych, w których wygląda tak, jakby zadziałał przypadek w dobieraniu osób badanych do warunku eksperymentalnego i kontrolnego (np. płeć), oraz korelacyjnych, w których nie manipulujesz żadną zmienną.
Ta uwaga wydaje się oczywiste, ale niektórych to gnębi - zwłaszcza tych, którzy urodzili się przed I Wojną Światową, ponieważ dawno, dawno temu panował ścisły podział w metodach statystycznych wobec rodzaju badań. Badania korelacyjne analizowano za pomocą współczynników korelacji. Badania eksperymentalne - za pomocą testu t-Studenta lub ANOVA. Ten podział był podyktowany typem skal pomiarowych zmiennych, jakie produkowały badania. Korelacyjne produkowały zmienne ilościowe. A eksperymenty - jedne i drugie. W ten sposób na wiele lat utrwalił się podział, że dane pochodzące z badań korelacyjnych analizujemy współczynnikami korelacji (tudzież regresją) a z eksperymentalnych - testem t-Studenta lub ANOVA.
Dzisiaj ta reguła straciła na aktualności. Co więcej, dane przecież nie wiedzą skąd pochodzą (tj. z jakiego typu badań), więc wszystko jest podyktowane potrzebą badacza.
NOMENKLATURA: CZYNNIK I ZMIENNA ZALEŻNA — W związku z charakterystycznym schematem badań, z jakim jest związany test t-Studenta, pojawia się specyficzna nomenklatura. Zmienna, która przydziela obserwacje do jednej z grup nazywa się czynnikiem. Grupy - czy też kategorie - tworzone przez czynniki zwane są poziomami czynnika. Zmienna, której średnie arytmetyczne liczymy, nazywa się zmienną zależną. W ten sposób używamy frazy:"czynnik różnicujący średnie zmiennej zależnej", gdy mamy na myśli fakt, że osoby z różnych kategorii różnią się średnimi arytmetycznymi zmiennej, którą badamy.
MECHANIZM TESTOWANIA STATYSTYCZNEGO — Będąc jednym z klasycznych testów statystycznych przeprowadzanych w paradygmacie NHST, test t-Studenta posiada charakterystyczny schemat przepływu danych.
Punktem wyjścia - i okularami przez które patrzy się na cały proces - jest hipotezę zerowa o braku różnic międzygrupami. Ponieważ nie pracuje się na surowych danych, są one przetwarzane przez maszynkę zwaną statystyką testową t-Studenta do pojedynczej liczby zwanej wartością statystyki testowej. Wartościami tejże statystyki rządzi rozkład zwany rozkładem statystyki testowej. To on stanowi podstawę dalszych obliczeń. Polegają one na zadaniu pytania o to, jak typowa jest wartość uzyskanej statystyki testowej t a odpowiedź przychodzi w postaci p-wartości/istotności statystycznej. Na końcu, aby zabezpieczyć się przeciwko hurraoptymistycznym wnioskom wyciągniętym na podstawie istotności statystycznej, oblicza się miarę siłę zjawiska, tzw. wielkość efektu, którą w teście t-Studenta jest d-Cohena. To jest szybki skrót z posta o mechanice klasycznych testów statystycznych.
HIPOTEZA ZEROWA w teście t-Studenta mówi o równości dwóch średnich (badanej cechy) w dwóch populacjach - między dwoma teoretycznymi średnimi.
Teoretyczne średnie, czyli te w populacji, symbolicznie zapisuje się greckimi literkami: μ1 to średnia cechy w jednej (pod)populacji oraz μ2 to średnia cechy w drugiej (pod)populacji. W ten sposób symboliczny zapis hipotezy zerowej H0 w teście t-Studenta symbolicznie przedstawia się następująco:
H0: μ1 = μ2
μ1 [czyt. mi jeden] to średni poziom cechy w pierwszej podpopulacji
μ2 [czyt. mi dwa] to średni poziom cechy w drugiej podpopulacji.
INTERPRETACJA HIPOTEZY ZEROWEJ — Każda hipoteza zerowa to pewien model rzeczywistości. W tym modelu wskazany przez badacza czynnik nie ma nic wspólnego z interesującą go zmienną zależną. To świat, w którym nieważne, czy osoba badana jest w jednej, czy w drugiej populacji - jej wynik w zmiennej zależnej jest taki sam.
Idąc tym tropem, skoro czynnik oraz zmienna zależna są niezależne względem siebie, to treść hipotezy zerowej można rozumieć w następujący sposób: H0: średni poziom zmiennej zależnej (czyli danej cechy ilościowej) jest jednakowy w obu populacjach. Możliwa jest też nieco inaczej brzmiąca interpretacja skupiająca się na osobach badanych, na próbie: dwie próby pochodzą z tego samego rozkładu. Zauważ, że użyte w zapisie są greckie litery μ oznaczające, że chodzi o populację.
Należy przy tym zwrócić uwagę na to, że mówimy o populacjach, a nie próbach. Z tego powodu zapis ten nie wygląda tak: H0: x̄1 = x̄2 - nie odnosi się do średnich arytmetycznych w próbie (oznaczonych przez x z kreską). Na chłopski rozum, testowanie hipotez w próbie to zbędne ceregiele - po co wytaczać całe testowanie hipotez, aby stwierdzić, czy dwie średnie z dwóch prób są sobie równe lub różne? Przecież wystarczy porównać wartości średnich.
CO JEST ISTOTNE STATYSTYCZNIE? RÓŻNICA W GRUPACH ... CZY W POPULACJACH? — Czasem skrótowo mówi się o istotności (statystycznej) średnich w dwóch grup, np. w tekście jest napisane:"analiza pokazała jedną istotnie statystyczną różnicę między kobietami a mężczyznami". Ten sposób formułowania wyników, sprawia, że bardzo łatwo pomyśleć, że szukamy przymiotnika określającego różnicę w średnich arytmetycznych między osobami w grupach. Tymczasem sprawa przedstawia się zupełnie inaczej.
Podczas weryfikacji hipotez statystycznych interesuje nas przede wszystkim populacja, a nie próba. Ta składająca się z dwóch grup próba służy jako środek do przeniesienia wniosku z próby na populację. Aby zauważyć niezerową różnicę między średnimi arytmetycznymi nie potrzeba żadnej weryfikacji hipotez. Jeśli średnia arytmetyczna n = 10 pomiarów wzrostu w grupie kobiet wynosi 168,2 cm a średnia arytmetyczna n = 10 pomiarów wzrostu w grupie mężczyzn wynosi 178,6 cm, to widzimy, że te średnie różnią się. Różnica między nimi wynosi 10,4 cm - kobiety i mężczyźni w tej dwudziestoosobowej próbie różnią się pod względem średnich wzrostu. Ale - może tak też jest i w całej populacji kobiet i mężczyzn? Aby przenieść wniosek o zróżnicowaniu wzrostu z próby na całą populację, wykorzystuje się weryfikację hipotez statystycznych.
HIPOTEZA ALTERNATYWNA jest w NHST zwykle dość mgliście sformułowana i brzmi: H1: średni poziom cechy w obu podpopulacjach nie jest sobie równy. Symboliczny zapis przedstawia się w ten sposób:
H1: μ1 ≠ μ2Obecność takiej niewyraźnej hipotezy alternatywne widać jedynie w tym, czy wybieramy test jedno- , czy dwustronny. Od 28. wersji SPSS dostępne są dwie wersje testu t-Studenta (dotychczas była jedna i nie było żadnej filozofii).
Jednostronny test t-Studenta to test, który sugeruje nierówność w hipotezie alternatywnej, czyniąc z nią tzw. kierunkową hipotezę statystyczną.
H1: μ1 < μ2
Kierunkowość wskazuje na konkretny kierunek zależności: uważamy, że średnia w jednej populacji będzie wyższa niż w drugiej populacji. Zamiast: kobiety i mężczyźni różnią się od siebie (bezkierunkowa), to hipoteza brzmi: "średni poziom badanej cechy wśród kobiet jest wyższy niż u mężczyzn".
W miejsce braku równości pojawia się znak nierówności (mniejsze, większe).
Zauważ, że te symbole użyte w hipotezie zerowej i alternatywnej to greckie znaczki. Oznaczają one, że chodzi o równość średnich w populacji, nie zaś w próbie. Kiedy zbierzesz dwie grupy, to najczęściej będą się różnić średnimi arytmetycznymi. Do zauważenia różnicy między dwiema liczbami nie potrzebujesz testów statystycznych – wystarczy je zobaczyć. To, do czego stosujesz testy statystyczne, to przeniesienie wniosków z próby na populację, a więc czy z tego faktu, że różnią się dwie próby, można powiedzieć, że różnią się dwie populacje, z których te próby pochodzą.
ZAŁOŻENIA TESTU t-STUDENTA: FORMAT DANYCH — Jak się można domyślać, test statystyczny ruszy dopiero, gdy dane będą odpowiedniej jakości. Dane muszą spełniać kilka warunków, które dla wygody i łatwości zapamiętania warto pogrupować w trzy kategorie. Pierwsza kategoria warunków odnosi się do schematu badawczego. Druga - do pomiaru, tego jaki rodzaj wyników powstanie podczas badania i jakie operacje arytmetyczne będzie można na nich wykonać (tj. skale Stevensa, KLIK). Trzecia kategoria ma charakter probabilistyczny – od danych będziemy żądać pewnego kształtu rozkładów. Te warunki są potrzebne, abyśmy mogli zarówno wykonać test t-Studenta, jak również wyciągnąć poprawne wnioski na podstawie otrzymanych cyferek.
PIERWSZA KATEGORIA: NIEZALEŻNOŚĆ OBSERWACJI – Jak sama nazwa niezależność obserwacji to fakt ... niezależności obserwacji. Dwie obserwacje są niezależne, gdy posiadając jedną z nich, nie wiemy nic o drugiej.
Najprościej niezależność w schemacie międzygrupowym osiągnąć, przydzielając osoby badane do jednej z dwóch kategorii (czy jednego z dwóch poziomów) czynnika. Wówczas sprawa sprowadza się do ilości pomiarów dokonanych na osobach badanych. W teście t-Studenta dla dwóch grup niezależnych, osoby badane możemy badać raz - w obrębie ich własnej grupy.
Niezależność obserwacji może polegać na tym, że nie badamy osób z tej samej pary małżeńskiej - współdzielą przecież one informację.
WARIANTY TESTU T-STUDENTA: Możliwość wyboru schematu badania (obserwacje niezależne vs. zależne) powoduje, że istniejeą warianty testu t-Studenta:
- dla jednej próby (one-sample t-test) – to taki wariant, w którym jest jedna grupa, której to średni poziom porównujesz do jakiegoś teoretycznego kryterium, np. czy średnie tętno seniorów wynosi 60 uderzeń na minutę.
- dla dwóch prób niezależnych (two sample t-test) – osoby badane są rozdzielone do dwóch grup i każda z nich jest badana tylko jeden raz, np. zbadano poziom uprzedzenia do wybranej mniejszości u osób mieszkających przy zachodniej i wschodniej granicy Polski.
- dla dwóch prób zależnych (paired data) – badani zostali poddani badaniu dwukrotnie, np. zbadano tętno przed i po treningu.
W tym poście omawiamy test t-Studenta dla grup niezależnych.
DRUGA KATEGORIA: TYP POMIARU zmiennych — Mechanizm testu t-Studenta jest tak skonstruowany, aby badać dwie średnie. Chodzi o to, że wzór, który stanowi sedno tego testu, przyjmuje tylko średnie, odchylenia standardowe i liczebności obu próg. Dane powinny być rozdzielone na dwie kategorie, zaś wybrana cecha powinna umożliwiać obliczanie średniej arytmetycznej na swoich wartościach. Wobec tego, jedna zmienna powinna być jakościowa, a druga - ilościowa. Według skal Stevensa: zmienna, która grupuje osoby badane, powinna być nominalna lub porządkowa o dwóch kategoriach. Druga zmienna powinna być zmienna przedziałowa lub ilorazowa.
Test t-Studenta nie obsłuży takich danych, w których obie zmienne są jakościowe. Nie da rady nim badać związków między płcią a ręcznością (raczej chi-kwadrat). Zmienna musi dawać możliwość policzenia średniej na jej wartościach. Co oznacza, że jeśli pamiętasz skale Stevensa, to musi być zmienną mierzoną na skali interwałowej albo na skali ilorazowej. Druga zmienna musi dawać możliwość rozdzielenia osób badanych do grupy.
Przykłady badań, gdzie test t-Studenta jest użyteczny:
- czy poziom inteligencji emocjonalnej różni się między kobietami i mężczyznami?
- czy nasilenie ekstrawersji wśród aktorów i osób wykonujących zawód bibliotekarza?
- czy deprywacja kontroli prowadzi do ruminacji?
- czy aktywizacja wizerunku rodzica ma wpływ na odraczanie gratyfikacji wśród dzieci?
Dwa pierwsze przykłady to schematy quasieksperymentalne, dwa ostatnie – eksperymentalne, w każdym z nich mamy tylko dwie grupy: wyznaczoną przez płeć, przez typ zawodów oraz kontrolną i eksperymentalną.
Test t-Studenta NIE nadaje się do:
- porównań między więcej niż trzema grupami (idź do: ANOVA)
- sprawdzenia zależności między płcią i stopniem upośledzenia (zmienna nominalna + zmienna porządkowa)
- sprawdzenia czy występuje związek między płcią a zaburzeniem np. czy kobiety częściej występuje schizofrenia (zmienna nominalna + zmienna nominalna)
- związek między samooceną a narcyzmem (zmienna przedziałowa+zmienna przedziałowa)
TRZECIA KATEGORIA: WYMAGANIA PROBABILISTYCZNE — testy statystyczne wykorzystują dane w pośredni sposób – przekształcając je do pojedynczej liczby zwanej wartością statystyki testowej. Statystyka testowa ma również rozkład swoich wartości – jedne zdarzają się częściej, a inne rzadziej. Ten rozkład musi być odpowiednim, ponieważ to na jego podstawie wyciągamy poprawne wnioski. A żeby mieć dobry rozkład, to dane, które wchodzą do statystyki testowej, muszą spełniać trzecią kategorię założeń: normalność rozkładu zmiennej zależnej oraz homogeniczność wariancji.
NORMALNOŚĆ ROZKŁADU cechy w obu grupach. Żądamy, aby w jednej i w drugiej grupie, wartości badanej cechy pojawiały się zgodnie z rozkładem normalnym. Chcemy zobaczyć coś takiego:
Żądanie normalności rozkładu badanej cechy to bardzo mocne żądanie – biorąc pod uwagę fakt, że rozkład normalny w badaniach psychologicznych nie jest często spotykany. Trudno oczekiwać, żeby każda badana cecha miała rozkład normalny, bo przecież test t-Studenta jest najpopularniejszym testem. Musi być jakiś sposób na to, że móc go wykonać, nawet jeśli rozkład cechy nie jest normalny. Z pomocą przychodzi Centralne Twierdzenie Graniczne.
Mechanizm testu t-Studenta tak naprawdę potrzebuje normalności rozkładu statystyki testowej, a nie tego, aby sama cecha miała rozkład normalny. Jeśli wiesz, że badana cecha ma w populacji rozkład normalny, to nie ma najmniejszych obaw - statystyka testowa test t-Studenta ma rozkład dokładnie taki powinna mieć, aby analizy były rzetelne. Jeśli ten rozkład cechy nie jest normalny, to dzięki Centralnemu Twierdzeniu Granicznego i przy dostatecznie dużej liczebności próby można postępować tak, jakby statystyka testowa posiadała pożądany rozkład normalny i procedować z analizami. Oczywiście, zawsze pozostaje pytanie, jak duża próba jest duża.
DIAGNOSTYKA NORMALNOŚCI ROZKŁADU - Jest pięć podstawowych charakterystyk potrzebnych do sprawdzenia, czy dany rozkład jest rozkładem normalnym: skośność, kurtoza, boxplot, qqplot, histogram.
Jeśli chcesz dowiedzieć się, jak diagnozować normalność tymi metodami, zajrzyj do posta pt. Diagnostyka normalności: KLIK
HOMOGENICZNOŚĆ (JEDNORODNOŚĆ) WARIANCJI zmiennej zależnej — oznacza jednakowość rozproszeń wyników w obu grupach. Badacz posiada wyniki pomiarów cechy w jednej i w drugiej grupie. Jest zainteresowany ich średnimi – czy może wnioskować, że populacje, z których grupy wywodzą się, są takie same, czy też różne. Podczas dokonywania jakichkolwiek porównań ważne jest to, żeby nie porównywać gruszek z jabłkami, tzn. aby badane grupy różniły się co najwyżej jedną charakterystyką (średnią), nie zaś pozostałymi. Różne rozproszenia (np. odchylenie standardowe) oznaczałoby, że grupy są zbyt różne. Nie dokonuje się porównania między zdolnościami poznawczymi między dorosłymi a przedszkolakami – to zbyt różne etapy w życiu. Z tego powodu oczekujemy jednakowej wariancji w podpopulacjach z jakich wybrano dwie grupy.
I znów – trudno oczekiwać, żeby odchylenie standardowe w jednej i w drugiej grupie było jednakowe. Na przykład odchylenie standardowe badanej cechy w grupie kontrolnej SD = 1,20, zaś w w drugiej – SD = 1,4. Ponieważ mamy do czynienia ze zjawiskami losowymi, których wyniku nie da się z góry przewidzieć, to i nie możemy oczekiwać równości między odchyleniami standardowymi. Musimy się zatem wykazać pewną elastycznością. Innymi słowy, kiedy możemy przejść do porządku dziennego nad niezerową różnicą między odchyleniami standardowymi, a kiedy jest to problem?
Mamy tutaj dwie ścieżki postępowania: albo poprzez oglądanie tych miar rozproszenia, albo poprzez kolejny test istotności statystycznej. SPSS, niestety, promuje pewne zachowania, które nie są do końca są dobre (tzw. testoza – testuj wszystko, co możesz).
SPOSÓB 1 [REGUŁA KCIUKA] — Pierwszy sposób odnosi się do statystyk opisowych - dokładnie do odchyleń standardowych i polega na podzieleniu wyższego odchylenia standardowego przez mniejsze. Aby uznać, że homogeczność wariancji została zachowana, iloraz musi być niższy niż 2. W ten sposób niemal palpacyjnie oceniasz, czy stopień rozproszenia wyników w obu grupach jest zbliżony.
SPOSÓB 2 [TEST STATYSTYCZNY] — Drugi sposób to klasyczne testy statystyczne. Są co najmniej dwa testy homogeniczności wariancji: Levene'a i Bartletta. SPSS w teście t-Studenta dla dwóch grup podaje tylko ten pierwszy a zastrzeżeniach poczytasz niżej w kolorowej ramce. Oba z tych testów mają tą samą hipotezę zerową H0: σ1 = σ2. Symbol σ (czyt. sigma) oznacza wariancję zmiennej zależnej w jednej z populacji. W ten sposób ta hipoteza zerowa sygnalizuje, że żąda równości rozproszeń w populacji. Mówi mniej więcej tyle: - "nie obchodzi mnie to, że w zebranych danych odchylenia standardowe są różne. Ważne, żeby w populacjach były tożsame." Stosując tę ścieżkę postępowania, badaczowi zależy, aby zobaczyć wynik nieistotny statystycznie, np. p = 0,451.
Problem z testem Levene’a czy Bartletta jest taki sam jak ze wszystkimi testami istotności statystycznej – nie kontrolując liczebności próby, nie za bardzo wiadomo, co istotność lub nieistotność statystyczna tak naprawdę oznacza. Brakuje tu czegoś, co pozwoliłoby ocenić ocenić, czy istotny statystycznie wynik testu Levene’a naprawdę pokazuje różne wariancje. Ponadto, takie wielokrotne testowanie wzmacnia testozę wśród badaczy, czyli tendencję do testowania wszystkiego, co się da, byleby nie podjąć własnej decyzji. SPSS jest mistrzem w promowaniu takiego zachowania, ponieważ z tabelek wyświetlanych przez program w outpucie mamy jedynie wynik testu statystycznego i p-wartość. Dzięki temu bardzo trudno jest zapisać wynik testu. Do poprawnego zapisu potrzebujemy jeszcze stopni swobody (degrees of freedom), a nigdzie ich nie ma. |
Po spełnieniu wszystkich założeń testu t-Studenta (również tych superrestrykcyjnych z normalnością rozkładu badanej cechy w obu poziomach czynnika) otrzymujemy obraz danych, które w teorii wyglądają mniej więcej tak, jak na poniższym rysunku. Są to dane pochodzące z dwóch rozkładów normalnych o tym samym stopniu rozciągnięcia ramion. Zadaniem badacza jest sprawdzić, który z tych modeli jest bliższy rzeczywistości. Czy model hipotezy zerowej, gdzie dane pochodzą z tego samego rozkładu (tej samej populacji) - krzywe pokrywają się. Czy z dwóch populacji, które różnią się jedynie przesunięciem szczytu względem na osi poziomej OX. W rozkładzie normalnym szczyt znajduje się nad średnią, stąd test t-Studenta dotyczy średnich.
Maszynka zwana STATYSTYKĄ TESTOWĄ — W klasycznym testowaniu hipotez, nie pracujemy na surowych danych. Wędrują one wraz z hipotezą zerową do maszynki zwanej statystyką testową. Technicznie rzecz ujmując, statystyka testowa to po prostu wzór. W teście t-Studenta, który zajmuje się dwoma grupami, ten wzór można opisać krótko jako standaryzowaną różnicę między średnimi arytmetycznymi, czyli iloraz różnicy między średnimi oraz błędu standardowego tej różnicy.
Na postać mianownika wpływa równoliczność grup i równość wariancji. Zatem licznik pozostaje takie sam, a mianownik zmienia się w zależności od okoliczności.
Poniższy wzór to jeden ze wzorów na statystykę testową testu t-Studenta: grupy są równoliczne, zaś wariancja jest homogeniczna.
WARTOŚĆ STATYSTYKI TESTOWEJ t-STUDENTA – Jest to pojedyncza liczba, do której sprowadzono surowe dane. Możliwe wartości, jakie może przyjąć, rozciągają się od minus nieskończoności do plus nieskończoności. Oznacza to, że w tabeli zawierającej wyniki analiz testu t-Studenta możecie zobaczyć zarówno niską wartość - albo dużą. Ujemną lub dodatnią. Czasami można nawet zobaczyć zero.
Dzieje się tak, gdy średnie arytmetyczna zmiennej zależnej są identyczne. Zauważ, że we wzorze na statystykę testową - w jej liczniku - znajduje się różnicę między nimi. Jeśli średnie artymetyczne w obu grupach są blisko siebie, to i wartość statystyki testowej będzie mała. Im bardziej się od siebie różnią, tym ta wartość t jest większa.
CO ZNACZY t = 3,045? — wartość statystyki testowej nie jest po prostu jakąś tam sobie liczbą - agregatem informacji z surowych danych, która sama w sobie nic nie znaczy. Umiejętność odczytania jej wartości jest pomocna w zrozumieniu tego, co się dzieje w analizach.
Sama wartość statystyki testowej testu t-Studenta możne powiedzieć czego możemy spodziewać się w danych. Niech punktem wyjścia będzie spostrzeżenie, że t = 0 pojawia się w chwili, w której średnie arytmetyczne w obu grupach są równe. Średnie nasilenie empatii u kobiet jest takie samo jak u mężczyzn. Średni czas reakcji w warunku eksperymentalnym jest taki sam, jak i w warunku kontrolnym.
Wyobraźmy sobie taką sytuację, w której czynnik nie działa na zmienną zależną (np. nie ma międzypłciowych różnic w empatii). Gdyby - uwaga! Używam tu trybu przypuszczającego - gdyby nie było różnic między jednymi a drugimi, wartość statystyki testowej t powinna w badaniu wyjść zero - niezależnie od tego, na jaką próbę badacz trafi.
Niestety (a może i "stety"), w rzeczywistym świecie, nietrudno o losowe fluktuacje. A to osoba badana nie dosłyszała o co chodzi, a to zagapiła się, a to nie wyspała - powodów jest mnóstwo. Narzędzia pomiarowe nie są doskonałe, zawsze trafią się jakieś zafałszowania. To bezpośrednio przekłada się na surowy wynik osoby badanej, co w dalszej kolejności pociąga za sobą to, że ta wartość statystyki t nie będzie równa zero - mimo, że przecież miało nie być różnic. Innymi słowy, nawet gdy nie ma różnic między średnimi w populacji, to w próbie sprawy będą przecież wyglądać nieco inaczej. Wobec tego, należy wykazać się pewną elastycznością. Wokół zera istnieje mały przedział wartości statystyki testowej t, które zwiastują brak wpływu czynnika na zmienną zależną (mimo, że nie są dokładnie równe zero).
Ten przedział sięga od -1 do 1. Jeśli wartość statystyki t wpadnie w ten przedział, to najczęściej zobaczysz wynik nieistotny statystycznie, p wyższe od 0,05 (np. p = 0,072) oraz niezbyt zachwycającą siłę efektu. Piszę najczęściej, ponieważ testy statystyczne są bardzo wrażliwe na wielkość próby. W małych próbach, np. gdy N = 10, nawet czynnik który teoretycznie powininen różnicować średnie (jak ta płeć wobec empatii), wypadnie bardzo blado.
Nie pytajcie, czy znajdująca się na granicy przedziału wartość t = 1,00 (lub analogicznie t = -1,00) to już zły znak. W statystyce ciężko o jednoznaczną odpowiedź. Co najwyżej mogę powiedzieć, że gdy t = 1 to najczęściej oznacza to kłopot. W statystyce wszystkie krawędzie są nieostre (nawet te, które zdają się być jasno wyznaczone).
O ile przedział [-1,1] jest problematyczny, o tyle wartości już spoza tego przedziału wskazują, że czynnik będzie różnicować średnie zmiennej zależnej. Oczywiście, im dalej od krawędzi - tym lepiej. Oprócz tego, czy wartość statystyki testowej w badaniu wypadła poza przedział [-1,1], ważne jest to, czy jest po jego lewej stronie, czy po prawiej. Znak statystyki testowej t mówi o tym, który poziom czynnika (która grupa) ma wyższą średnią.
Pamiętajmy, że wartość statystyki testowej t-Studenta zależy od różnicy między średnimi arytmetycznymi. Różnica to ta operacja arytmetyczna, w której ważna jest kolejność. Od średniej arytmetycznej z pierwszego poziomu czynnika jest odejmowana średnia arytmetyczna z drugiego poziomu czynnika. Jeśli od czegoś mniejszego odejmiemy coś większego (np. 3 - 10), to rezultat wyjdzie ujemny. Jeśli od czegoś większego odejmiemy coś mniejszego (np. 10 - 3), to rezultat wyjdzie dodatni. To jest ważne o tyle, gdy dane przeczą postawionej hipotezie badawczej.
Hipoteza badawcza przewiduje, że średnie nasilenie empatii jest wyższe u kobiet niż u mężczyzn, tymczasem trafia się specyficzna próba złożona z pielęgniarzy i maklerek, gdzie ta zależność odwraca się. Z góry przepraszam za aktywację stereotypów, ale mam nadzieję, że wiecie o co chodzi. Znak statystyki testowej jest naszym bezpiecznikiem - o ile pamiętasz, który poziom czynnika był tym pierwszym, a który drugim.
Podsumowując, przykładowa wartość statystyki testowej t = 3,019 jest tą wartością statystyki testowej t-Studenta, która pokazuje, że średnie zmiennej zależnej są różne w obrębie poziomów czynnika. Można spodziewać się istotności statystycznej a także niezbyt małej wielkości efektu. Dodatni znak tej wartości oznacza, że wyższym średnim nasileniem badanej zmiennej (cokolwiek nią jest) charakteryzują się osoby z pierwszego poziomu czynnika niż osoby z drugiego poziomu.
Mimo tego, że wartość statystyki testowej niesie sporo informacji, to na jej obejrzeniu analiza danych nie kończy się. Teraz trzeba ocenić, jak typowa jest otrzymana wartość statystyki testowej. Ponieważ dane są losowe (czyt. przed przeprowadzeniem badania nie wiemy, jakie otrzymamy), to ta losowość przenosi się na wartości statystyki testowej - one też są losowe. Przed zebraniem danych, a i przed rozpoczęciem analiz, nie wiemy jaką wartość otrzymamy. Czy będzie to -1,45 czy może 257,87. Część z nich jest częstsza, a część z nich - rzadsza lub ekstremalnie rzadko spotykana. To z kolei oznacza, że należy odwołać się do rozkładu statystyki testowej.
ROZKŁAD STATYSTYKI TESTOWEJ – pamiętaj, że każdy klasyczny test statystyczny ma wbudowany rozkład wartości statystyki testowej. Choć jest to tylko matematyczny, abstrakcyjny twór, który odstrasza wielu początkujących badaczy, opowiada on pewną historią. Mianowicie, roztacza on przed Tobą wizję tego, jak wyglądałby świat, w którym Twoje zmienne nie mają ze sobą żadnego związku. Jak to byłoby, gdyby czynnik nie miał żadnego znaczenia, dla badanej zmiennej? Powiesz, że wówczas średnie arytmetyczne powinny być sobie ku sobie zbliżone a wartość statystyki testowej t bliska zeru. Spójrz więc na ten rysunek - szczyt rozkładu znajduje się nad zerem. Im dalej od tego miejsca, tym coraz rzadziej spotykane są wartości. Tak właśnie rozkład opowiada o tym, co dzieje się z wartościami testu (dokładniej: statystyki testowej).
W teście t-Studenta ten rozkład jest precyzyjnie okreeślonym rozkładem t-Studenta posiadającym tylko jeden parametr zwany stopniami swobody (ang. df, degrees of freedom), a ten z kolei jest uzależniony od liczby osób biorących udział w badaniu, df = N - 1, gdzie N to liczba osób badanych. Ten rozkład stanowi podstawę obliczenia p-wartości (ang. p-value) - istotności statystycznej (ang. statistical significance).
Porozmawiajmy o konkretach. W konkretnym badnaiu, konkretny badacz otrzymuje konkretną wartość statystyki testowej. Dalej musi ocenić, jak częsty jest to wynik w pewnej szczególnej sytuacji - w sytuacji, w której hipoteza zerowa o braku różnic międzygrupowych jest prawdziwa. Zadajemy zatem pytanie, czy otrzymany przez nas wynik jest typowy lub nie, jeśli obie próby pochodzą z tej samej populacji. Odpowiedź na to pytanie otrzymujemy w kategoriach prawdopodobieństwa i nazywamy ją albo p-wartością lub istotnością statystyczną. Więcej na temat p-wartości/istotności statystycznej znajdziesz w osobnym poście KLIK Dowiesz się również z niego, że tak naprawdę odpowiadamy na pytanie o to, jak bardzo prawdopodobna jest uzyskana wartość statystyki testowej - i jeszcze większa.
WIELKOŚĆ EFEKTU - Wielkość efektu to krótko mówiąc, miara siły zjawiska. W schematach międzygrupowych, gdy porównujemy średnie nasilenia zmiennej zależnej pomiędzy kategoriami czynnika, mówi ona jak bardzo czynnik różnicuje średnie. Ponieważ wynik istotny statystycznie może być wynikiem nieistotnym praktycznie, to do oceny siły związku między zmiennymi stosujemy wielkość efektu. Wielkość efektu jest miarą siły zjawiska i w przypadku porównań między dwiema grupami oznacza ona to, jak bardzo średnie badanej cechy różnią się od siebie. Więcej na ten temat znajdziesz w poście o wielkości efektu KLIK
Warto też powiedzieć, że żeby obejrzeć wielkość efektu w jakimkolwiek badaniu, nie trzeba jednoczęsnie korzystać z testów istotności statystycznej. Test t-Studenta i wielkość efektu to dwie różne rzeczy. |
MIANOWNIK — Skoro różnica między średnimi nie wystarcza, to należy ją podzielić przez jakiś mianownik. Co można włożyć do owego mianownika? Można na przykład zmierzyć wariancję wszystkich wyników bez dzielenia ich na dwie kategorie. Ale takie postępowanie powoduje, że nagle wszystkie wyniki odnosimy do ich ogólnej średniej, a zatem dla jednej i dla drugiej zmieniamy poziom odniesienia, jakim do tej pory była średnia arytmetyczna w danej grupie. Zatem takie postępowanie nie jest dobre.
MIANOWNIK: POŁĄCZONA WARIANCJA [d-COHENA] — W takim razie można spróbować czegoś, co nazywa się wariancją połączoną (pooled variance). Najprościej rzecz ujmując - uśredniamy wariancje i to jest właśnie wielkość efektu d Cohena (d oznacza difference, różnica). Dzięki temu, wyniki odnoszone są do swoich własnych średnich arytmetycznych, a my mamy uchwyconą zmienność wyników w obu grupach.
WIELKOŚĆ EFEKTU d-COHENA — Jest to tzw. standaryzowana różnica między średnimi, gdzie standaryzacja po prostu oznacza podzielenie różnicy między średnimi arytmetycznymi przez rozproszenie wyników bez względu na to, do jakiej grupy należą.
MIANOWNIK: WARIANCJA W GRUPIE KONTROLNEJ [delta Glassa] — technicznie rzecz biorąc, jest to metoda najprostsza. Polega na włożeniu do mianownika zmienności jednej z grupy: tej, która ma być grupą odniesienia. To postępowanie ma sens, gdyby badacza interesowało zestawianie grup i w przypadku badań eksperymentalnych to ma sens. Jedna z nich jest kontrolna, a druga – eksperymentalna, więc siłą rzeczy różnicę między średnimi arytmetycznymi odnosi się do grupy kontrolnej, a dokładniej: względem zmienności wyników w tej grupie. Zatem dla wielkości efektu delta Glassa w mianowniku znajduje się zwykle odchylenie standardowe s jednej z grup.
Wybierając jedną z wielkości efektu, otrzymujemy pojedynczą liczbę (zwaną wartością wielkości efektu d-Cohena/delty Glassa). To może być -0,33 albo 1,25.
ROZMIARÓWKA —
Mała wielkość efektu to te wartości, które zaczynają się od |0.20|.
Umiarkowana wielkość efektu to te wartości, które przekraczają |0.50|.
Duża wielkość efektu to ta powyżej |0.80|.
DODATKOWE INFORMACJE — Jakie wartości mogą przybierać wyniki wzorów na wielkości efektu d Cohena czy delta Glassa? Poniższe własności wynikają wprost z tych wzorów. W liczniku znajduje się różnica między średnimi, zaś w mianowniku pierwiastek. Skoro pierwiastek może być tylko dodatni, to jedynym co ogranicza to różnica w odejmowaniu. A zatem - pełna dowolność.
- Wielkości efektu osiągają wyniki zarówno ujemne, jak i dodatnie..
- W zasadzie nie są niczym ograniczone: wielkość efektu d Cohena czy delta Glassa mogą wynosi -5,23 albo +3,26
DO IT YOURSELF: JAK WYKONAĆ TEST T-STUDENTA W SPSS? — W SPSS-ie klikamy kolejno: Analiza -> Porównywanie średnich. Musimy wybrać zmienną kodującą podział na grupy (np. "Płeć") oraz oczywiście, badaną cechę, czyli kolumnę np. ''MFQ_HARM_AVG''. Tak nazwana jest kolumna oznaczająca wartości zmiennej.
Wybieramy Test t dla prób niezależnych.
Pojawia się okno dialogowe test t dla prób niezależnych.
Musimy teraz wskazać, która zmienna to zmienna zależna, dla której można policzyć średnie w dwóch grupach. Oraz która zmienna to zmienna dwuwartościowa, która grupuje (dlatego grupująca) obserwacje w dwie rozłączne grupy. Można tę zmienną nazwać też czynnikiem.
Kiedy wybierasz zmienną grupującą, to musisz wskazać, jak zakodowano te grupy. U mnie jest tak, że jeśli obserwacją jest kobieta, to ma przypisane 0. A jeśli to mężczyzna, to ma przypisane 1.
Napiszę to na wszelki wypadek, bo niektórzy biorą ten podział osobiście. Żaden podział nie będzie dobry i ktoś się obrazi. Więc... skoro tak... to ja ułatwiam sobie zapamiętywanie pod względem podobieństw anatomicznych :-)
Zmienne wybrane. Naciskamy enter i pojawia się tabelka, w której są dwa testy.
Dlaczego o tym mówimy? Bo wybór odpowiedniego wiersza z tabelki SPSS-owskiej przedstawiającej wyniki testu t-Studenta zależy od wyniku testu Levene'a. I pewnie też ocena na kolokwium czy egzaminie).
W pierwszej i drugiej kolumnie jest statystyka testowa i jej istotność statystyczna. Analizę zaczynamy właśnie od tego testu, dlatego, że w zależności od jego wyniku będziemy interesować się pierwszym lub drugim wierszem w tej tabeli.
P-wartość w teście Levene'a ma wartość dużo niższą od poziomu istotności alfa równego 0.05, stąd pewnie zgodnie z taką szkołą można uznać, że wariancje w grupach nie są równe.
Skoro nie są rówe, to będziemy odczytywać wyniki znajdujące się w drugim wierszu tej tabeli.
16 komentarzy:
Świetne opracowanie. Bardzo praktyczne i przystępnym językiem pisane. Czytam dalej.
Cześć, kinomyszka! Bardzo dziękuję za miłe słowa :-) i oczywiście polecam czytanie dalej. W końcu - jakby na to nie patrzeć - po to to piszę :-)
Hej
Jak odniesiesz się do tego, że założeniem testu t Studenta (jak i anovy lub innych metod parametrycznych) wcale nie jest normalność rozkładu mierzonej zmiennej w zbadanej grupie? Z tego co piszą wszyscy, którzy nie chcą upraszczać tematu. W teście t Studenta dla prób niezależnych to chyba rozkład średniej z próby powinien być zbliżony do normalnego, prawda?
Wiecej na ten temat:
1. https://www.researchgate.net/publication/299497976_Silly_or_Pointless_Things_People_Do_When_Analyzing_Data_1_Testing_for_Normality_as_a_Precursor_to_a_t-test
2. http://www2.psychology.uiowa.edu/faculty/mordkoff/GradStats/part%201/I.07%20normal.pdf
3. Znana Ci zapewne książka Fielda
4. wiele wiele więcej :)
Czy pisanie w podręcznikach (i na tym blogu), że to zmienna powinna mieć rozkład normalny nie jest po prostu uproszczeniem? Uczono mnie np. na zajęciach z testu t Studenta dla prób zależnych, że oba pomiary powinny mieć rozkład zgodny z normalnym co znów jest nieprawdą bo to różnica między pomiarami powinna mieć rozkład normalny. Tylko gdzie? W mojej próbie? W populacji? Czy znów mowa o rozkładzie z próby?
Teresa
I jeszcze do ANOVA. Jest to model liniowy jak regresja więc tak jak regresja założenie normalności rozkładu dotyczy reszt a nie zmiennej zależnej. Jedno piszą tak a inni inaczej i jestem bardzo confused. Proszę o wyjaśnienie.
Dzień dobry, Tereso,
Dziękuję też za linki, to oczywiście nie są jedyne materiały o owczym pędzie do normalności. Nie piszę z książki Andy'ego Fielda, bo z wieloma rzeczami, które są tam przedstawione po prostu nie zgadzam się. Ale tak, jest mi znana.
Pisząc posta o teście t-Studenta miałam do wyboru:
a) napisać superobszerny i esktrawyczerpujący post, który siłą rzeczy wyszedłby dla zaawansowanych, a potrzebowałam napisać post dla studentów. Psychologii.
b) napisać krótki test, wprowadzający, podający najlepszą możliwą wiedzę, a post o teście t-Studenta 2.0 zostawić na później. Znów, siłą rzeczy musiałam zgodzić się na pewne uproszczenia.
Po przemyśleniu spraw i wyważeniu plusów i minusów zdecydowałam się na opcję b. Opcję (a) zostawiłam na czas pisania doktoratu z metod statystycznych - wówczas zamieszczę post 2.0. Wierz mi, że nie jest to najprzyjemniejszy dla mnie kompromis.
Dawno temu, mój post o teście t-Studenta zawierał informację, o której piszesz, że de facto jest nam potrzebna normalność rozkładu średnich. Co oczywiście rodzi kolejne problemy (i tak dalej - zobacz, że z postu o teście t-Studenta zrobiłby się post naszpikowany dygresjami, bo niestety temat ten jest bardziej złożony). A potem czytając własne posty doszłam do wniosku, że to od razu z grubej rury, a nie było jeszcze nawet nie ma odniesienia do jakiejś podstrony, która tłumaczyłaby koncept "rozkład średnich". Może rzeczywiście, dla osób już znających temat, jakąś myślą jest to, żeby w poście umieścić taką adnotację o normalności zmiennej zależnej i że to nie jest takie proste. W tym momencie - wielkie dzięki za sugestię.
Na pewno żądanie od danych, żeby były normalne jest najbezpieczniejszą kwestią (suma normalnych jest normalna), bo inaczej przechodzimy do już aproksymacji - i tutaj ja, jako osoba stojąca za blogiem, mam zawsze ten sam dylemat: jak głęboko grzebnąć w temacie. Poruszasz temat ANOVA oraz reszt - ale ja jeszcze na blogu nie mam chyba ani słowa o resztach. Chwała Ci za to, że masz taką wiedzę, ja muszę jeszcze trochę myśleć o studencie psychologii, który dopiero zaczął kurs ze statystyki i nie mogę od razu zwikipediować tekstu. Tak to wygląda z mojej strony.
Dzięki za obszerny komentarz (takie są właśnie fajne), a dzięki Twojemu też mam szansę przedstawić proces tworzenia postów niejako od kuchni i podejmowania czasami trudnych decyzji.
Wszystko rozumiem tylko ja miałam inny cel. Nie chciałam pokazać, że coś jest nie tak prosząc o wyjaśnienie (choć w sumie tak zaczęłam pierwszy komentarz :)) tylko pytam specjalistkę CO POWINNO MIEĆ ROZKŁAD NORMALNY. Pomijając fakt, że nic nie musi wcale mieć rozkładu normalnego bo od niego nie zależy jakość wyników statystyki testowej a od innych czynników. Jestem studentką psychologii i jako taka właśnie zadaję pytanie :)
Np. przy teście t Studenta lub ANOVA. Kształt rozkładu jak najbardziej zbliżony do normalnego powinien mieć:
1. rozkład średniej z próby
2. zmienna zależna w badanej grupie (w obu czy trzech porównywanych podgrupach)
3. różnica między średnimi
4. zmienna zależna w populacji
5. reszty
6. inne
Dzięki!
Dziękuję za słowa uznania (specjalistka:) - wiem, że nic nie wiem:) Postaram się odpowiedzieć najlepiej jak mogę: odpowiedź (1) - ale ja bym powiedziała "rozkład średnich" oraz (5). I na dodatek: średnia różnic (ani jak wspomniałaś: same pomiary, ani proste różnice między nimi). Pewnie to wszystko wymagałoby jakiegoś dłuższego posta.
Jeśli chodzi o jakąkolwiek regresję liniową, to rozkład normalny mają mieć reszty, a nie zmienna zależna - według mojego pojęcia tego, co robimy, ale widziałam już w podręcznikach to mocne założenie o normalności rozkładu zależnej.
Na koniec, poprosiłabym Cię - jeśli oczywiście masz czas - o rozwinięcie tego zdania:"Pomijając fakt, że nic nie musi wcale mieć rozkładu normalnego bo od niego nie zależy jakość wyników statystyki testowej a od innych czynników." Wydaje się być bardzo skondensowane i jestem ciekawa, co masz na myśli :-)
W tym zdaniu mam na myśli to co napisane jest we wszystkich artykułach świata (które chyba niechcący przeczytałam :)) z których wynika, że oczywiście rozkład zmiennej ma znaczenie, ale absolutnie nie musi być normalny by wartość p działała (btw. powielasz na blogu językowego potwora w postaci "p wartość" zamiast pisać "wartość p"). Także artykuły jak ten Micceriego o porównaniu p value do jednorożca. No i oczywiście te, które pokazują, że w sumie to jaki by nie był rozkład zmiennej to przy dostatecznie dużych próbach naprawdę test t Studenta działa dobrze. Dopóki np. średnia jest faktycznie dobrą MTC (powiedzmy, że dopóki nie ma outlierów?). Mimo wszystko też czuję, że im więcej czytam tym mniej wiem. Znajomy dziś zadał podobne pytane na cross validated, które pewnie dobrze znasz i uzyskał bardzo "złą" odpowiedź brzmiącą "bywa różnie, kwadratowo i podłużnie"
"You seem to be looking for a simple answer to a simple question, but few simple questions in statistics do have simple answers: there is always a conditional "it depends" prefixed to them. A good analogy would be a question about medicine: it would be fair to ask "what should I do when I think I have a cold," but a real answer would have to inquire about you, your symptoms, your medical history, and so on. Statistical problems are no less individual and complex"
Wracając do tematu. Dlaczego "wszyscy" w swoich podręcznikach piszą, że to rozkład zmiennej w porównywanych grupach powinien mieć rozkład normalny skoro nie jest to prawdą?
Dlaczego "wszyscy" piszą? Nie umiem odpowiedzieć za motywację wszystkich, wyjaśnienie mojej znajduje się w komentarzu wyżej :-) Ale możemy sobie podywagować, jak to psychologowie, dlaczego tak się dzieje. Może dzieje się to z tego samego powodu, dla którego wszyscy w podstawówce uczymy się, żeby przechodzić tylko w wyznaczonych miejscach na zielonym, a potem jakoś tak inaczej dzieje się... Albo uczymy się, że jest Pluton to planeta, a bodajże od 10 lat już nią nie jest. Może dlatego, że najpierw na sztywno uczymy się, żeby coś robić, a potem pojawiają się wyjątki, które z czasem spychają ogólną regułę do narożnika. A może ci "wszyscy" piszą tak, bo nie wiedzą i trzeba ich dokształcić.
Ja po przemyśleniu postanowiłam, że umieszczę w ciągu najbliższego czasu adnotację do postu 2.0., bo może faktycznie bez uprzedzenia za duże uproszczenie jest w moim tekście.
Natomiast piszesz, że powielam językowego potworka w postaci p-wartości. Hmm. Ja na tę kalkę językową przestałam zwracać uwagę, ale dopóki nie podasz mi jakichś dobrych argumentów (o co Cię w tym momencie proszę), to to pozostaje tylko Twoją opinią.
Bardzo Ci dziękuję za odpowiedź.
Jeśli chodzi o p-value to niestety nie mam mocniejszych argumentów niż te które wymienię poniżej. Może Cię to przekona, a może nie ale dla mnie p-wartość brzmi jak MacBig zamiast BigMac w znanej nam wszystkim restauracji.
1. Wikipedia - może nie "najsuperowsze" źródło ale jednak w całym wpisie mowa jest o wartości p a nie p wartości. Co jak co ale chyba dbają tam o poprawność językową?
https://pl.wikipedia.org/wiki/Warto%C5%9B%C4%87_p
2. Mickey Mouse - przecież to Myszka Miki a nie Miki Myszka
3. Donald Duck - przecież to Kaczor Donald a nie Donald Kaczor
4. Student's t test - przecież to test t Studenta a nie Studenta t test.
i wiele wiele więcej, ale na pewno wiesz co mam na myśli :)
Rzeczywiście jest dużo przykładów, choć jest też Piotruś Pan :-)
Prawdopodobnie bardziej poprawnie byłoby tak, jak proponujesz:"wartość p", natomiast muszę poprawność złożyć na ołtarzu komunikatywności, dodatkowo kusi mnie to, że w opracowaniach angielskich jest "p-value" a nie "value p". I myślę, że będziemy musiały się z tym jakoś pogodzić, nie wszystko jest przekładalne z angielskiego na nasze. A przekład wręcz może mieć zupełnie odwrotne skutki, np. tak jak próbuje się przełożyć słowo "bootstrap" (lub też:"bootstrapping")
Witam serdecznie. Bardzo ciekawy blog! Mam pytanie do powyższego wpisu a dokładnie do wielokrotne testowania. Czy dobrze rozumiem, że przeprowadzając test normalności, homogeniczności wariancji i jeszcze test studenta zwiększamy błąd I rodzaju i to jest sytuacja gdzie np. można zastosować poprawkę Bonferroniego bo testy są powiązanie? Co w przypadku gdy chcemy przetestować np. tylko normalność rozkładu ale kilkoma różnymi testami, czy wtedy również zwiększa się błąd I rodzaju, wydaje mi się że nie bo te testy są niezależne ale nie mam pewności. Pozdrawiam!
Post bardzo przystępny i przydatny. Ale nigdzie nie mogę znaleźć informacji, jak interpretuje się samą wartość testu t. Czy jeżeli t=2,75, to jest to "lepsze" czy "gorsze" od t=10,21? I o czym świadczy ujemna wartość (np. t=-4,23) -czy ten minus traktuje się podobnie, jak w korelacji, czy pomija milczeniem? Czy to daje się jakoś zinterpretować, porównać, czy z zasady bazuje się tylko na średnich?
Cześć ALKa - dzięki za feedback, uwzględnię go przy aktualizacji posta, bo rzeczywiście nic nie ma o samej wartości statystyki testowej. Wydaje się, że 2,75 jest "gorsze" niż 10,21, bo we wzorze mamy różnicę średnich i 10,21 oznaczałoby większą różnicę niż 2,75, ale ponieważ nie jest to surowa różnica średnich, to znaczenie ma jeszcze wariancja w grupach i wielkość próby i ... dlatego trzeba więcej tekstu napisać :-) Minus ma takie samo znaczenie jak przy odejmowaniu 7 - 5 to to samo co do wartości bezwzględnej co 5 - 7, ale znaczenie ma kolejność. W tym przypadku, która średnia stoi po lewej stronie minusa, a która po prawej minusa.
Pozdrowienia
Dzięki temu blogu skończę studia <33 cudowna robota, proszę nie przestawać <333
Bardzo dziękuję:) Cieszę się, że się podoba :)
Prześlij komentarz