Statystyka w psychologii: NHST 2.0: Procedura testowania istotności statystycznej hipotezy zerowej

MAJ 2026| LJK | ~1 655 słów | ~ 11 630 znaków

Wprowadzenie

Przez ostatnie dekady kroki statystycznej procedury weryfikacji hipotez naukowych przedstawiały się mniej więcej w taki sposób:

Sformułowanie hipotez zerowej H₀ i alternatywnej H₁.
Ustalenie poziomu istotności statystycznej – najczęściej przyjmuje się 5%, co oznacza 5% ryzyko odrzucenia prawdziwej hipotezy zerowej.
Wybór testu statystycznego: Dobranie odpowiedniego testu (np. t-Studenta, do rodzaju danych i rozkładu.
Obliczenie statystyki testowej: Obliczenie wartości na podstawie danych z próby.
Podjęcie decyzji: Porównanie p-wartości, krótko: p, z poziomem istotności statystycznej.

Jeśli p < 0.05, to odrzucamy H₀ na korzyść H₁.
Jeśli p > 0.05, to przyjmujemy H₀. Gdy p - wartość = 0.05, to badacz podejmuje decyzję.

Zanim przejdziemy do konkretnych kroków, zatrzymajmy się przy idei, która stoi za podejściem do testowania statystycznego. Pozwoli nam to zrozumieć, dlaczego w ogóle warto cokolwiek zmieniać – w końcu wiadomo, że lepsze bywa wrogiem dobrego - czyli skąd bierze się odejście od traktowania p-wartości jak mechanicznej „wajchy”, która zerojedynkowo mówi: „przyjmij” lub „odrzuć”. W nowym wydaniu testowania hipotez statystycznych, istotność statystyczna przestała być wyrocznią; stała się raczej wskazówką, która bywa podatna na zniekształcenia wynikające ze specyfiki danych. Nowoczesne podejście do testowania to już nie mechaniczna decyzja, a myślenie statystyczne.

Dla ułatwienia poniższy materiał dotyczący weryfikacji hipotez statystycznych dotyczy testu obustronnego.

Zacznijmy jeszcze raz, badacz nauk społecznych, np. psychologii, stawia hipotezę badawczą. Zgodnie z metodą naukową, należałoby zweryfikować zaproponowane stwierdzenie za pomocą badania empirycznego. Gdyby badacz był matematykiem, stanąłby przy tablicy i białą kredą zacząłby wyprowadzać wzór z przyjętych przesłanek. W dziedzinie nauk empirycznych tak to, niestety, nie działa. Już dawno temu umówiliśmy się, że ludzie są zbyt skomplikowani, aby na podstawie jednostkowego badania pojedynczej osoby dało się wyprowadzić prawa rządzące całą ludzkością. Badamy więc wiele osób (lub “osób”, ponieważ w psychologii porównawczej termin “osoba” obejmuje również pozostałych członków królestwa zwierząt) i analizujemy zbiorczo wyniki.

Jak wyniki badania mogłyby wykazać, że badacz ma rację? Jeśli jego hipoteza jest słuszna, dane w badaniu powinny zachowywać się tak, jak ona przewiduje. Jeśli hipoteza przewidywała, że jedna grupa osiągnie wyższe wyniki niż druga, to ten fakt powinien znaleźć odzwierciedlenie w średnich arytmetycznych. Jeśli hipoteza przewiduje pozytywny związek między zmiennymi, to wyższym wartościom jednej zmiennej powinny odpowiadać wyższe wartości drugiej zmiennej.

Problem w tym, że tak naprawdę nie interesuje nas tylko to, co dzieje się w tym jednym konkretnym badaniu - i tu pojawia się miejsce na testowanie statystyczne. Wszystko dlatego, że interesuje nas cała populacja i to, czy badana zależność w niej całej występuje. Tak naprawdę badacz liczy na to, że gdyby w toku badania otrzymał inną próbę, to wyniki byłyby zbliżone, prowadząc do tych samych wniosków. Na przykład, w każdej próbie kobiety miałyby średnio wyższe wyniki niż mężczyźni. Może nie zawsze o tyle samo wyższe, ale ogólnie - wyższe. Ubierając to w techniczne pojęcia, jeśli hipoteza badawcza jest słuszna, to wyniki uzyskiwane w próbie powinny być typowe, często spotykane, a jeśli częstość ma związek z prawdopodobieństwem, to również i wielce prawdopodobne. O tym, jak tę typowość sprawdzić, dowiemy się za chwilę.

Wyglądałoby na problem w odniesieniu rezultatów badania uzyskanych w próbie do wnioskowania na temat całej populacji jest tylko techniczny. Co w tym trudnego? Wystarczy przeprowadzić badanie, wykonać analizę statystyczną i sprawdzić, czy otrzymane wyniki są typowe, prawdopodobne w okolicznościach przewidywanych przez hipotezę badacza. Jeśli są bardzo prawdopodobne, to dobrze (dla hipotezy badawczej). Jeśli mało prawdopodobne, to - źle dla niej, choć źródeł tego, co mogłoby pójść nie tak, można dopatrywać się zarówno w braku słuszności postawionej hipotezy badawczej jak i w bardziej przyziemnych sprawach. Zatem, wydawało by się, że co w tym wszystkim skomplikowanego? Niestety, w toku weryfikacji hipotezy okaże się, że sprawa jest bardziej zawiła, a zawiłość pojawi się już w pierwszym momencie.

Hipoteza zerowa okularami badacza

Już na początku należy zauważyć, że dochodzi do przesunięcia punktu skupienia uwagi. W klasycznym testowaniu hipotez punktem wyjścia jest przyjęcie hipotezy zerowej o braku zależności. Czasami mówi się o niej, jako o zaprzeczeniu hipotezy badawczej. Osobną sprawą jest to, czy to jest dobre postępowanie. Studentom mówi się, że chodzi o tzw. konserwatyzm naukowy. Jest to stanowisko, w którym dostarczenie dowodu na istnienie jakiegoś zjawiska jest obowiązkiem osoby twierdzącej. Wychodzimy z punktu widzenia, że czegoś nie ma i pokazujemy, że jednak coś jest. Wydaje się to rozsądnym posunięciem. Oczywiście, mało kto jest na I lub nawet V roku studiów jest na tyle wyposażony w wiedzę z zakresu filozofii nauki, aby wejść w dyskusję. Dopiero po jakimś czasie przychodzi refleksja, że w końcu atakujemy nie tę hipotezę, którą chcieliśmy poddać weryfikacji. Długo po zakończeniu edukacji pojawia się myśl, aby zadać pytanie:”czy podważenie jakiejś hipotezy o braku zależności, która w gruncie rzeczy nie jest przedmiotem zainteresowania badacza, jest udowodnieniem jego hipotezy naukowej?”. Okazuje się, że to nie jest do końca dobrze pojęty konserwatyzm.

W tym świetle, przyjęcie perspektywy braku zależności jest po prostu wygodnym technicznie punktem wyjścia. Trzeba pamiętać, że testowanie hipotez statystycznych pojawiło się w czasach, gdy nie było maszyn obliczeniowych innych niż ludzki umysł. Zauważmy, że pytanie o typowość konkretnego wyniku jest zawsze pytaniem o rozkład wszystkich innych wyników. Zadaniem matematyków jest i zawsze było ten rozkład stworzyć, a jego stworzenie znacznie ułatwia się po przyjęciu braku zależności (efektu). W najlepszym razie używa się argumentu, który zawsze ucina dyskusję: “bo tak zawsze było” i wraca do punktu wyjścia - stawiamy hipotezę zerową.

Wracając do głównego wątku, badacz stawia hipotezę zerową o braku zależności, która jest tłumaczeniem na język pojęć statystycznych nawet nie samej hipotezy badawczej a jej negacji. Niepostrzeżenie to hipoteza zerowa staje się okularami, przez które patrzy na otrzymane w analizach wyniki. W klasycznym testowaniu hipotez żyjemy i dokonujemy obliczeń w świecie, w którym badana zależność nie istnieje. W takim razie, co dane mogą powiedzieć badaczowi? Czy to, że są przypadkowym dziełem losowych fluktuacji? Czy to, że hipoteza zerowa jest prawdziwa?

Niestety, żadna z tych odpowiedzi nie jest prawidłowa.

Test statystyczny, w którym hipoteza zerowa rządzi

Zanim jeszcze na dobre rozgości się zagadnienie testowania hipotez, warto wiedzieć, że najpierw dochodzi do przekształcenia surowych wyników i całej zawartej w nich informacji do pojedynczej liczby zwanej wartością statystyki testowej. To ona stanowi trzon testu statystycznego.
surowe dane w bazie → wartość statystyki testowej

Wartość statystyki testowej, czyli liczbowy wynik testu statystycznego, np. t = 1.72, dostarcza odpowiedzi na techniczne pytanie w postaci wskaźnika zwanego p-wartością. P-wartość mówi jak jest prawdopodobieństwo wystąpienia takiej wartości statystyki testowej, jak uzyskana przez nas oraz większej, o ile te okulary są dobre, czyli o ile nie ma zależności między zmiennymi.

Mała p-wartość, np. p = 0.023, oznacza mało prawdopodobny wynik, nietypowy dla hipotezy zerowej.
Duża p-wartość np. p = 0.823, oznacza wielce prawdopodobny wynik, typowy dla hipotezy zerowej.

WARTOŚĆ EPISTEMICZNA | To jeszcze nie wszystko. Pozostało pytanie o to, jaka jest wartość epistemiczna tej małej czy dużej p-wartości? Czego dowiadujemy się dzięki temu, że wynik jest mało czy bardzo prawdopodobny? Aby to dobrze zrozumieć, musimy pamiętać o okularach trzymanych na nosie, przez które badacz patrzy na otrzymane rezultaty.

Hipoteza zerowa H0 jest modelem rzeczywistości, w którym zależność między zmiennymi po prostu nie istnieje (np. obie grupy nie różnią się pod względem badanej cechy, nie ma korelacji). Współcześnie uważa się, że z pomocą p - wartości badacz dowiaduje się, w jakim stopniu jego dane są zgodne z tym modelem. Czy układają się w taki sposób, który jest zgodny ze wzorcem braku zależności, czy też nie.

Zauważ, że w tym nowym podejściu nie ma żadnej mowy o podejmowaniu decyzji o przyjmowaniu/odrzucaniu jakiejkolwiek hipotezy - w zamian jest sprawdzenie, jak wyglądają dane na tle jednej z nich. Obecnie p-wartość stała się tylko jednym ze wskaźników branych pod uwagę w weryfikacji hipotez, a nie rozstrzygającą wyrocznią.

W takim razie kiedy można uznać, że dane są zgodne z hipotezą zerową? Cóż, przyjęło się uznawać 5% za punkt odcięcia. Nie jest to efekt jakiegoś dowodu matematycznego, ale pewna umowa, która ułatwia interpretację.

P-wartość poniżej 5% mówi, że dane nie są zgodne z hipotezą zerową. O takim wyniku testu mówi się, że jest istotny statystycznie.
P-wartość powyżej 5% mówi, że dane są zgodne z hipotezą zerową. O takim wyniku testu mówi się, że jest nieistotny statystycznie.

Pierwszy krok testowania: badanie istotności statystycznej

1️⃣ W ten sposób dotarliśmy do pierwszego kroku testowania. Jest nim badanie istotności statystycznej, czyli sprawdzenie na ile dane są prawdopodobne pod hipotezą zerową H₀

Nieistotny statystycznie wynik mówi, że dane zachowują się tak, jak powinny w sytuacji braku zależności. Z kolei o istotnym statystycznie wyniku można powiedzieć w następujący sposób: zachowanie danych jest dziwne, jeśli hipoteza zerowa miałaby być słuszna, prawdziwa. Pojawia się tu pewien problem. O ile istotność statystyczna poddaje w wątpliwość hipotezę zerową, mało prawdopodobny nie oznacza jeszcze nieprawdopodobny. Trzeba zebrać więcej informacji.

Dla badacza empirycznego nie jest to dobra wiadomość. Badacz chciałby mieć napisane czarno na białym, że hipoteza zerowa o braku zależności jest fałszywa, nieprawdziwa, niesłuszna, odrzucona, że może podjąć decyzję o jej odrzuceniu. Niestety, niezgodność danych z hipotezą zerową (czyli istotny statystycznie wynik) jeszcze nie oznacza obalenia hipotezy zerowej. Nie oznacza też potwierdzenia hipotezy badawczej. Niska p-wartość jest dopiero sygnałem, że brak zależności nie jest dobrym opisem danych. Innymi słowy, że hipoteza zerowa może być złymi okularami.

W tym miejscu powinno paść pytanie: “gdzie w tym wszystkim hipoteza badawcza?” Przecież p-wartość nie odnosi się do hipotezy naukowej autora badania. Dane mogą być sprzeczne z hipotezą zerową, ale wcale nie musi to uwiarygodnić jego przewidywań. Dzieje się tak zwłaszcza wtedy, gdy zakłada on konkretny kierunek zależności, a nie jedynie samo istnienie jakiegoś związku.

Drugi krok testowania: kierunek zależności

2️⃣ Oprócz badania istotności statystycznej w teście, drugim krokiem w porządnej weryfikacji hipotez jest zatem upewnienie się o tym, że dane zachowują przewidywany kierunek zależności między badanymi zmiennymi.

Czym jest kierunek zależności? To po prostu charakter relacji między zmiennymi – na przykład założenie, że wraz ze wzrostem jednej zmiennej rośnie także druga, albo że jedna z grup uzyskuje średnio wyższe wyniki niż pozostałe. Czasami w danych udaje się wykryć związek, ale okazuje się on odwrotny do oczekiwań: różnica między grupami ma inny zwrot, a korelacja przeciwny znak. Dlaczego tak się dzieje? Dwa najczęstsze powody to niezrozumienie mechanizmów leżących u podstaw zjawiska (np. gdyby badacz założył, że kobiety są średnio wyższe od mężczyzn, mimo literatury mówiącej coś przeciwnego) lub trafienie na bardzo specyficzną próbę.

Jeśli badacz nie upewni się, czy zaobserwowana zależność ma pożądany kierunek, może przedwcześnie ogłosić sukces. Tymczasem dane mogą wręcz wywracać jego teorię do góry nogami. Wynik może być istotny statystycznie, ale hipoteza badawcza pozostanie niepoparta. Dlatego tak kluczowe jest uważne przyglądanie się kierunkowi zależności, a nie tylko samym gwiazdkom przy p-wartości.

Badanie kierunku zależności to najprostsza część procedury wnioskowania. Jak to zrobić? Wszystko zależy od tego, czego szuka się. Czy szukasz korelacji czy różnic między grupami. Wystarczy sprawdzić znak współczynnika korelacji, na wielkość średnich, itd. i upewnić się, że ma znak zgodny z tym, co przewiduje badacz.

Trzeci krok testowania: ocena wielkości efektu

3️⃣ Istotność statystyczna i prawidłowy kierunek zależności jeszcze nie decydują o potwierdzeniu hipotezy badawczej. Od czasu kryzysu replikacyjnego środowisko naukowe przekonało się, że istotność statystyczna nie jest tożsama z istotnością praktyczną. Przykładowo, korelacja może być istotna statystycznie, ale nieistotna w praktyce. Dlatego ostatnią rzeczą w procedurze jest sprawdzenie wielkości efektu (ang. effect size). Wielkość efektu to siła zjawiska - miara tego, jak bardzo związane są ze sobą zmienne. Innymi słowy, to odpowiedź na pytanie:”choć dane pokazują istnienie zależności, ale jaka jest jej skala?”

Do każdego głównego scenariusza badawczego można przyporządkować co najmniej jedną taką miarę. Przy analizie współzmienności wykorzystamy współczynnik korelacji r Pearsona, natomiast w badaniu różnic między grupami – d Cohena lub η2 (eta-kwadrat). W tym kroku sprawdzamy, czy siła zależności ma znaczenie praktyczne i czy nie jest po prostu zaniedbywalna. Istnieją konkretne progi interpretacyjne, które pomagają to ocenić. Na przypadku współczynnika korelacji r-Pearsona standardowo przyjmuje się wartości między – 0.1 a + 0.1 jako przedział zaniedbywalnych korelacji. Oczywiście należy pamiętać, że to tylko pewne umowne ramy, jednak dają one pogląd na to, co jest realnym efektem, a co jedynie statystycznym szumem – nawet jeśli ten szum wydaje się układać w przewidywaną przez badacza stronę.

Interpretacja wyników testu

Podsumowując, współczesna interpretacja wyników testu statystycznego to zestaw trzech pytań:

czy wynik testu jest istotny czy nieistotny statystycznie? Tj. czy otrzymany przez nas wynik jest typowy dla hipotezy zerowej, czy też nie.
- Co oznacza istotność statystyczna testu?
- technicznie | prawdopodobieństwo uzyskania danych
- epistemicznie | czy dane są zgodne z hipotezą zerową czy też nie? Czy model opisu danych, który proponuje hipoteza zerowa, jest dobrym opisem rzeczywistości?
czy kierunek zależności jest zgodny z przewidywaniem postawionym przez badacza w hipotezie badawczej (różnica między hipotezami).

Ten krok zapobiega myleniu istotności statystycznej z potwierdzeniem hipotezy badawczej. Może zdarzyć się tak, że badacz przewiduje korelację dodatnią, a tymczasem korelacja jest ujemna albo różnica między średnimi jest w odwrotnej kolejności.

czy wielkość efektu nie jest zaniedbywalna? jest więcej niż zaniedbywalna - system progów Cohena dla praktycznie każdego schematu badawczego.
- Ten krok wykonuje się, aby uniknąć problemu z istotnym statystycznie, lecz nieistotnym praktycznie wynikiem (to trudne w interpretacji)

Dopiero na tej podstawie 3 x tak możemy stwierdzić, że hipoteza badawcza została w konkretnym badaniu “potwierdzona” (aka. dane dostarczają wsparcia empirycznego).

Strony

NHST 2.0: Procedura testowania istotności statystycznej hipotezy zerowej

Wprowadzenie

Hipoteza zerowa okularami badacza

Test statystyczny, w którym hipoteza zerowa rządzi

Pierwszy krok testowania: badanie istotności statystycznej

Drugi krok testowania: kierunek zależności

Trzeci krok testowania: ocena wielkości efektu

Interpretacja wyników testu

Brak komentarzy:

Mechanika testów klasycznych

Ważne

Łączna liczba wyświetleń