Hipoteza zerowa i p-wartość: link pomiędzy nimi.

Jak mają się wyniki istotne statystycznie do hipotezy zerowej? Związek między p-wartością a H0 przedstawiam niżej w trzech aktach.

SPIS TREŚCI:

HIPOTEZA ZEROWA Ogólnie można przyjąć, że hipoteza zerowa mówi o braku związku między zmiennymi (na przykład: brak korelacji, brak różnic między grupami, niezależność dwóch zmiennych).

W większości przypadków taka perspektywa sprawdza się - do czasu jak spotykamy testy normalności.

Weźmy konkretny przykład – różnice międzypłciowe w średnim poziomie zarobków. Chodzi o tzw. gender pay gap. To zjawisko z zakresu ekonomii, które polega na tym, że średni poziom zarobków mężczyzn jest wyższy niż średni poziom zarobków kobiet. Mężczyźni zarabiają więcej niż kobiety na całym świecie. Nie jest to coś, co cieszy, ale badania pokazują, że istnieje w wielu krajach. Dla przykładu, powiedzmy, że chcielibyśmy sprawdzić, jak to jest w Polsce. Mamy zatem dwie kategorie (kobieta/mężczyzna) i zmienną ilościową (wynagrodzenie w złotówkach) – zatem test t-Studenta. Ponadto obserwacje są niezależne, bo trudno losowo przydzielić osoby badane do jednej z dwóch kategorii.

Hipoteza zerowa w teście t-Studenta brzmi H0: μ1 = μ2 Jest to ogólny zapis, pasujący do każdego badania spełniającego wyżej nakreślone warunki. Ponieważ nasz przykład odnosi się do luki płacowej to hipoteza zerowa tutaj brzmi: nie ma różnic między kobietami a mężczyznami w średnim wynagrodzeniu. Można ją zapisać symbolicznie H0: μkobiety = μmężczyźni

Gdyby nie było zmienności, sprawa byłaby prosta - różnica między średnimi zawsze wynosiłaby zero - w każdej z prób - niezależnie, kto badałby ją i w jakim miejscu na Ziemi: czy w Polsce, w Szwecji czy w USA. Zatem bardzo ubogi histogram, a raczej hybryda histogramu i wykresu słupkowego i wyglądałaby tak:

W zdaniach powyżej używam trybu przypuszczającego, ponieważ tak wyglądałby świat bez zmienności. Ta zmienność jest charakterystyczną cechą otaczającego świata. Przecież mężczyźni zarabiają różnie – podobnie jak kobiety. Płace różnią się nawet bez podziału na płeć.  To powoduje, że nawet badając to samo zjawisku, otrzymuje się różne wyniki. Różnica między średnimi zarobkami kobiet i mężczyzn w prawie każdej próbie nie będzie równa zero.

I tu jest właśnie rola statystyki – czy z faktu, że na próbie wyszło, że są różnice, to mogę powiedzieć, że w całej populacji również są różnice? Czy jeśli średnia zarobków kobiet w moim badaniu jest niższa niż średnia zarobków mężczyzn, to jednocześnie w populacji średnia kobiet jest niższa niż średnia zarobków mężczyzn?

HIPOTEZA ZEROWA ... I ROZKŁAD STATYSTYKI TESTOWEJ Hipoteza zerowa robi coś więcej niż tylko siedzi i opowiada o braku związku. Jest to przecież hipoteza statystyczna, a każda hipoteza statystyczna tak naprawdę postuluje pewien rozkład wyników. Jakich wyników? Nie surowych, zebranych przez badacza, znajdujących się w wierszach i kolumnach SPSS-a, ale wyników statystyki testowej. Statystyka testowa to sedno każdego testu statystycznego. Jest to wzór, który przekształca surowe dane – mówiąc metaforycznie, wysysa z nich informację potrzebną podczas weryfikacji hipotez.

Hipoteza zerowa mówi, że ponieważ nie ma związku między zmiennymi, to rozkład wartości statystyki testowej jest taki-to-a-taki (dany określony wzorem). Niestety, SPSS nie pokazuje rozkładów statystyk testowych. Skąd wiadomo, jaki jest ten wzór? Cóż, był to problem tego, który opracowywał test. William Gosset musiał się napracować z testem t-Studenta, aby rozkład wartości statystyki testowej swojego testu znaleźć. Dzięki niemu wiadomo, że jeśli tylko nie ma luki płacowej i średnie zarobki mężczyzn i kobiet są równe, to powinniśmy oglądać taki rozkład wartości statystyki testowej:

Ze względu na zmienność, zamiast wykresu z żółtym, długim i cienkim prostokątem mamy właśnie ten - rozkład t-Studenta. Wiemy o nim, że jest symetryczny, ma nieco cięższe ogony niż rozkład normalny, a jego kształtem rządzi liczba stopni swobody (równa N - 2, czyli liczbie osób badanych pomniejszonej o dwa). Rozkład statystyki testowej to częstość pojawiania się wartości statystyki testowej, tej pojedynczej liczby, do której zostały sprowadzone Twoje dane. Ponadto, kształt tego rozkładu jest właśnie taki, jak wyżej, ponieważ przyjęliśmy, że nie ma różnic w płacach.

Teraz – co z tym rozkładem możemy zrobić? Nie są to surowe dane - ani to rozkład płac kobiet, ani rozkład płac mężczyzn. Histogramy wynagrodzeń wśród obu płci wyglądałyby inaczej. Na przykład jest ich dwa (osobno dla każdej z płci) i nie obejmują wartości ujemnych na osi OX. 

Wychodzi na to, że masz do dyspozycji dwa rodzaje rozkładów: jeden rodzaj to rozkład Twoich danych (czyli surowych wyników osób badanych), a drugi to rozkład przekształconych danych (czyli wartości statystyki testowej aktualnie używanego testu statystycznego).

HIPOTEZA ZEROWA, ROZKŁAD STATYSTYKI TESTOWEJ ... I ISTOTNOŚĆ STATYSTYCZNA — W tej części powiążemy hipotezę zerową i istotność statystyczną. Otóż, omówiony w poprzedniej części rozkład wartości statystyki testowej posłuży do obliczenia p-wartości (p-value), czyli tego, co SPSS nazywa się istotnością statystyczną. Jak to się dzieje? Spójrzmy jeszcze raz na rysunek rozkładu statystyki testowej.

To prawie ten sam rysunek z tym, że teraz dołożyłam wartość statystyki testowej, uzyskaną przez badacza w badaniu - wynosi ona nieco poniżej dwa (różowy punkt na osi OX). Chciałoby się wiedzieć, jakie jest prawdopodobieństwo uzyskania tej wartości. Niestety, nie można po prostu odczytać wartości krzywej nad tym punktem i potraktować jej jako prawdopodobieństwo. W matematyce umówiliśmy się, że rozkłady ciągłe mają taką własność, że prawdopodobieństwo konkretnej wartości statystyki testowej (tego, co leży na osi OX) jest równe zero (mimo, że widzisz coś około jednej dziesiątej). To jest wartość gęstości dla wartości statystyki testowej, ale nie jest to równoznaczne z prawdopodobieństwem - trust me, I'm a mathematician. Wobec tego liczymy pola.

Tu oczywiście wchodzi cała kwestia, jak liczyć owe pole - z lewej strony uzyskanej wartości statystyki testowej? z prawej? obustronnie? Czyli tzw. stronność testu. Zostawimy to teraz, ponieważ zajmujemy się relacją między hipotezą zerową a p-wartością/istotnością statystyczną i dla ułatwienia będziemy liczyć pole z jednej strony (z prawej).

Powierzchnia pola zaznaczona na żółto to p-wartość, w SPSS: istotność statystyczna. Im mniejsze pole, tym bardziej istotny statystycznie wynik. Niestety (trzeci raz w tym poście użyte niestety), język nie jest tutaj naszym sprzymierzeńcem. Jeszcze raz: im mniejsza p-wartość, tym większa istotność statystyczna. Kierunek stopniowania jest odwrotny (mniejsza - większa). Wszystko przez traktowanie p-wartości i istotności statystycznej jako synonimów. Ściśle rzecz ujmując, p-wartość to liczba (pole powierzchni.. to żółte), a istotność statystyczna to stan małej powierzchni tego pola. Gdy powierzchnia tego pola nie przekracza 5%, to wynik testu jest istotny statystycznie.

INTERPRETACJA — Podam teraz dwa wyjaśnienia: to, którego używam (także podczas zajęć) oraz drugie, równoważne. Oba wynikają z tekstu Amerykańskiego Towarzystwa Statystycznego na temat interpretacji p-wartości.
- p-wartość mówi o typowości Twojej wartości statystyki testowej. Innymi słowami, mówi o tym, jak typowe są uzyskane przez Ciebie wyniki, zakładając brak zależności. Jeśli p-wartość jest mniejsza niż 5% (pole powierzchni jest mniejsze niż 5%) a wynik jest istotny statystycznie - wówczas dane są nietypowe dla modelu postulowanego przez hipotezę zerową. Gdy człowiek niesie zakrwawiony nóż, to jest to nietypowe zjawisko dla modelu, że ów człowiek jest niewinny.
- p-wartość świadczy przeciwko hipotezie zerowej. Wyjdźmy od tego, że w ogonach rozkładu znajdują się wyniki nietypowe. To tutaj znajdują się takie wartości statystyki testowej, które dadzą istotność statystyczną. Jeśli p-wartość jest mniejsza niż 5% (pole powierzchni jest mniejsze niż 5%) a wynik jest istotny statystycznie - wówczas wynik statystyki testowej świadczy przeciwko hipotezie zerowej. Upraszczając sprawę – zakrwawiony nóż w rękach świadczy przeciwko niewinności człowieka. Jest to duże uproszczenie, bo hipoteza o niewinności ("ten człowiek jest niewinny") nie jest hipotezą statystyczną, a zwykłym zdaniem, ale przykład ma zilustrować owe świadczenie przeciwko hipotezie zerowej. A teraz przeczytaj uwagę niżej.

UWAGA! P-wartość nie jest to ostatecznym, kategorycznym dowodem na fałszywość hipotezy zerowej. Nie pozwala ona podjąć zero-jedynkowej decyzji, co zrobić z H0. To dlatego nie używamy słowa odrzucić (reject). Jedyne, co możemy powiedzieć to to, że uzyskane przez nas dane są mało kompatybilne z tym, co postuluje hipoteza zerowa. Dalej badacz może wykorzystać wiedzę odnośnie testów statystycznych i ich zachowaniu oraz wielkość efektu, aby przekonać się, czy rzeczywiście jego dane coś pokazują. Pomyśl o tym w ten sposób: rzadki wynik jeszcze nie oznacza stuprocentowej pewności. Wracając do przykładu, być może człowiek był uczniem i niósł zakrawiony nóż na przedstawienie szkolne :-)

W żołnierskich słowach: p-wartość, w języku polskim nazywana istotnością statystyczną, to liczba, która świadczy przeciwko hipotezie zerowej. Trzeba jednak pamiętać o tym, że w dużych próbach, istotne statystycznie są również trywialne efekty (korelacje, różnice, itd.), dlatego tak ważne jest obejrzenie wielkości efektu.

Brak komentarzy: