Testowanie hipotez

Wprowadzenie.
Nauka nie tylko gromadzi fakty dotyczące rzeczywistości, ale również wysnuwa pewne wnioski na ich podstawie i dokonuje prognozy, dlatego oprócz narzędzi potrzebnych do zbierania danych, musimy też posiąść umiejętność sprawdzania, czy nasze przypuszczenia są słuszne i do tego właśnie służy testowanie hipotez. Oczywiście, nie daje ono stuprocentowej pewności że nasze przypuszczenia są prawdziwe, ale skoro musimy się oprzeć na czymś to czemu nie na modelach mających uzasadnienie w matematyce?

O tym, jak należy myśleć o nauce piszą filozofowie nauki, np. Comte, Popper, Lakatos, w skrócie wygląda to tak: stawiamy hipotezę i staramy się ją obalić. Jeśli nie da się obalić (sfalsyfikować), to uznajemy że do tego momentu w dziejach jest ona prawdziwa. Na przykład. "Ziemia jest płaska". Wobec tego, zgromadzono fakty i ją obalono. W tym przypadku nie odbyło się to bezkrwawo i Galileusz miał problem z Kościołem. Ogólnie tak to się odbywa, że stawiamy hipotezę i próbujemy ją sfalsyfikować.

Gwoli ścisłości, hipoteza to według słownika PWN to "założenie oparte na prawdopodobieństwie, wymagające sprawdzenia". To jest słownikowa definicja tego pojęcia.

Z kolei hipoteza statystyczna jest nieco bardziej specyficzna.
Hipoteza statystyczna jest zdaniem sformułowaniem za pomocą statystycznego aparatu pojęciowego dotyczącym rozkładu cechy.
Hipotezę statystyczną poprzedza hipoteza (badawcza), która jest efektem interakcji przemyśleń badacza (magistranta, doktoranta, doktora, etc.), jego wiedzy i rezultatów badań. Umiejętność tworzenia hipotez badawczych to cenny element wyposażenia naukowego i w założeniu skutek dydaktyczny przedmiotu Metodologia.

Podsumowując, badacz przekłada hipotezę badawczą na hipotezę statystyczną. Hipoteza badawcza brzmiałaby:"Ziemia jest płaska". Hipoteza statystyczna brzmiałaby:"Współczynnik płaskości Ziemi wynosi 0".

W naszej tradycji badawczej, która jest spuścizną po zeszłym stuleciu, badacz przygotowuje dwie niesymetrycznie traktowane hipotezy: zerową oraz alternatywną. W praktyce hipotezie zerowej myślimy jako o tej, którą chcemy odrzucić (obalić, falsyfikować), ale zanim przeprowadzimy test, to zakładamy jej pierwszeństwo nad hipotezą alternatywną.

Trochę to jest na bakier z tym, co napisałam w części odnośnie filozofii nauki, bo hipoteza zerowa nie jest tą hipotezą, którą interesuje się badacz. Badacza najczęściej interesuje związek między zjawiskami, a hipoteza zerowa odnosi się do braku, ale na razie zostawmy to.

W hipotezach (zerowej i alternatywnej) odnosimy się do populacji, a nie do próby, dlatego w zapisie ważne jest stosowanie odpowiedniej notacji. Symbol µ oznacza średni poziom danej cechy w populacji, natomiast "x z kreseczką" to średni poziom danej cechy w próbie. Hipotezy dotyczą populacji, stąd też wybierzemy notację grecką.


Hipoteza 'do bólu' zerowa.
Czasami (bo nie zawsze) hipoteza zerowa przybiera dość 'zdegenerowaną postać' i jest dosłownie „zerowa”, ponieważ stwierdza:
- brak różnic między grupami, albo:
- brak związku (korelacji) między zmiennymi, albo
- przyrównanie współczynnika regresji do zero albo że dany rozkład jest równy rozkładowi odniesienia (jak np. w testach normalności).
Taka hipoteza profesjonalnie nazywa się 'nil hypothesis'.

Konserwatyzm naukowy, Popper i NHST.
Tu chciałam zapowiedzieć odniesienie się do filozofii i tego, czy rozumowanie stojące za NHST jest zgodne z naukowym konserwatyzmem (krótka odpowiedź: nie jest). Na razie tylko zapowiedź, ponieważ muszę obmyśleć, jak przystępnie przedstawić swoją wiedzę, ale zaznaczam, żebyście wiedzieli, że 'coś się dzieje'.

Przykład.
W naszych badaniach walidujących kwestionariusz MFQ jedną z dodatkowych hipotez było to, że przy ocenie, czy dane zachowanie jest moralne czy nie, fakt, czy ktoś ucierpiał czy nie jest ważniejsza dla kobiet niż dla mężczyzn. Wprawdzie nie jest to zbyt wyrafinowane stwierdzenie, ale niniejszą hipotezę badawczą sprawdziliśmy za pomocą dostępnych danych, a dokładniej wyników kwestionariusza dla kodu Troski/Krzywdy. Tym samym wykonaliśmy zadanie testowanie hipotezy statystycznej takiej postaci: średni poziom zmiennej Troska/Krzywda jest równy dla kobiet i dla mężczyzn (bardziej profesjonalnie to mogłoby brzmieć: średni poziom zmiennej Troska/Krzywda nie jest zróżnicowany ze względu na płeć). W tym przypadku hipoteza zerowa wyglądała tak:

    H0: µk = µm

Dla osób zaznajomionych z testami statystycznymi, taka hipoteza powinna przywodzić na myśl test t Studenta...


Rodzaje hipotez (parametryczne/nieparametryczne).
Jeśli jej treści odnosi się do konkretnego parametru rozkładu (np. średni poziom zmiennej Troska/Krzywda wśród kobiet) to wówczas hipoteza prosta. Natomiast, jeżeli dotyczy całego spektrum (przedziału) możliwych parametrów rozkładu (np. średni poziom zmiennej Troska/Krzywda jest wyższy niż 3.5; rozkład zmiennej Troska/Krzywda jest rozkładem normalnym) to jest to hipoteza złożona.

Hipotezy mogą być również parametryczne, czyli takie które jednoznacznie określają rozkład (np. średni poziom zmiennej Troska/Krzywda jest równy 3.5) albo nieparametryczne, które stwierdzają postać rozkładu (np. gęstość zmiennej Troska/Krzywda jest gęstością normalna).

Statystyka testowa.
Statystyka testowa jest pośrednikiem między hipotezą zerową a decyzją o jej przyjęciu lub odrzuceniu (najczęściej: p-wartością). Trzeba wiedzieć, że statystyka testowa to zmienna losowa, ponieważ zależy od samej próby i jej wartość zmienia się losowo z próby na próbę (losowo zmienia się, więc jest zmienną losową). Ta jej wartość pomaga określić stopień rozbieżności danych z modelem statystycznym (w skrócie - postulowanym w hipotezie zerowej). Przy czym, (i to jest najważniejsza rzecz dotycząca charakteru statystyki testowej): rozkład statystyki testowej jest znany, o ile założymy prawdziwość hipotezy zerowej.

Jeśli założę, że "średnie w próbach są równe" albo "współczynnik korelacji między dwoma zmiennymi jest równy zero", to rozkład statystyki testowej jest znany i jest to rozkład t-Studenta czy rozkład normalny.

Rozkład statystyki testowej. 
Nie ucieknie się od pojęcia 'funkcji', ale spróbuję to podać w możliwie najbardziej przystępny sposób – będzie na maszynach.
Z samych naszych danych nie da rady podjąć decyzji, czy hipoteza zerowa jest prawdziwa, czy nie. Wobec czego przeprowadzamy test statystyczny, a na podstawie jego rezultatów podejmujemy odpowiednią decyzję. Podstawą testu statystycznego jest statystyka testowa, czyli taka maszynka do mielenia zebranych danych. Maszynka ta wypluwa z siebie liczbę zwaną wartością statystyki testowej. W skrócie można i na maszynkę, i na jej produkt mówić statystyka testowa.
Gdybyśmy zebrali inne dane, to wówczas maszynka wyplułaby inną liczbę.
Aby móc ocenić, czy liczba wypluta przez maszynkę jest typowa lub nie, musimy wiedzieć, np. z instrukcji, jakie zwykle rezultaty wypluwa, czyli musimy znać częstotliwość poszczególnych liczb. Jedne z nich są typowe, inne są mniej typowe, jeszcze inne są bardziej ekstremalne – instrukcja jasno to określa. Innymi słowami, musimy znać rozkład liczb wypluwanych przez maszynkę. Instrukcją są założenia dołączane do każdego testu statystycznego, pozwalają one po prostu w ciemno założyć, że maszynka wypluwa liczby według wskazanego wzorca. Oczywiście, można spierać się, czy takie podejście jest dobre, ale na razie zostawmy te dywagacje.

P-wartość.
Psychologowie (choć przyznam, że to się zmienia) operują pojęciem p-wartości. Pojęcie to rozpowszechnił R.A.Fisher (nie wprowadził) i służy ono do podjęcia decyzji co zrobić z hipotezą zerową (przyjąć lub odrzucić). Opisowa wersja według American Statistical Association (2016) brzmi:

p-wartość jest to prawdopodobieństwo pod warunkiem określonego modelu statystycznego, że statystyczna
statystyka opisowa np. próbkowa różnica między średnimi będzie równa lub bardziej ekstremalna niż zaobserwowana wartość (s.8)
P-wartość w SPSS jest umieszczona w kolumnie "Istotność" więc oba pojęcia są stosowane wymiennie.


Hmm..
Cóż, z p-wartością jest związane mnóstwo kontrowersji. Ja sama nie jestem neutralna w temacie, ale opisuję ten konstrukt ponieważ adepci psychologii czytają różne książki i uczą się z różnych źródeł.
P-wartość to na pewno nie jest prawdopodobieństwo odrzucenia hipotezy zerowej wówczas gdy ona jest prawdziwa (powinno kojarzyć się z błędem I-go rodzaju, o czym będzie niżej). Nie jest to też prawdopodobieństwo prawdziwości hipotezy zerowej.

Wokół tego pojęcia narosło wiele więcej mitów (link do tekstu wkrótce), ale krótko mówiąc sprawa wygląda tak: dwóch poważanych statystyków Fisher i Neymann pożarło się o kwestie testowania hipotez. Mniejsza o większość, świat badaczy czekał na jedno konkretne stanowisko i wobec kofliktu wziął sprawy w swoje ręce. Tak oto powstał paradygmat badawczy posługujący się hipotezą zerową, alternatywną i p-wartością jako miarą siły dowodu oraz kilkoma innymi konstruktami. Część z nich jest autorstwa Fishera, część z nich Neymana. Więcej w postach na blogu, albo u mnie na RG.

"Przyjąć czy nie przyjąć? Oto jest pytanie".
Należy uważać na językowy haczyk: nie mówimy „przyjmujemy hipotezę zerową” - mówimy, że podejmujemy decyzję o nieodrzuceniu hipotezy zerowej.
(no, bardziej nam zależy na uświadomieniu sobie)

Ma to związek z filozofią nauki. Otóż tak jak już pisałam, jako badacze wybieramy opcję falsyfikacjonizmu, czyli zakładamy, że jakieś twierdzenie jest prawdziwe i próbujemy je obalić. Niekiedy udaje nam się zaobserwować zdarzenia przeczące temu twierdzeniu (np. „wszystkie koty są czarne”, „nikt mnie nie lubi”). Czasami też do końca życia żyjemy z daną hipotezą, choć nigdy nie możemy powiedzieć, że jesteśmy na 100% pewni, że jest to twierdzenie prawdziwe, bo zawsze może zdarzyć się coś, co je sfalsyfikuje. W tym sensie hipotezy zerowej jako twierdzenia nigdy nie przyjmujemy, po prostu twierdzimy, że „nie ma podstaw do jej odrzucenia”. A jeszcze bardziej poprawnie: podejmujemy decyzję o tym, że nie ma podstaw do jej odrzucenia.

Ja na blogu jestem mniej poprawna formalnie, piszę o odrzucaniu i przyjmowaniu, bo jest krócej. Zakładam, że Czytelnik zdaje sobie sprawę z tych subtelności, a ciągłe wypisywanie tylu słów - mimo, że poprawne pod względem logicznym - utrudnia czytanie.

Poniższe pojęcia są wkładem ze strony Neymana, więc wnikliwe,u Czytelnikowi nie umknie, że nie odnoszą się do p-wartości (bo Neyman nie posługwał się pojęciem p-wartości).

Błąd I i II rodzaju.
Ponieważ czasami możemy mylić się przy wydawaniu osądów (przyjąć/odrzucić), to wyróżniamy dwa rodzaje błędów:

- błąd pierwszego rodzaju, to błąd jaki popełniamy, kiedy odrzucamy hipotezę zerową, a ona tak naprawdę jest prawdziwa.
Np. nie odrzucamy hipotezy zerowej,  która nie wskazuje różnic międzypłciowych w kodzie Troski/Krzywdy, podczas gdy naprawdę w populacji mężczyźni i kobiety są zróżnicowani.
Na przykład: Odrzucamy hipotezę zerową, która stwierdza, że iloraz inteligencji kobiet jest równy ilorazowi inteligencji mężczyzn, a skądinąd wiadomo, że to twierdzenie o braku różnic jest prawdziwe.

- błąd drugiego rodzaju popełniamy wówczas kiedy nie odrzucamy hipotezę zerową, która w rzeczywistości jest fałszywa.

Przesadnie optymistyczni ludzie tak robią. Twierdzą „wszystko mi się uda”,a los bywa złośliwy. W przypadku MFQ byłoby to twierdzenie, że kobiety są bardziej wrażliwe na czyjąś krzywdę, a tak naprawdę nie byłoby różnic międzypłciowych.

Błąd pierwszego rodzaju  i moc testu.
Błąd pierwszego rodzaju alfa wynoszący 0.05 dopuszcza popełnianie błędu raz na dwadzieścia razy, czyli jeśli byśmy dwadzieścia razy przeprowadzili ten sam eksperyment, to możemy pomylić się raz. Natomiast moc testu to inaczej 1 minus beta (prawdopodobieństwo popełnienia błędu drugiego rodzaju). Te dwa błędy są ze sobą sprzężone, to znaczy zmniejszając prawdopodobieństwo popełnienia błędu I rodzaju z 0.05 na 0.01, zwiększamy szansę popełnienia błędu drugiego rodzaju i w drugą stronę - tak samo. Zwiększając moc testu, narażamy się na błędne odrzucenia.

Aby ograniczyć te dwa błędy, stosujemy dwa progi. Jeden nazywa się 'alfa' i oznacza prawdopodobieństwo popełnienia błędu I-go rodzaju, zwyczajowo ustawiony na 0.05 (pięć setnych), a drugi to moc testu, w którym nierzadko przyjmujemy wartość 0.80 (osiem dziesiątych).

Zależy nam, aby test nie było zbytnio konserwatywny, czyli taki którego rzeczywisty błąd I rodzaju jest mniejszy niż 0.05, ponieważ wówczas bardzo rzadko odrzuca hipotezę równości (o braku zależności). Z drugiej strony, chcemy aby test był odpowiednio mocny, czyli taki, który poprawnie ''odrzuca'' fałszywą hipotezę zerową. Zawsze to jest kompromis między alfa a beta.

Moc testu po raz drugi.
To jest taka rzecz, której nie znajdziecie w większości podręczników, ale istotna. Wartość mocy testu odnosi się do konkretnej postaci hipotezy alternatywnej. Brzmi to trochę nieintuicyjnie...Chodzi o to, że aby obliczyć moc testu, potrzebujemy konkretnej postaci hipotezy zerowej np.H0: µ = 1, oraz konkretnej postaci hipotezy alternatywnej, np. H1: µ = 3 (zamiast tak, jak to zwykle bywa, "wszystko poza tym", H1: µ ≠ 3). Nie ma sensu mówić o mocy testu, nie mając na myśli jakiejś jednej hipotezy alternatywnej.

Wielkość efektu [zalążek]
Wielkość efektu to 'ilościowe odzwierciedlenie wielkości pewnego zjawiska,
to odzwierciedlenie jest użyte dla celów odniesienia się pewnego pytania badawczego.' (Kelley, Preacher, 2009).

To jest bardzo profesjonalna definicja. A teraz po ludzku:
- Pani, ten środek na odchudzanie jest istotny statystycznie. Bierz Pani! 10 tabletek za jedyne dziewięćdziesiąt dziewięć złotych.
- A ile schudnę w miesiąc?
- Pół kilograma. Naprawdę!
- E, to mi się nie opłaca...
- Głupia, przecież jest istotny statystycznie! Wszystkie badania pokazują, że różnice w wadze między grupą kontrolną i grupą eksperymentalną, która brała ten środek, są istotne statystycznie, nawet bardzo: mają trzy gwiazdki!
- No i co z tego? To, że coś jest istotne statystycznie nie oznacza, że ma jakieś znaczenie praktyczne. Pół kilograma to ja chudnę po wyjściu z toalety.

Jak widać, sama istotność statystyczna nie określa, czy zjawisko, jakie wykryto w analizie, jest godne uwagi. Wiedza, że lek X pomaga schudnąć i że różnice międzygrupowe są istotne statystycznie nic znaczy, ale ... wiedza o tym, że lek X pomaga schudnąć o 5 kg w ciągu miesiąca jest już bardziej informatywna.

Aby pomóc badaczowi i jego publiczności ocenić (i czasami docenić), czy odkryte przez niego związki są o mniejszym lub większym znaczeniu klinicznym lub praktycznym, wykorzystuje się właśnie wielkość efektu, czyli podaje się sposób interpretacji wyniku: czy jest on znaczący, czy nie. Czasami jest to 'goła' różnica między grupami, czasami standaryzowana. W przypadku miar siły związku to sam współczynnik korelacji jest taką wielkością efektu.

[Więcej można poczytać na wikipedii klik]

Ile osób mam przebadać?
Cztery wielkości: hipoteza zerowa, błąd I rodzaju, ilość elementów w próbie, wielkość efektu są ze sobą powiązane równaniami. Mniejsza o wygląd tych równań, wniosek jest taki, że mając trzy z nich, można obliczyć czwartą. Jeśli mamy hipotezę zerową, wybraną wielkość efektu i chcemy, aby moc testu była równa 0.8, to można obliczyć wielkość próby potrzebną do analiz.

Moc testu po raz trzeci.
Przykład. Mamy test t służący do porównań między dwiema grupami. Aby wykryć umiarkowaną różnicę w średnich i mieć moc równą 0.8, należy przebadać co najmniej 36 osób: po 17.14475 osoby w każdej grupie, (ale łokcie się nie liczą, więc jest 18:)). ALE... aby wykryć mały efekt, należy już zgromadzić po 107 osób w każdej grupie. Tak więc moc nie jest przypisana do samego testu, tylko do czwórki parametrów: liczba obserwacji, wielkosć efektu i błąd I rodzaju.

Uwagi i sprostowania
Poziom istotności nie ma nic wspólnego z błędem pierwszego rodzaju. To znaczy, w notacji są bardzo podobne, ale w teorii i interpretacji to są dwie różne rzeczy. Poziom istotności został wprowadzony przez R.A. Fishera. Błąd pierwszego rodzaju pochodzi natomiast z koncepcji Neymana i Pearsona i  te dwa podejścia nie są kompatybilne.
Należy zauważyć różnicę w nazewnictwie. Błąd pierwszego rodzaju to błąd odrzucenia hipotezy zerowej, kiedy w rzeczywistości jest ona prawdziwa, a "alfa" to prawdopodobieństwo popełnienia tego błędu.
Błąd drugiego rodzaju to błąd przyjęcia hipotezy zerowej, kiedy w rzeczywistości jest fałszywa, a "beta" to prawdopodobieństwo popełnienia takiego błędu. .


Książka kucharska
(nie popieram, ale muszę zamieścić, co oświadczam to obrażonym tonem:) ).

Recepta na testowanie hipotez wygląda następująco:
1. po sformułowaniu hipotezy badawczej przekonwertuj ją na hipotezę statystyczną. Przykładowo: "Kobiety i mężczyźni różnią się w reakcji na czyjąś krzywdę" można zoperacjonalizować na "średni poziom zmiennej Troska/Krzywda jest równy wśród kobiet i wśród mężczyzn".
2. „włącz” odpowiedni test statystyczny, tutaj przykładowo test t-Studenta.
3. odczytaj p-wartość i porównaj z ustalonym poziomem istotności 0.05 (czasami z błędem pierwszego rodzaju alfa 0.005). Jeżeli:
4. (a) jeżeli p wartość nie przekracza zakładanego poziomu istotności alfa 0.05, to podejmujemy decyzję o odrzuceniu hipotezy zerowej na korzyść hipotezy alternatywnej
(b) jeśli p-wartość jest większa od 0.05, to nie ma podstaw do odrzucenia hipotezy zerowej.

1 komentarz:

Ola Juchacz pisze...

Dzięki za tego bloga! Bardzo mnie wspiera w nauce statystyki.

Chciałam tylko dać znać, że przykład do błędu II rodzaju się przesunął w sekcji "Błąd I i II rodzaju". Na chwilę mi to zamotało w głowie ;)