Procedura testowania istotności statystycznej hipotezy zerowej

Porozmawiajmy teraz o czymś, co bywa nazywane mocarnymi, lecz intelektualnie sterylnymi grabiami albo najgłupszą z możliwych procedur zinstytucjonalizowanych w nauce — czyli o najpopularniejszym sposobie testowania hipotez statystycznych w psychologii.

Nie ma podręcznika ze statystyki dla psychologów, który nie opisywałby procedury testowania istotności statystycznej hipotezy zerowej (null hypothesis significance testing, NHST).

Nawet jeśli nazwa wydaje Ci się nieznana, to kojarzysz te pojęcia: istotność statystyczna, błąd I-go rodzaju, błąd II-go rodzaju, p-wartość, moc testu statystycznego, obszar krytyczny, poziom istotności statystycznej, hipoteza zerowa, hipoteza alternatywna. Jeśli znasz te nazwy, to z całą pewnością widziałeś test istotności statystycznej.

Procedura testowania istotności statystycznej hipotezy zerowej wyglądają następująco:

  1. Stawiasz hipotezę zerową o braku związku oraz hipotezę alternatywną do niej. Poprzez to, że mówi o zerowości jakiegoś efektu, hipoteza zerowa jest bardzo konkretna. Przy niej hipoteza alternatywna sprawia wrażenie rozmytej, nawet jeśli jest w tzw. wersji kierunkowej (większa od zera), to i tak jest zawężenie w niewielkim stopniu (większa od zera, czyli jaka?).
  2. Wybierasz odpowiedni test statystyczny, przykładowo test t-Studenta i sprawdzasz założenia testu.
  3. Obliczasz p-wartość i porównujesz ją z ustalonym poziomem istotności 0.05.
    Jeżeli:
    • jeżeli p wartość nie przekracza zakładanego poziomu istotności alfa równego 0,05, to podejmujemy decyzję o odrzuceniu hipotezy zerowej na korzyść hipotezy alternatywnej
    • jeśli p-wartość jest większa od 0.05, to nie ma podstaw do odrzucenia hipotezy zerowej.

Tak wygląda procedura NHST ze wszystkimi krokami i tym, co się w nich dzieje. Z pozoru wygląda na całkiem spójny przepis na testowanie hipotezy statystycznej. Ale gdybyś przyjrzała się bliżej, zobaczyłabyś, że jest ona patchworkową robotą - zszyto ją z dwóch różnych podejść statystycznych - i wyszło to tak samo dobrze, jak dżinsowa sukienka do dżinsowych spodni. Prawdę mówiąc, to Frankenstein.

Aby zobaczyć tę niekompatybilność, należy rozdzielić to, co należy do jednego podejścia, zwanego fisherowskim, i to, co należy do drugiego podejścia, zwanego frekwentystycznym. Z posta o prawdopodobieństwie dowiedziałaś się, że jest kilka interpretacji tego pojęcia KLIK. Na każdym z nich zbudowano całe szkoły myśli statystycznych. W statystyce nie jest tak, że można sobie wymiennie stosować pojęcia raz z jednego, raz z drugiego podejścia. Nie można przechodzić sobie z jednej szkoły do drugiej, nosząc ciągle kapcie z pierwszej. To dlatego, że każda szkoła tworzy własny system nie tylko myślenia o wynikach, ale także narzędzi, testów i co więcej - interpretacji. Tak właśnie stało się i tutaj. Mamy dwóch twórców: Fishera oraz Neymana i każdy z nich stworzył własny zestaw zabawek.

Zobaczymy, co do kogo należy.
- P-wartość jest pojęciem Fishera. Istotność statystyczna oraz poziom istotności statystycznej i pomysł, aby stosować 5%.
- Błąd I i II-go rodzaju należy do Neymana. A skoro te błędy, to i moc testu statystycznego oraz cała analiza mocy. I w konsekwencji wielkość efektu.

To jak próba połączenia terapii psychodynamicznej z poznawczo-behawioralną. A nawet gorzej - bo tym dwóm szkołom psychoterapii udało się połączyć w coś nowego (terapia schematów).

Brak komentarzy: