Moc testu statystycznego

Najłatwiej powiedzieć, że moc testu to krewna błędu II-go rodzaju. Jeśli masz za sobą post o błędach I-go i II-go rodzaju KLIK, to wiesz, że w badacz może mylić się poprzez błędne uznanie, że istnieje pewna zależność w danych, a jej tak naprawdę nie ma. Na przykład może uznać, że istnieje różnica między grupami, a jej nie ma. Albo, że istnieje korelacja między zmiennymi, kiedy jej nie ma. To jest tzw. błąd I-go rodzaju. Mniej więcej to samo zrobiły osoby, które 13 października 1917 roku uległy złudzeniu optycznemu, zwanemu cudem fatimskim. Uznały, że istnieje coś, podczas gdy tak naprawdę zjawisko nie istniało (wersje różnią się w zależności od przynależności do związków wyznaniowych:) ).

W tym poście będzie nas interesować sytuacja w drugą stronę, gdy badacz uznaje, że nie ma różnic w populacjach albo nie ma korelacji między zmiennymi - kiedy tak naprawdę istnieje. Taki błąd odrzucenia prawdziwej hipotezy alternatywnej nosi nazwę błędu II-go rodzaju.

Zbierzmy wiadomości jeszcze raz. Błędy I-go i II-go rodzaju wpisują się w tzw. częstościową interpretację prawdopodobieństwa. W statystyce częstościowej nie wiemy, czy konkretny wynik konkretnego badania jest błędem I czy II-go rodzaju. Za to, co możemy wiedzieć - i nawet kontrolować - to te błędy. Gdybyśmy wykonywali ten sam eksperyment bardzo wiele razy (nie mam tu na myśli pięć, raczej pięć milionów), moglibyśmy wówczas zaplanować badanie w taki sposób, aby nie mylić się w jedną stronę więcej niż 5% i nie mylić się więcej w drugą stronę więcej niż 20%. Te progi są umowne. Równie dobrze mogłoby to być i 10% oraz 30%, albo 2,5% i 11,2-%.

Tyle krótkiej przebieżki przez błędy I-go i II-go rodzaju, więcej w poście o błędach KLIK Ostatnio dość dużo mówi się o mocy, ponieważ zrobiło się naukowe pospolite ruszenie z powodu wymogów uzasadniania, dlaczego badamy taką, a nie inną liczbę osób badanych (krótko: wielkość próby). Kiedyś była wolna amerykanka - łapało się tyle osób badanych, ile się dało. Po 2000 roku, kiedy w psychologię uderzył kryzys replikacyjny, zaczęto zastanawiać się, co poszło nie tak, a potem szukać rozwiązań. Rozwiązanie było i wcześniej, ale nie używano go. Stąd też analiza mocy jako rekomendacja, albo i czasem wymóg, gdy przychodzi do zbierania danych. W takim razie, o co chodzi z analizą mocy?

EFEKT i WIELKOŚĆ EFEKTU - Będzie łatwiej powiedzieć, czym jest moc, gdy najpierw powiem, czym jest efekt. Efekt to korelacja między zmiennymi, albo różnica między grupami (to przy teście t‑Studenta). Ogólnie: zjawisko. To zjawisko ma konkretny rozmiar - chodzi mi o liczbową wartość. Korelacja rzędu ,7 (siedem dziesiątych). Albo różnica między dwie populacjami wynosi 0,2 (dwie dziesiąte). Chodzi o dokładną liczbę, nazywa się ją wielkością efektu. W statystyce klasycznej przyjmuje się, że w populacji występuje jakieś zjawisko ("efekt") i że jest on określonego rozmiaru ("wielkości efektu"). Kobiety i mężczyźni różnią się między sobą pod względem wzrostu ("efekt") o 5 centymetrów ("wielkość efektu"). Tak w skrócie wygląda sprawa z wielkością efektu. Więcej w poście na ten temat KLIK.

MOC - Najkrótsza definicja mocy testu brzmi: Moc testu statystycznego to zdolność testu to wykrycia efektu, o ile on istnieje. To ostatnie jest bardzo ważne - o ile on istnieje. To jednak nie jest pełne brzmienie. Istniejący w populacji efekt ma konkretną postać. Jest to korelacja rzędu 0,7 (dość duża). Jest to różnica między średnimi równa 0,8 (dość duża). Te liczby to właśnie konkretne postaci efektu w populacji. Kiedy mówimy, że moc testu to zdolność do wykrycia naprawdę istniejącego efektu, to jeszcze określonej wielkości. Nie jest to po prostu - jakiejkolwiek wielkości efektu.

Z MOCĄ TESTU JEST ZUPEŁNIE INACZEJ NIŻ Z MOCĄ DOMESTOSA - niezależnie od tego, do jakiego klozetu wlejesz, to i tak wybije 98% bakterii. Ani też z mocą alkoholu, że ma 75% niezależnie od ilości w butelce. Ani też z z mocą żarówki - zawsze zje tyle prądu, ile na opakowaniu. Test statystyczny może mieć i 89-procentową moc, i 50-procentową, i 10-procentową. To zależy w dużej mierze od tego, co przewiduje konkretna hipoteza alternatywna. Oraz jeszcze od poziomu błędu I-go rodzaju, który na szczęście zwykle jest zafiksowany na 5% oraz na wielkości próby.

Dłuższa i w pełni rozwinięta definicja mocy testu brzmi: moc testu statystycznego to zdolność wykrycia określonej wielkości efektu, o ile ona naprawdę istnieje, w długim ciągu wykonywania tego samego eksperymentu. Dlaczego komplikować tę sprawę tak bardzo? Tym, którym nie wystarczy krótka odpowiedź, że to pojęcie frekwentystyczne z całym swoim frekwentystycznym dziedzictwem, zapraszam do czytania dalej.

Niżej znajdują się akapity, które wyjaśniają, dlaczego jest właśnie tak, tak trochę nieintuicyjnie.

Zacznę od końca. Podobnie jak błędy, moc jest również pojęciem ze statystyki frekwentystycznej. Kiedy znajdujemy się we frekwentystycznym świecie statystyki Neymana, to znów - korzystamy z częstościowej interpretacji prawdopodobieństwa KLIK. To ta interpretacja prawdopodobieństwa, w której szansę na uzyskanie orła rozumie się jako wynik nieskończonego rzutu monetą. A ponieważ jesteśmy w interpretacji częstościowej, musimy więc wyobrazić sobie nieskończony ciąg powtórzeń tego samego eksperymentu. Wyobraź sobie, że wykonujesz ten sam eksperyment codziennie aż do skończenia świata - czyli całą nieskończoną wieczność. Ta perspektywa ułatwi sprawę.

Postawmy zatem dwie hipotezy. Jedna niech będzie zerowa o braku związku między zmiennymi, albo o braku zależności lub braku korelacji. Druga hipoteza, zwana alternatywną, jest nieco inna niż ta, do której jesteśmy przyzwyczajeni. W zwyczajowej procedurze testowania istotności statystycznej hipotezy zerowej KLIK stawiamy bardzo obszerną hipotezę alternatywną. Mówimy:"nieprawda, że H0". To oznacza, że wszystkie scenariusze oprócz zerowego są dozwolone. A taka hipoteza alternatywna jest bardzo, bardzo pojemna i może się zdarzyć, że trudno będzie obliczyć dla niej moc.

Postawmy zatem nieco bardziej konkretną alternatywną, np. niech różnica między grupami wynosi 1 sekunda, albo niech korelacja między zmiennymi wynosi 0,3. To oznacza podanie konkretnej, alternatywnej wartości, jaką można się spodziewać na wypadek gdyby to hipoteza alternatywna była tą właściwą.

Wówczas musielibyśmy przepisać przykłady sądowe i ciążowe.
H0: Pani jest w zerowym tygodniu ciąży.
H1: Pani jest w siódmym tygodniu ciąży.
Być może już czujesz nieadekwatność poprzednich przykładów. Są one zbyt grube. Ale dlaczego tak? Tutaj dotykamy istoty klasycznych testów statystycznych.

Jeśli przypomnisz sobie post o statystyce testowej KLIK i jej rozkładzie, to wiesz już, że statystyka testowa to taka maszynka, do której wkłada się dane, a ona wypluwa jakąś liczbę. Najbardziej interesującą rzeczą jest w zasadzie to, jak typowa jest ta liczba. Czy zdarza się często, czy rzadko. Profesjonalnie mówiąc, interesuje nas rozkład wartości statystyki testowej. Kruczek w tym, że ten rozkład jest inny gdy założymy prawdziwość hipotezy zerowej, a inny - gdy założymy prawdziwość hipotezy alternatywnej.

Rozkład na papierze to linia, czasem dzwonowata, czasem płaska, czasem garbowata (tutaj przyda się wiedza z postu o rozkładzie KLIK), ale po prostu: linia. Rozkład jest po prostu matematyczną formą powiedzenia tego, jakie przewidujemy szanse dla poszczególnych wartości naszego zjawiska. Inny scenariusz przewiduje hipoteza zerowa, a inny - hipoteza alternatywna.
To powoduje, że są dwa rozkłady wartości statystyk testowych dla dwóch różnych hipotez. Mamy więc dwie linie - jedna to gęstość statystyki testowej dla hipotezy zerowej (czarna), a druga dla hipotezy alternatywnej, która jest bardzo konkretnej postaci (zielona).

Jak masz taką obszerną - czy pojemną - hipotezę alternatywną, jak właśnie: nieprawda, że H0, to musiałabyś narysować nieprzeliczalną liczbę tych krzywych. To dlatego w tym podejściu stawia się konkretną hipotezę alternatywną - żeby można było wyrysować jedną linię - jak na powyższym rysunku. Jedna linia - jedna hipoteza.

MOC i BŁĄD II-GO RODZAJU — Technicznie rzecz biorąc, moc plus błąd II-go rodzaju równa się jeden. Ogólnie mówi się, że moc to "odwrotność błędu II-go rodzaju". Idea jaka za tym stoi jest zrozumiała. Chodzi o równanie:

moc = 1 - błąd II-go rodzaju
Ale odwrotność ma zupełnie znaczenie w matematyce, i tak psychologowie są wyczuleni na pojęcia typu:"osobowość" i rozróżnienie między strachem oraz lękiem, to i matematycy mają swoje wrażliwe słowa.

Skoro powiedzieliśmy, że moc to 1 - błąd II-go rodzaju, to zobaczmy to na wykresie. Zobaczcie, że różowe pole odpowiadające błędowi I-go rodzaju zostało zasłonięte przez niebieskie pole odpowiadające mocy. To normalne, dlatego, że moc dotyczy krzywej rozkładu dla hipotezy alternatywnej.


KIEDY MOC WYNOSI 50% — Aby to rozwikłać, musimy sobie przypomnieć treść sprzed paru akapitów. Po pierwsze, efekt jest konkretny, to jest dokładnej liczbowej postaci różnica między grupami, korelacja między zmiennymi itd. Po drugie, moc nie jest literkami napisanymi na etykiecie testu statystycznego, a w zależności od spodziewanej wielkości efektu, może mieć różne wartości. Po trzecie: że eksperyment jest wykonywany nieskończoną ilość razy.Teraz możemy powiedzieć, co to znaczy, że test ma 50% moc - i czy to dobrze.
Teraz możemy powiedzieć, co to znaczy, że test ma 50% moc - i czy to dobrze. Test, którego moc wynosi 50% to taki test, który ma 50% szansę na wykrycie efektu - o ile on rzeczywiście istnieje. Czyli równie dobrze moglibyśmy rzucać monetą, zamiast używać statystyki.

8 komentarzy:

Pappei pisze...

hej mam pytanie, na rys. 2 w legendzie mamy na zielono rozkład zgodny z H1, ale na obrazku nie ma nigdzie tego koloru. To znaczy, że tego rozkładu nie ma?

Pappei pisze...

hej mam pytanie, na rys. 2 w legendzie mamy na zielono rozkład zgodny z H1, ale na obrazku nie ma nigdzie tego koloru. To znaczy, że tego rozkładu nie ma?

Lilianna Jarmakowska-Kostrzanowska pisze...

Cześć Pappei! poprawiłam już. R nie naniósł mi zielonej linii i przegapiłam. Dzięki za zwrócenie uwagi. Pozdrowienia :-)

Anonimowy pisze...

Przyczepię się trochę - w tab 1 jest błąd w indeksie hipotezy - zamiast 0 powinna być 1

Lilianna Jarmakowska-Kostrzanowska pisze...

Cześć! Nie ma sprawy, przy przeklepywaniu tekstu i kodu do bloggera mam czasem za dużo zmiennych do ogarnięcia, więc wnikliwy Czytelnicy, którzy jeszcze zgłoszą poprawki są na wagę złota - dziękuję.
Niestety, ja tam nadal nie widzę, gdzie jest błąd - pewnie z opatrzenia się. Możesz jakoś wskazać komórkę? Bo są trzy ha-zero (górna, środkowa, dolna)...
Poza tym, mi ta tabela przestała się podoba. Muszę jakąś ładniejszą stworzyć :-)

Anonimowy pisze...

Przyzwyczajony do trochę innej tabelarycznej prezentacji błędów źle zinterpretowałem oznaczenia hipotez w Twojej tabeli. Za szybko przelałem na klawiaturę to co mi na pierwszy rzut oka nie pasowało. Po przeanalizowaniu Twojej tabeli odwołuję to, co napisałem, przepraszam za zamieszanie

Lilianna Jarmakowska-Kostrzanowska pisze...

No, i dlatego uważam, że powinnam zmodyfikować tę tabelę, aby nie była taka nieintuicyjna.

Nic się nie stało :-)

Anonimowy pisze...

Część. Zweryfikowałem hipotezę zerową i w oparciu test statystyczny dla 30 stóp zwrotu i poziom istotności wnoszący 5% odrzuciło mi prawdziwa hipotezę alternatywna na rzecz fałszywej zerowej. Mogę podnieść poziom istotności do 20% tak aby test statystyczny znajdował się w obszarze krytycznym? Tzn poza wartościami krytycznym? Bo chyba, przyjęcie błędnej hipotezy zerowej wiąże sie z nieistotnościa czasochłonnych badan co jest równoznaczne z tym, że w ogóle mogło by ich nie być?