P-wartość

Jeśli z wykładów ze statystyki komuś cokolwiek zostaje w głowie to jest to p-wartość i istotność statystyczna. Zajmijmy się tutaj tą pierwszą rzeczą.

CZYSTO INŻYNIERYJNIE - Robiąc małe TL;DR z posta o statystyce testowej, p-wartość to liczba, która znajduje się na końcu machiny mielącej dane i hipotezę zerową.

Ta machina nazywa się statystyką testową i to, co z siebie wypluwa, nazywa się wartością statystyki testowej. Z przykładu w poście o statystyce testowej, wiemy że średnia w badanej grupie osób wynosi 120,20 a odchylenie standardowe 1,29. Przykład był czysto fizjologiczny. Badacz chciał sprawdzić, czy jego badana grupa ma książkowy poziom ciśnienia skurczowego. Według podręczników to 120 mm Hg. Czyli w momencie skurczu Twoje serce wtłocza krew do tętnic z taką siłą, która również wtłoczyłaby rtęć do pionowo ustawionego słupka na wysokość 120 milimetrów.

Z maszynki uzyskujemy wynik 0,49. Do tej pojedynczej liczby przykłada się WZORNIK i ocenia, czy mamy do czynienia z typową dla tej maszynki wartością, czy też nie. W XXI wieku robi to za nas program statystyczny na podstawie takiego rozkładu obliczasz szansę przytrafienia się takiego wyniku, jak otrzymany (np. 0,49), albo bardziej ekstermalnego (czyli więcej niż 0,50, bo jeszcze 0,99 oraz 1,45 itd), którą nazywasz p-wartością (p-value). To wydaje się dziwne, że liczymy prawdopodobieństwo nie tylko tej wartości, która nam wyszła, ale także za jednym zamachem zgarniamy wszystkie za nią. Tak po prostu się dzieje. Nie da rady policzyć prawdopodobieństwa wydarzenia się konkretnego wyniku w tej sytuacji, trzeba wziąć wszystkie. P-wartość określa, czy otrzymana wartość statystyki testowej (owo 0,49) jest typową wartością, jaką wypluwa z siebie test statystyczny. Robi to jednak w pewnych szczególnych okolicznościach - bada tę typowość jeśli założy się, że zjawisko nie istnieje (nie ma różnic między grupami, nie ma związku między cechami).

To jest ostatnie miejsce, w którym wszyscy badacze ze sobą zgadzają się. Inaczej mówiąc, zgoda badaczy co do tego, czym jest p-wartość, ogranicza się do czysto inżynierskiej definicji, że jest to pewnego rodzaju prawdopodobieństwo otrzymania wyniku taki jak Twój, albo jeszcze rzadszego. Idąc dalej wkraczamy na bagienny teren błędnych interpretacji i wątpliwych wyjaśnień.
Jeśli spytasz trzech różnych badaczy, czym jest p-wartość, to otrzymasz trzy różne odpowiedzi:
(a) p-wartość to prawdopodobieństwo prawdziwości hipotezy zerowej
(b) p-wartość mówi o tym, czy dane uzyskano przypadkiem
(c) p-wartość to prawdopodobieństwo popełnienia błędu I-go rodzaju.

Są to często spotykane wyjaśnienia. Przyznasz, że brzmią intuicyjnie i logicznie. Ich jedyną cechą wspólną jest to, że są nieprawdziwe. P-wartość ani nie jest (a), ani (b), ani (c). To zła wiadomość, bo p-wartość służy do wydawania wyroku na hipotezę badawczą - dzięki niej badacz cieszy się, że coś odkrył i publikuje swoje rezultaty, albo - chowa badanie do szuflady.

Przez prawie sto lat właściwa interpretacja p-wartości pozostawała nieuchwytna. Wyglądało to tak, jakby uczeni i naukowcy nie wiedzieli, jak obchodzić się z podstawowym narzędziem pracy. I nie ma w tym cienia przesady. Każdy badacz posługiwał się własnym intuicyjnym rozumieniem, co sprowadziło na naszą dziedzinę ogromne problemy, aż wreszcie Amerykańskie Towarzystwo Statystyczne wzięło się i zrobiło to samo, co Sobór Trydencki z biblią - ustaliło jednoznaczą, obowiązującą wersję: P-wartość to prawdopodobieństwo otrzymania takiego wyniku jak zaobserwowany, o ile hipoteza zerowa jest prawdziwa.

P-wartość to prawdopodobieństwo otrzymania takiego wyniku jak zaobserwowany, o ile hipoteza zerowa jest prawdziwa.

"a p-value is the probability under a specified statistical model that a statistical summary of the data (for example, the sample mean difference between two compared groups) would be equal to or more extreme than its observed value."
Ta definicja jest tak napakowana treścią, że czytając ją za pierwszym razem, można się zachłysnąć informacją. Spróbujmy ją nieco rozpakować. Najpierw zakładasz, że Twoja hipoteza zerowa jest prawdziwa. Hipoteza zerowa to świat, w którym nie ma zależności między zmiennymi, nie ma różnic między dwiema grupami, nie ma korelacji. Kobiety i mężczyźni nie różnią się pod względem inteligencji emocjonalnej. Lek działa tak samo dobrze jak placebo. Jakość życia nie zmienia się przed i po terapii. Dopiero będąc w tym świecie, sprawdzasz szansę otrzymania Twojego wyniku. Jaka jest szansa znalezienia kłaczka sierści (wynik testu), gdy w pokoju nie ma kota (hipoteza zerowa). Akcent tutaj kładzie się na zgodność danych z hipotezą zerową, a nie na jej prawdziwość, czy fałszywość.

NIEKOMPATYBILNOŚĆ — A więc tak naprawdę p-wartość mówi o tym, czy i jak bardzo Twoje dane są niekompatybilne z rzeczywistością postulowaną w hipotezie zerowej. Jak bardzo znalezienie kłaczka sierści jest niekompatybilne z hipotezą o braku kota w pokoju. Być może usłyszysz takie stwierdzenie: im niższa p-wartość, tym mniejsze prawdopodobieństwo prawdziwości hipotezy zerowej, czyli ponieważ znalazłaś kłaczek sierści w pokoju, to hipoteza zerowa o braku kota jest nieprawdziwa. Tymczasem to tak nie działa.

P-wartość nie ma takiej mocy stwierdzania prawdziwości hipotezy zerowej. Ba! Nic w całej klasycznej statystyce nie ma takiej mocy! To podejście pozwala jedynie na badanie typowości wyniku testu - w pewnej sytuacji. Poprawna wersja brzmi: im niższa p-wartość, tym mniej dane są kompatybilne z hipotezą zerową. Niskie p-wartości mogą wzbudzić czujność badacza, może on podejrzewać, że coś jest nie tak z hipotezą zerową, ale równie dobrze z założeniami testu (bo jak pamiętasz z tego posta KLIK - do każdego testu potrzebne są założenia).

Jeśli w tym miejscu czujesz się trochę oszukana przez p-wartość, to nie jesteś sama. P-wartość może mniej niż to się wydaje - nie potrafi wydusić z danych prawdy o hipotezie zerowej. Nie jest wariografem dla danych i nawet jeśli jest większa od pięciu setnych, to nie jest to potwierdzenie prawdziwości hipotezy zerowej.

Z p-wartością łączy się jeszcze jedno pojęcie - istotność statystyczna. Może będzie Cię to interesować, zobacz w tym poście: Czym jest istotność statystyczna?


4 komentarze:

Anonimowy pisze...

Witam,

Ogromnie dziękuję za to wyjaśnienie!
Zrozumiałem o co w tym chodzi. Teraz świat wygląda inaczej!
Proszę o więcej!

Pozdrawiam
S

Lilianna Jarmakowska-Kostrzanowska pisze...

Bardzo dziękuję!
Pozdrowienia :-)

Anonimowy pisze...

Dlaczego p-wartość :( Przecież to wartość p. Podobnie jak odchylenie standardowe które nie jest standardowym odchyleniem. Choć jest :) prócz tego blog super!

Lilianna Jarmakowska-Kostrzanowska pisze...

Dziękuję :-) A p-wartość, cóż - jest kilka możliwości do wyboru: p-wartość, wartość p, istotność statystyczna, znamienność statystyczna. Ja wolę tę pierwszą.