"Precz z p-wartością" - oświadczenie ASA

Cofnijmy zegarki o rok. Nieco ponad rok temu czasopismo Basic and Applied Social Psychology, BASP, wykonało zdecydowany krok i zakazało stosowania p-wartości w nadsyłanych manuskryptach. Ruch ten spowodował dość duże poruszenie w kręgach naukowców - jedni poparli decyzję rednaczów, inni byli zdecydowanie przeciwni. Rok od zakazu w BASP, American Statistical Association, ASA, opublikowała oświadczenie odnoszące się do stosowania p-wartości oraz NHST (null hypothesis significance testing) oraz wyciągania wniosków na podstawie otrzymanych p-wartości. W poście przedstawiam superkrótkie streszczenie z oświadczenia.

Całkiem świeży, 'jeszcze ciepły i chrupiący', sprzed kilkunastu dni artykuł ASA stanowi (w formie sześciu wytycznych) ustosunkowanie czołówki światowych statystyków do p-wartości oraz powszechnie stosowanej procedury testowania hipotez (NHST; podstawowe kroki to ustalenie hipotezy zerowej i alternatywnej, ustalenie poziomu istotności alfa, które zwykle jest równe 0.05, obliczenie statystyki testowej, odczytanie p-wartości i porównanie z alfa, podjęcie decyzji. Pisałam o tym tutaj).
Jest to o tyle godne uwagi wydarzenie, że publikacja oficjalnych oświadczeń komentujących różne praktyki statystyczne badaczy z całego świata nie należy do zwyczajów ASA. Co więcej, oświadczenie jest skierowane przede wszystkim do konsumentów statystyków: badaczy-praktyków, którzy nie mają podstaw matematycznych - w konsekwencji autorzy starali się nie używać matematycznego żargonu - a chodzi o biologów, chemików, itd. no, i psychologów!

Poniżej przedstawiam te sześć wytycznych. Artykuł ASA zawiera też rozwinięcia tych myśli.


1. P-wartość może wskazywać jak bardzo niekompatybilne są dane z wskazanym modelem statystycznym.
2. P-wartości nie mierzą prawdopodobieństwa, że badana hipoteza jest prawdziwa. P-wartość nie jest również prawdopodobieństwem tego, że dane są dziełem przypadku.
3. Naukowe wnioski albo decyzje biznesowe nie powinny być oparte jedynie na tym, czy p-wartość przekracza pewien określony próg. (pisałam o tym w poście o różowym słoniu tutaj).
4. Właściwe wnioskowanie wymaga pełnego omówienia i transparentności.
5. P-wartość, czy statystyczna istotność, nie mierzą wielkości efektu albo ważności wyniku (rezultatu).
6. P-wartość nie dostarcza dobrej miary dowodu czy to modelu czy hipotezy.

Na pocieszenie dodam, że te problemy z p-wartością to żadna nowość. Od dobrych kilkudziesięciu lat. ASA czy nie ASA, problem z p-wartością nie leży w samej p-wartości (to tylko jakieśtam prawdopodobieństwo), tylko w stosunku badaczy do p-wartości i NHST (są ściśle związane ze sobą). NHST, w mniemaniu wielu, dawała bardzo proste narzędzie do rozstrzygnięcia czy możemy odtrąbić sukces, czy schować badania do szuflady.

BASP i w tym roku podtrzymał swoją decyzję. W kolejnym edytorialu (...wstępniaku?) również dotyka powyższych problemów z p-wartością. Warto przeczytać jako uzupełnienie do artykułu ASA.

A my? Czy to jest ważne dla nas, psychologów? Bardzo 'taaak'. U nas praktycznie nie ma szans opublikować artykuł bez p-wartości, NHST czy gwiazdek (poza BASP-em, oczywiście, i chyba jeszcze są dwa czasopisma, które wymagają czegoś więcej niż p-wartości) - tak, tutaj trochę krytykuję siebie, ale sama świata nie zmienię. Na razie walczę piórem :) O problemach związanych z p-wartością pisałam na blogu kilkukrotnie (obecnie jeden post jest zdjęty). Niestety, wiele osób uważa, że p-wartość świadczy o tym, czy wynik został otrzymany przypadkowo (a tak nie jest... "nie jest, nie jest i nie będzie"). Zresztą w ogóle my, psychologowie jesteśmy bardzo mocno przywiązani do postępowania zgodnie NHST. Częściowo dlatego, że łatwo przypiąć do niej teorię falsyfikacjonizmu Poppera. Wreszcie przydają się wykłady z filozofii. To mniej więcej idzie tak: mamy hipotezę (zerową), którą poddajemy ogniowi krytyki (testujemy). Jeśli wytrzyma, to możemy stwierdzić, że hipoteza jest 'ok'. Tymczasem nawet piątka z filozofii nie czyni z nas filozofa i nasza procedura NHST tylko pozornie ma coś wspólnego z falsyfikacjonizmem - dowiedziałam się o tym całkiem niedawno i wkrótce popełnię o tym osobny post, bo sama żyłam w tym błędne przeświadczeniu. To tak się wydaje, że statystyka to zbiór algorytmów (niestety, jest to tylko wrażenie), ale tak jakby to zechcieć dokładnie zgłębić, to sporo w niej i matematyki, i jak się okazuje filozofii.

Wracając do oświadczenia ASA, nie ma mocnych, chyba będziemy musieli przepisać podręczniki na nowo...

Link do oświadczenia ASA: KLIK (po angielsku)
Link do edytoriali BASP z 2015 r. i z 2016 r. (po angielsku)

4 komentarze:

Unknown pisze...

Hej ;) Skoro nie p value to rzuć okiem na termometr statystyczny! http://nauka.metodolog.pl/analiza-korelacji-metoda-bayesa-wspolczynnik-bayesa-bayes-factor-metodolog-pl/

Unknown pisze...

BTW w swojej praktyce już dano przestałem ufać wartości istotności statystycznej jak kilka lat temu analizowałem wpływ cukrzycy na czas trwania życia (na próbie 4 tyś osób) który był istotny, ale wyjaśniał 1% wariancji. sayyy whaatttt???

Lilianna Jarmakowska-Kostrzanowska pisze...

Prawda? Często spotykana praktyka, niestety :(

Lilianna Jarmakowska-Kostrzanowska pisze...

:-) dziękuję za komentarz przekierowujący na tę stronę. Natomiast nie zachęcam do bezrefleksyjnego przesiadania się z jednego siodła w drugie.