Słoń różowy statystycznie.

1.02.2016 Słoń różowy statystycznie.

"Drogi Pamiętniczku! ... " - ten post będzie trochę bardziej osobisty. Na tyle bardziej osobisty, na ile mogą być posty tematycznie związane ze statystyką. Trudno jest brać do siebie medianę albo wzór na średnią tak jak temat in vitro, również model regresji wydaje mi się być emocjonalnie obojętny. W statystyce jest niewiele rzeczy, które jednak mnie osobiście 'ruszają' i raczej są to kwestie związane z tym, co środowisko akademickie robi ze statystyką. Być może mam misję statystycznego zbawiania świata, być może też chodzi o to, że z wiekiem człowiek przestaje nabożnie patrzeć na ludzi, których kiedyś uważał za autorytet. Albo powodem jest to, że mniej więcej około trzydziestki płaty czołowe zaczynają wreszcie prawidłowo działać i bardziej krytycznie podchodzi się do działań innych. Nie bez powodu Konfucjusz wiek dorosły uznawał za trzydziesty rok życia. Z tego tytułu będzie ten post.

Przechodząc do konkretu, ... Chodzi o p-wartość. Tak, dokładnie chodzi o ten mały wskaźnik 'czegoś', co sprawia, że albo odkłada się badania do szuflady, rozkłada ręce, że badanie "nie wyszło" albo się człowiek cieszy, jakby wygrał w amerykańskim Powerball. 

Jak powstaje file-drawer problem?
Pomijając wszystkie bardziej matematyczne i bardziej filozoficzne fakty, które umieściłam gdzieś tu na blogu albo w swoim artykule, są dwie kwestie, jakie chciałabym każdemu adeptowi psychologii przekazać od siebie. Te dwie kwestie oczywiście nie rozwiązują problemów życiowych, nie są to przepisy na boczniaki w marynacie i kołacz weselny, to nie są dwie natchnione sentencje w stylu "w życiu najważniejsze jest być w zgodzie ze sobą samym" (oraz szefem) i "ciesz się chwilą" (kiedy zmywasz gary) i nie dają porad, co zrobić, kiedy dziecko ma kolkę lub ząbkuje. Słowem, nie są to kwestie życia i śmierci, więc mogą być docenione przez: a) dobrych naukowców, b) dobrych psychoterapeutów, którzy są zainteresowani od czasu do czasu tym, co słychać w ich działce, więc czytują artykuły naukowe; c) studenci, którzy twierdzą, że 'lubią statystykę" niezależnie od końcowej oceny z tego przedmiotu.

Pierwsza ważna rzecz jest taka: 
p-wartość to wcale nie jest prawdopodobieństwo tego, że wynik w badaniu uzyskano przez przypadek/szansę (albo w nieco bardziej wyrafinowanej wersji: przez błąd próbkowania). 
To myślenie nie trzyma się kupy. P-wartość jest tak skonstruowana, że do jej policzenia trzeba założyć prawdziwość hipotezy zerowej. Jeśli zakładam prawdziwość hipotezy zerowej, to i tak wszystkie możliwe wyniki (statystyki testowej) pojawiają się w wyniku przypadku, więc ta szansa wynosi 1, nie tyle ile p-wartość. Przykładowo moja statystyka testowa t = 2.14 ma p-wartość p=0.017. Zarówno 2.14 pojawia się w wyniku przypadku, jak i 2.13 pojawia się w wyniku przypadku i 1.87 jest efektem przypadku i -1.12 też jest wynikiem działania przypadku
Nie ma takiej możliwości, aby p-wartość mogła odnosić się do szansy pojawienia się takiego czy innego wyniku, skoro wewnątrz jej definicji tkwi założenie prawdziwości twierdzenia, które przecież chcemy udowodnić.
     Mitów na temat p-wartości jest milion pięćset. Pomijam już takie mity jak to, że p-wartość to prawdopodobieństwo prawdziwości hipotezy zerowej. Dla niektórych 1 - p oznacza prawdopodobieństwo hipotezy alternatywnej. Zdolności pisarskie pomagają w tworzeniu wymyślnych sformułowań jak "marginalnie istotny statystycznie" na wyniki nieco powyżej 0.05, albo też "prawie-lecz-nie całkowicie" istotny statystycznie. Sformułowanie 'istotny statystycznie na poziomie trendu' raczej świadczy o elokwencji autora niż o danych, tak samo 'na poziomie tendencji' jest nieprawidłowe. Oczywiście, o zjawiska można myśleć, że są na poziomie tendencji czy trendu (np. w kontekście mody jest to bardzo widoczne), ale nie można tej 'trendowości' czy 'tendencyjności' oceniać na podstawie tego, czy p-wartość zbliża się do 0.05.
 
Druga rzecz dotyczy odtrąbienia sukcesu, gdy p-wartość wyszła dostatecznie mała lub zgrzytania zębami, bo p-wartość wyszła za duża. 
Statystycznie istotny nie jest synonimem do istotny. Istotny statystycznie nie oznacza nawet 'ważny' w terminach praktyki. 
To też nie jest potwierdzenie hipotezy badawczej, nie świadczy o doniosłości otrzymanego wyniku. 
Wynik istotny statystycznie oznacza, że jakaś charakterystyka spadła poniżej pewnego arbitralnie wybranego punktu.
Fisher dobierając próg 0.05 miał na myśli pewien punkt referencyjny dla badacza, czy uznać swój wynik tylko za godny dalszych rozważań. Można zamiast istotny statystycznie wstawić sobie różowy statystycznie - będzie łatwiej. Może taki zabieg pozwala odciąć się od potocznego znaczenia słowa istotny.

Czy można winić badaczy za to badaczy? Nie - do momentu, kiedy dowiedzą się o błędzie. Tyle w teorii. Człowiek nie działa w ten sposób, że kiedy dowie się, że jego założenia są nieprawdziwe, to od razu wyrzuci je przez okno. Nie po to mamy racjonalizacje, intelektualizacje i inne mechanizmy obronne, aby móc sobie ot, tak po prostu zmienić zachowanie. Nie jest to oczywiście przyzwolenie na ten stan rzeczy. Jest to jednak pewien aspekt sytuacji - ten X factor, ludzki czynnik. 
Ktoś mi powiedział, że interesuje go użyteczność p-wartości - przecież ona pozwala na jakiś wybór między hipotezą prawdziwą a alternatywną. Pytanie, czy sama nauka ma być użyteczna czy prawdziwa? Czy raczej użyteczność powinna płynąć z prawdziwości? Tu trochę skręcam ku samej filozofii nauki, ale jeśli my nie zrobimy sobie porządku na naszym podwórku, to nikt za nas tego nie zrobi. Klepiemy w najlepsze te testy istotności i cieszymy się na widok gwiazdek. Na pewno są użyteczne: wątpię czy mówią prawdę o rzeczywistości. Od kilkudziesięciu lat zwraca się uwagę badaczom społecznym na problemy związane z p-wartością. I nic się nie dzieje. Prawie nic. Albo inaczej - nic na większą skalę. Basic and Applied Social Psychology zakazał podawania p-wartości w nadsyłanych artykułach. Rok później nadal pozostaje jedynym czasopismem, który zdecydował się na taki krok. Nie wiem, czy redaktorzy dobrze zrobili - ale coś zrobili.
Mądry Kuba Cohen


Nie chodzi mi o to, żeby zabrać badaczom narzędzie z rąk i pozostawić z niczym. Jeśli już używamy testów istotności, to zdawajmy sobie sprawę z tego, jakie jest to narzędzie i co ono robi - niech naszym celem w analizie danych nie będzie tylko 'istotność statystyczna. Przecież przy odpowiednio dużej próbie wszystko wyjdzie istotne statystycznie. Podawajmy wielkości efektu, zastanawiajmy się, czy wynik jaki uzyskaliśmy na odzwierciedlenie w rzeczywistości. Musimy zdawać sobie sprawę z tego, czym p-wartość jest, aby uniknąć ślepego pędu ku magicznej statystycznej istotności. 


Morał z tego taki:
Istotny statystycznie nie oznacza 'istotny' w ogólności!

Brak komentarzy: