Słoń różowy statystycznie




Mówią że:
(a) Istotność statystyczna mówi o istotności rzeczywistej, praktycznej, klinicznej.
(b) Istotność statystyczna mówi o tym, jakie jest prawdopodobieństwo, że dane są dziełem przypadku.
(c) Statystycznie nieistotny tzn. nieistniejący w ogóle.
I są w błędzie.

W tym poście piszę o tym, czy jest istotność statystyczna i jakie są trzy główne plotki na jej temat.


Jak uwieść ... umysł? Mignąć drobiazgiem i szarpnąć za łańcuch skojarzeń? Jak?

Kiedy sobie myślę o rozpoznawalnych markach, o znakach, które powodują, że od razu wiesz o co chodzi, to dla mnie królem jest Chrystus. Albo ten, kto wymyśliła to skojarzenie 'krzyż = chrześcijaństwo.' Krzyż jest świetny.

Koło jest za proste, za mało specyficzne. Wiele kół – to wzrost poziomu skomplikowania figury. Pojedyncza linia, czy to wzdłuż czy w poprzek rysowana też za prosta. Ile pojedynczych linii jest naokoło, które nic nie znaczą?
Dwie proste kreski, jedna krótsza, druga dłuższa narysowane pod kątem prostym – to jest genialne. Od razu łapiesz...
Tyle, że ten sam krzyż sam w sobie nikogo nie przekona. Nie jest tak, że gdy zobaczysz dwie linie połączone kątem prostym, to stajesz się wyznawcą. To tylko zwykły znak, który po prostu ma tę cechę, że łatwo rozpoznać. QR kod dla mózgu. Za to jak wymyślić coś, co jednocześnie sprawi, że dołączysz do klubu?
W dziedzinie logo to nie wiem czy to możliwe, czy może już coś takiego jest, ale w dziedzinie słów to mam kandydata. Fisher.

Fisher zrobił coś więcej w dziedzinie zaklinania znaczeń. Fisher sprawił, że kiedy słyszysz tę zbitkę istotne statystycznie, to w Twojej głowie jakby otwierają się drzwi do przekonania, że oto taka poważna dziedzina jaką jest Statystyka, obiektywnie orzeka o doniosłości jakiegoś wyniku badawczego. To jest dopiero mistrzostwo.

Nie musisz kończyć nawet matury, aby wiedzieć, co oznacza istotny statystycznie. 

Fisher pod tym względem jest królem.

Przeniósł ładunek perswazyjny słowa istotny na jakiś statystyczny wskaźnik i … pozwolił umysłom ludzkim dorobić resztę. Co więcej, użył takiego słowa, które ma inne i zarazem bardzo mocne skojarzenie w życiu codziennym: istotny, czyli ważny, faktyczny, kluczowy, doniosły, prawdziwy i niewątpliwy. Badacz często nie wie, że bierze udział w show z kukiełkowe mupetami utkanymi ze słów, a rękę wkłada Fisher.

W tym poście rozpakowuję znaczenie istotności. Tej statystycznej.

Punkt wyjścia – co oznacza istotność statystyczna? Istotność statystyczna oznacza, że wynik statystyki testowej jest tak duży, że jego szansa czy prawdopodobieństwo jest mniejsza od 0.05. Prawdopodobieństwo – ale czego? Otrzymanego przez Ciebie wyniku. Wyniku, który obliczyłeś zakładając, że hipoteza zerowa jest prawdą. To jest bardzo ogólnie rzecz ujmując. Najważniejsze teraz to, to, że tę świętą istotności wyznacza przekroczenie jakiegoś progu. Śmieszne – im wyższy wynik, tym mniejsza szansa. Powinno być na odwrót, ale nie jest.

To tak, jakbyś o ważności jakieś sprawy decydowała na podstawie pojedynczego jej aspektu. 
Ale zaraz – a to skąd jest 0.05? Fisher dobierając próg 0.05 miał na myśli pewien punkt referencyjny dla badacza, czy uznać swój wynik tylko za godny dalszych rozważań. To nie mój wymysł, on tak naprawdę napisał:

It is usual and convenient for experimenters to take 5 per cent as a standard level of significance in the sense that they are prepared to ignore all results which fail to reach this standard. (Fisher, The Design of Experiments, 1971)

Czyli najpierw zakładam, że nie istnieją różnice między grupami, a potem dopiero zapuszczam swój test statystyczny. To wydaje się być dziwne, ale tak jest. Więc nie ma jak podważyć hipotezy zerowej, skoro obliczasz prawdopodobieństwo wystąpienia wyników zgodnych z jej przewidywaniami. Albo inaczej: są dwie możliwości, gdy wynik jest istotny statystycznie:
(a) Twoja hipoteza zerowa jest nieprawdziwa,
(b) Twoje dane są bardzo oryginalne.
Tyle, że nie ma jak rozstrzygnąć, która z tych dwóch opcji jest prawdziwa. A co chce rozumieć badacz?

(a) Istotność statystyczna mówi o istotności rzeczywistej, praktycznej, klinicznej.
Nie. Nie mówi.

Ani nie świadczy, ani nie wskazuje – nie chodzi mi tu o czepialstwo językowe. Istotność statystyczna oznacza, że wynik pojedynczego badania przekracza jakiś próg lub nie. O istotności rzeczywistość składa wiele więcej – choćby nawet powtórzenie wyniku badań. Skoro witamina C leczy szkorbut, to dajmy to kilku grupom badanych osób.

(b) Istotność statystyczna mówi o tym, jakie jest prawdopodobieństwo, że dane są dziełem przypadku.
Nie, nie mówi.

To zresztą bardzo ładna metafora – ale statystyka nie podpisuje umów o dzieło z przypadkiem. Dlaczego?

Odpowiem Wam, przy okazji pokazując klasyczne w matematyce dowodzenie nie-wprost.

Załóżmy na chwilę, że tak jest: że istotność statystyczna, czyli p, wskazuje na prawdopodobieństwo, że dane są dziełem przypadku.

Więc 1-p pokazuje na prawdziwość tego, że dane nie są dziełem przypadku.

No, dobrze, to czego są dziełem? Zostaje nam hipoteza zerowa.

Więc 1-p mówi o tym, że dane są dziełem hipotezy zerowej.

To tak po matematycznemu byłoby prawdopodobieństwo prawdziwości hipotezy zerowej P(H0). Natomiast p-wartość to prawdopodobieństwo otrzymania jakichśtam wyników zakładając, że hipoteza zerowa jest prawdziwa P(D | zakładając, że H0 jest prawdziwa). 
Nawet jeśli nie kumasz tych znaczków, to widzisz różnicę: P(H0) to nie jest to samo, co P(D| H0). 

To o czym mówi ta istotność statystyczna? Że wartość statystyki testowej przekroczyła pewien pułap. Jeśli już używamy testów istotności, to zdawajmy sobie sprawę z tego, jakie jest to narzędzie i co ono robi - niech naszym celem w analizie danych nie będzie tylko 'istotność statystyczna. Przecież przy odpowiednio dużej próbie prawie każdy wynik wyjdzie istotne statystycznie. Jak można się zabezpieczyć przed fake-rezultatami? Tutaj nie ma jednoznacznej recepty. Jedna z nich dotyczy wielkości efektu. Skoro nawet małe, nieznaczące różnice między grupami mogą zaświecić gwiazdkami, to sposobem jest podać wielkość różnic między nimi, czyli wielkość efektu. Musimy zdawać sobie sprawę z tego, czym p-wartość jest, aby uniknąć ślepego pędu ku magicznej statystycznej istotności.

(c) Statystycznie nieistotny tzn. nieistniejący w ogólności.
To też nieprawda.

Jeśli prześledziłeś tekst wyżej, to już wiesz, że istotność statystyczna oznacza.

Ważne jest tutaj to, że obliczanie wartości statystyk w każdym teście istotności odbywa się przy założeniu, że hipoteza zerowa jest prawdziwa. Jeśli Twoje dane nie sięgają gwiazd, to to jest trochę takie limbo decyzyjne – nieistotny wynik nie oznacza potwierdzenia hipotezy zerowej (ani też jej zaprzeczenia). Wiele badań przez to skończyło w szufladzie. Na nieistotność statystyczną może składać się wiele spraw: - może to wynikać z małej liczebności próby (moc testu), - a może hipoteza zerowa jest naprawdę prawdziwa – przecież może być tak, że mimo Twojej intuicji badawczej, nie ma różnic między grupami czy związku między zmiennymi. Przez wiele lat myślano, że są różnice w inteligencji między Białymi i Czarnymi*, a ich nie ma. - a może Ty robisz z tego problemu i kierujesz się niepohamowaną chęcią przywrócenia istotności statystycznej. Przepraszam, że tak z grubej rury, ale chodzi mi o mocny przekaz. Łowienie gwiazdek jest fałszowaniem wyników i źródłem problemu nie-replikowalności badań, jaki mamy w psychologii. Sama nie jestem Złota i też czuję dyskomfort, gdy widzę bezgwiezdne wyniki. Tak mnie nauczono, ale staram się przezwyciężać nawyki.
Powiedzmy to wreszcie:
Jeśli jesteś przekonany o tym, że Twoje wyniki są istotne statystycznie, tylko w analizach 'nie wyszło', to może rzuć w cholerę badania.
*Sprawdzałam w naszej Biblii edycji i redakcji tekstów naukowych, czyli w APA. Str 75.



Skoro istotność statystyczna to zaklęcie, który służy porwaniu Twojego umysłu, to może następnym razem zamiast istotny statystycznie, powiedz sobie:”różowy statystycznie”. Czasem wyjdzie prawie na to samo, a pozwoli Ci się to odciąć od zwyczajowego znaczenia słowa 'istotny'.



No, dobrnęliśmy do końca. Wokół p-wartości i istotności statystycznej narosło wiele legend, więc warto to obgadać. A więc zaczynam serię Mitów o P-wartości. Będę w miarę systematycznie publikować posty rozwijające przekonania badaczy o p-wartości. Towarzyszem będzie Słoń Różowy Statystycznie.

4 komentarze:

Unknown pisze...

Hej, studiuje psychologie w niemczech i czytam Twojego bloga juz od jakiegos czasu. Jestem nim szczerze zachwycona! masz wielki talent do ujmowania kompleksowych tematow w klarowny i prosty sposob! Jesli napisalabys ksiazke, kupilabym ja!

Bardzo mi pomoglas!
Powodzenia we wszystkim co robisz, naprawde trzymam kciuki!

Kesja

Lilianna Jarmakowska-Kostrzanowska pisze...

Cześć Kesja, bardzo dziękuję Ci za ten komentarz i bardzo mi miło, że podoba Ci się to, jak piszę :-) Mi czasami brakuje informacji zwrotnej od czytaczy, czy to do nich trafia, czy nie trafia, więc bardzo doceniam te kilka słów.

I dziękuję też za życzenie powodzenia - i nawzajem, uściski z Polski :-)

Lili

Anonimowy pisze...

Nie wiem jak to możliwe, że tylko po przeczytaniu twoich wpisów jestem w stanie zrozumieć jakieś zagadnienie (nawet mimo kreatywności prowadzących na mojej uczelni). Tu przejawia się twoja mądrość, że potrafisz wytłumaczyć coś trudnego w najprostszy sposób.

Lilianna Jarmakowska-Kostrzanowska pisze...

:-) Miło mi, dziękuję! :-)