Test t-Studenta dla zależnych

LISTOPAD 2023| LJK | ~2300 słów

Test t-Studenta dla grup zależnych (ang. t-Student's test for paired/dependent/matched data) to test wykorzystywany do porównania średnich nasileń zmiennej ilościowej w przypadku, gdy zebrane obserwacji można połączyć w pary. Wyniki w parze dotyczą tej samej zmiennej ilościowej.

SPIS TREŚCI:

PORÓWNANIA MIĘDZY DWIEMA GRUPAMI to najpowszechniejszy schemat badawczy w całym świecie badawczym. Dane pochodzące z takiego schematu można poddać obróbce statystycznej na dwa sposoby. Jeden z nich dotyczy obserwacji niezależnych, gdy badana cecha jest mierzona w obrębie dwóch różnych, wykluczających się kategorii np.: kobieta i mężczyzna (nie można być na raz kobietą i mężczyzną). Drugi dotyczy obserwacji zależnych. W takim badaniu korelacyjnym czy eksperymencie, osobno zbieramy osoby do jednej grupy (np. kontrolnej) i osobno do drugiej (np. eksperymentalnej). Drugi schemat badania polega na tym, że ta sama grupa osób badanych przechodzi przez pierwszy i drugi warunek badania, np. pretest i posttest. Ten pierwszy przykład danych pasuje do testu t-Studenta dla dwóch grup niezależnych KLIK. W tym poście zajmiemy się tym drugim przypadkiem.

TEST t-STUDENTA dla zależnych grup (albo par) znajduje zastosowanie w prostych eksperymentach: najpierw mierzymy wyjściowy poziom interesującej nas zmiennej. Potem osoby badane poddajemy działaniu eksperymentalnemu - obejrzeniu filmu mającego wywołać określone emocje, spożyć jakiś specyfik, wyobrazić sobie coś. Następnie znowu mierzymy poziom tej samej zmiennej, na którą to działanie eksperymentalne miało mieć wpływ. Chcemy sprawdzić, czy eksperyment coś zmienił, czyli to działanie terapeutyczne wprowadziło coś nowego. 

HIPOTEZA ZEROWA I ALTERNATYWNA TESTU t-STUDENTA DLA GRUP ZALEŻNYCH
HIPOTEZA ZEROWA — Hipoteza zerowa w teście t-Studenta dla prób zależnych mówi o równości średnich poziomów - czy nasileń - zmiennej zależnej między dwoma pomiarami. Przy czym - uwaga - nie chodzi o równość dwóch średnich arytmetycznych w dwóch zebranych próbach. Hipoteza zerowa jest hipotezą statystyczną i dotyczy populacji. Znak równości jest postawiony między średnimi nasileniami zmiennej zależnej w całej interesującej nas populacji zbadanej dwukrotnie.

H0: μ1 = μ2

Hipoteza zerowa w teście t-Studenta dla prób zależnych jest niemal identyczna z hipotezą zerową testu t-Studenta dla prób niezależnych. Różnica polega na tym, że to jest ta sama grupa osób badanych, więc dwukrotnie mierzymy średni poziom tej samej zmiennej między pomiarami. Indeks dolny nie oznacza zatem numeru poziomu czynnika a numer pomiaru.

JAK CZYTAĆ TEN ZAPIS? Ogólnie rzecz biorąc, w procedurze testowania istotności statystycznej hipotezy zerowej, hipoteza zerowa mówi o braku efektu. Chcąc przykroić ją na potrzeby dwukrotnego pomiaru tej samej zmiennej ilościowej, ów brak efektu możemy rozumieć jako niepowodzenie w manipulacji eksperymentalnej. Manipulacja nie przyniosła pożądanego efektu: wyniki zmiennej zależnej ani średnio nie wzrosły, ani średnio nie spadły, wciąż pozostając na tym samym poziomie.


Pamiętaj, że równość średnich wyrażona w hipotezie zerowej nigdy nie dotyczy równości średnich w próbie. Do tego celu (sprawdzenia, czy te średnie są równe w próbie) wystarczy spojrzeć na statystyki opisowe.

A teraz będą dziać się czary z danymi. W trakcie wykonywania analiz testu t-Studenta dla powtarzanych pomiarów z surowych danych przechodzimy na inny poziom.

HIPOTEZA ALTERNATYWNA — hipoteza alternatywna często bywa statystycznym odpowiednikiem hipotezy badawczej. Odpowiednikiem, czyli przełożeniem hipotezy badawczej na język symboli statystycznych. Hipoteza alternatywna również dotyczy średnich nasileń (poziomów) tej samej zmiennej zależnej między dwoma pomiarami, a znak arytmetyczny jaki stoi pomiędzy mógłby być znakiem mniejszości, większości, albo nierówności. W ten sposób mamy trzy możliwości:

  • LEWOSTRONNA H1: μ1 < μ2 — pod wpływem działania eksperymentalnego wzrasta średnie nasilenie badanej zmiennej
  • OBUSTRONNA H1: μ1 ≠ μ2 — działanie eksperymentalne zmienia średnie nasilenie badanej zmiennej, ale nie wiadomo, czy podwyższa, czy obniża
  • PRAWOSTRONNA H1: μ1 > μ2 — pod wpływem działania terapeutycznego spada średnie nasilenie badanej zmiennej. 

TRANSFORMACJA DANYCH – Jeszcze zanim dane wejdą do analiz, dane przechodzą pewną transformację. Polega ona na odjęciu wyników z jednego pomiaru od wyników z drugiego pomiaru. Dwa zestawy wyników zostają sprowadzone do jednego zawierającego różnice. Dla każdej obserwacji zostaje obliczona różnica między pomiarami. I to na niej wykonuje się test t-Studenta dla grup zależnych.

Zobacz, przenosząc średnią zmiennej zależnej drugiego pomiaru μ2 na lewą stronę, otrzymujemy różnicę średnich między pomiarami μ1 - μ2. Wyrażenie po lewej stronie zostaje porównane do zera μ1 - μ2 = 0.

HIPOTEZA ZEROWA W NOWEJ ODSŁONIE - Ponieważ wykonaliśmy operację na surowych danych i zmieniliśmy ich strukturę, hipoteza zerowa również zmieni swoją postać. Zamiast porównywać średnie oryginalnej zmiennej w dwóch pomiarach, średnią różnic zmiennej zależnej między dwoma pomiarami jest porównana do zera. Arytmetycznie nie jest to duża zmiana.

H0: μD = 0

Czyli wprawdzie w próbie nie oczekujemy, że wszystkie średnie będą równe zero, ale że średnia różnic między pomiarami w populacji już tak. To tak, jak gdyby przebadać całą ludzkość dwa razy, odjąć wyniki od siebie i oczekiwać, że średnia różnic dla całej populacji ani drgnie.

HIPOTEZA ALTERNATYWNA — Hipoteza alternatywna H1 w paradygmacie NHST wygląda bardzo mgliście. Z grubsza, można ją zapisać:”H1 nieprawda, że H0”, więc zaprzeczenie H1: μ1 ≠ μ2 oznacza brak równości między średnimi zmiennej zależnej między pomiarami. Gwoli ścisłości, my zajmujemy się średnimi różnic, więc wypadałoby napisać H1: μD ≠ 0

ZAŁOŻENIA TESTU t-STUDENTA DLA GRUP ZALEŻNYCH
Każdy test statystyczny dane powinny mieć odpowiedni format, aby dało się ten test zastosować. FORMAT DANYCH: jakie założenia powinny spełniać dane w teście t-Studenta. Należy mieć na uwadze, że oględzinom poddajemy nie surowe dane z obu pomiarów, a wynik ich transformacji (przekształcenia), czyli różnice między pomiarami. To dlatego, że hipoteza zerowa o braku różnic między średnimi wartościami w pomiarach H0: μ1 = μ2 stała się hipotezą zerową o zerowej średniej różnicy między pomiarami H0: μD = 0. Tu koncentrujemy się na nowym, pojedynczym zestawie wyników i okaże się, że z różnych możliwych oczekiwań co do do rozkładu zmiennej zależnej zostaje jedynie normalność rozkładu.

NORMALNOŚĆ ROZKŁADU (RÓŻNIC) - Kiedy przekształcimy dane z dwóch kolumn i powstanie nam trzecia kolumna, będzie ona zmienną, której normalność badamy. Wygląda na to, że badamy normalność rozkładu nie surowych wyników - dwóch odrębnych zmiennych - a różnic między pomiarami. Badanie normalności oznacza, że badamy, czy występowanie poszczególnych wyników jest podyktowane prawem rozkładu normalnego. Rozkład normalny to specyficzny przepis na pojawianie się obserwacji. Mówi on, że najczęściej będą pojawiać się wyniki z okolicy średniej, a czym "dziwniejsza" obserwacja, tym mniejsza szansa, że wystąpi.

Jeśli chcesz dowiedzieć się, jak diagnozować normalność tymi metodami, zajrzyj do posta pt. Diagnostyka normalności: KLIK

HOMOGENICZNOŚĆ WARIANCJI - W porównaniu z testem t-Studenta dla niezależnych, w wariancie tego testu dla grup zależnych, nie obowiązuje nas badanie homogeniczności wariancji badanej cechy. Skupiając się na różnicach między pomiarami, skupiamy się na jednym zestawie danych. Pewnie nikt nie zauważył, jak gładko przeszliśmy z testu t-Studenta dla dwóch prób do testu t-Studenta dla jednej próby. Tak - test t-Studenta dla prób zależnych to tak naprawdę test t-Studenta dla jednej próby (one sample t-test), gdzie tą jedną próbą są różnice. Nie ma grup, w których mielibyśmy porównywać wariancje. Zostaje tylko badanie normalności rozkładu, ale różnic między pomiarami.

STATYSTYKA TESTOWA TESTU t-STUDENTA DLA GRUP ZALEŻNYCH
Zanim omówimy statystykę testową – a potem jej rozkład – zobaczmy, co dzieje się z danymi. W pojedynczej kolumnie znajdują się różnice między pomiarami. Wcześniej zrezygnowaliśmy z surowych danych i została nam jedna kolumna z transformowanymi danymi tj. z różnicami między pomiarami. Co by się teraz stało, gdybyśmy policzyli średnią arytmetyczną tych różnic? Czego moglibyśmy spodziewać się po tej liczbie?

Gdyby średnia arytmetyczna różnic wynosiła zero, oznaczałoby to, że – średnio rzecz biorąc – manipulacja eksperymentalna nie przyniosła żadnego efektu. Drugi pomiar jest ogólnie (średnio) taki sam jak pierwszy pomiar. Nie znaczy to oczywiście, że każda osoba ma dwa jednakowe wyniki w obu pomiarach, ale że średnie arytmetyczne oryginalnej zmiennej zależnej są równe.

Ktoś mógłby pospieszyć się i powiedzieć: niech ta średnia różnic będzie statystyką testową testu t-Studenta dla zależnych. Problem jednak jest taki sam, w teście t-Studenta dla niezależnych. Średnia arytmetyczna jakiejkolwiek zmiennej nie widzi zmienności wyników.Wobec czego średnia arytmetyczna jest dzielona przez błąd standardowy. Ten iloraz jest właśnie czymś, co nazywamy statystyką testową w teście t-Studenta dla prób zależnych a proces dzielenia jednego przez drugie jest nazywany studentyzacją.

Wszystkie warianty testu t-Studenta posiadają tę samą ideę statystyki testowej. Punktem wyjścia do jej stworzenia było to, że nie można polegać tylko i wyłącznie na porównywaniu dwóch średnich. Zwykła różnica między średnimi nie oddaje tak tego, co naprawdę dzieje się w danych. która polega na odejściu od różnicy między surowymi średnimi arytmetycznymi przy jednoczesnej tzw. studentyzacji tej różnicy (między średnimi). Najpierw trzeba zatem zrozumieć czym jest tzw. studentyzacja średniej.

STUDENTYZACJA
Studentyzacja średniej arytmetycznej to nic innego jak podzielenie tej średniej przez błąd standardowy (średniej). Błąd standardowy interpretuje się w kategoriach dobroci precyzji oszacowania. Co to znaczy? Wyjdźmy od tego, że średnia arytmetyczna w próbie jest tylko pewnym oszacowaniem średniej w populacji. O ile nie mamy przebadanej całej populacji, musimy się pogodzić z dozą niepewności wynikającą z faktu, że posiadamy wiedzę tylko o wycinku populacji. Ta miara niepewności to właśnie błąd standardowy. Precyzyjniej rzecz ujmując, błąd standardowy to miara tego, jak dobrym oszacowaniem średniej w populacji μ jest uzyskana w próbie średnia arytmetyczna. Do tego stworzono odpowiedni wzór, który zawiera informacją zarówno o stopniu rozproszenia wyników, jak i o liczbie jednostek badanych. Nawet na chłopski rozum można wywnioskować, że im więcej jednostek badanych, tym bardziej precyzyjne są nasze wskaźniki. Zaś im bardziej rozproszone wyniki osób badanych (pot. zamulone), tym mniejsza precyzja. Kiedy podzieli się średnią arytmetyczną lub różnicę między średnimi arytmetycznymi przez jej błąd standardowy, otrzymamy jedną liczbę. Będzie to wskaźnik tego, jak dobrze oszacowana poprzez średnią w próbie jest średnia w populacji.

Gdy już wiemy, jak połączyć informację z danych i wyrazić ją w postaci statystyki testowej, pojawia się kolejne pytanie - jak często zdarza się ta wartość statystyki testowej?

JAK CZĘSTO ZDARZA SIĘ WARTOŚĆ STATYSTYKI TESTOWEJ?
Dlaczego w ogóle zadajemy to pytanie? Cóż w statystyce klasycznej istnieje określony sposób postępowania podczas weryfikacji hipotez. Mamy bazę danych, której wyniki mają posłużyć do weryfikacji postawionej hipotezy badawczej. Słuchajcie, z tymi danymi coś trzeba zrobić. A ponieważ będziemy dokonywać wnioskowania o całej populacji, to musimy wyjść poza zwykły opis próby i sięgnąć po bardziej zaawansowane narzędzia niż statystyki opisowe. Pomysł jest taki, że sprawdzić, jak prawdopodobne są te wyniki. Co mam na myśli, używając w poprzednim zdaniu słowa: "wyniki"? Oczywiście, może mi chodzić o surowe wyniki osób badanych, które są w bazie danych. Może chodzić o przekształcone wyniki do różnic między pomiarami, ale ściśle rzecz ujmując chodzi mi o wartość statystyki testowej. Zadaję pytanie, jak prawdopodobna jest uzyskana w teście wartość statystyki testowej t-Studenta. I tu wchodzimy na kolejny krąg statystycznego wtajemniczenia: nie da się tak po prostu spytać o prawdopodobieństwo.

Nie, nie chodzi o jakieś matematyczne czary-mary. Chodzi o kontekst. Zdarzenia są bardziej prawdopodobne w jednym kontekście, i mniej prawdopodobne w innym. Pytanie o wartość statystyki testowej odbywa się również w pewnym kontekście - prawdziwości hipotezy zerowej. A więc, tak naprawdę zadajemy następujące pytanie: jeśli nie byłoby różnic między pomiarami, to jak prawdopodobna jest uzyskana wartość statystyki testowej? Inaczej mówiąc, jeśli manipulacja eksperymentalna nie działa, to jak typowa jest uzyskana wartość statystyki testowej? Na to pytanie odpowiada się za pomocą rozkładu wartości statystyki testowej. W tym wariancie testu t-Studenta jest to rozkład t-Studenta.



Własności rozkładu t-Studenta
  • jest charakteryzowany przez liczbę stopni swobody (ang. degrees of freedom). Różne stopnie swobody powodują nieco odmienne kształty tego rozkładu.
  • liczba stopni swobody jest związana z liczbą jednostek badanych, tj. df = N - 1, gdzie N to liczba jednostek badanych
  • im więcej jednostek badanych, tym większa liczba stopni swobody i tym bardziej rozkład t-Studenta przypomina rozkład normalny
  • Na podstawie rozkładu wartości statystyki testowej obliczana jest tzw. istotność statystyczna, czyli p-wartość (ang. p-value). P-wartość jest miarą zgodności danych z hipotezą zerową testu statystycznego, na podstawie którego ją obliczono (tu: testu t-Studenta dla grup zależnych). Z technicznego punktu widzenia, jest tym prawdopodobieństwem wystąpienia otrzymanej w teście wartości statystyki testowej - o ile manipulacja eksperymentalna nie przynosi żadnego skutku.

    Sama p-wartość - sama istotność statystyczna - nie daje podstaw do twierdzenia, czy hipoteza badawcza została potwierdzona. Do tego trzeba wykonać nieco więcej kroków.

    WIELKOŚĆ EFEKTU — Ponieważ istotny statystycznie wynik nie jest synonimem dużej siły zależności między zmiennymi (tu oznaczałoby to, że manipulacja eksperymentalna powoduje dużą zmianę zmiennej zależnej między pomiarami), to badacz musi zwrócić się do innego narzędzia - po wielkość efektu (ang. effect size). Wielkość efektu to miara siły związku między zmiennymi i w przypadku porównań między dwoma średnimi (nasileniami) najczęściej wykorzystuje się wielkość efektu d-Cohena.

    WIELKOŚĆ EFEKTU d-COHENA — d oznacza difference (pol. różnica). Małe d nie oznacza zwykłej różnicy między średnimi zmiennej zależnej w dwóch pomiarach - a standaryzowaną. Tu znów powtarza się wątek niemożności porównań samych średnich. Średnia arytmetyczna nie zawiera informacji o rozproszeniu obserwacji wokół niej (od tego jest odchylenie standardowe). To powoduje, że dwie średnie mogą różnić się znacząco co do samego wyniku odejmowania, np. 1000 - 1 = 9999, ale z uwagi na znaczne rozproszenie obserwacji ta różnica niknie. Stąd rozsądnym rozwiązaniem problemu rzetelnego porównania dwóch grup jest uwzględnić zarówno średnie arytmetyczne, jak i rozproszenia. I tak powstało d-Cohena.

    WŁASNOŚCI WIELKOŚCI EFEKTU d-COHENA
    • jest to pojedyncza liczba
    • przyjmuje wartości od minus nieskończoności do plus nieskończoności
    • gdy jest równa zero, wówczas średnie arytmetyczne w dwóch pomiarach są sobie równe
    • aby dowiedzieć się, czy otrzymana w badaniu wielkość efektu jest mała czy duża, należy skorzystać z progów (ang. benchmarków), np. systemu progów Cohena

    ROZMIARÓWKA — poniżej znajduje się system progów stworzony przez Cohena w 1988.

    DUŻA od .80 do plus nieskończoności
    UMIARKOWANA od .50 do .80
    MAŁA od .20 do .50
    MAŁA od -.50 do .20
    UMIARKOWANA od -.80 do -.50
    DUŻA od minus nieskończoności do -.80

    Od końca lat osiemdziesiątych ubiegłego stulecia minęło już trochę czasu i system Cohena zestarzał się. W wielu subdziedzinach psychologii powstały nowe, bardziej adekwatne do specyfiki badań w takiej poddziedzinie. Podaję go tutaj, ponieważ mimo wszystko jest nadal najczęściej wykorzystywanym systemem progów.

    Pewnie spytasz, czy Cohenowi nic nie pomyliło się. Wygląda na to, że duże wielkości efektu zajmują największy obszar osi liczb rzeczywistych - to jest od minus nieskończoności do minus ośmiu dziesiątych i od ośmiu dziesiątych wzwyż. Otóż, Cohen nie popełnił błędu. Nic mu się nie pomyliło. W psychologii wielkości efektu lokują nie są ogromne, zwykle lokują się blisko zera.

    Czym jest istotność statystyczna?

    STATYSTYKA JEST KOJARZONA Z OPISEM DUŻYCH ZBIOROWOŚCI — Nic w tym dziwnego. Trudno otworzyć jakikolwiek portal informacyjny, żeby się z niego nie wysypały jakieś liczby - ile osób zachorowało na COVID-19, ile wyzdrowiało, ile Unia Europejska wykupiła szczepionek, itp. Bez zbytniej przesady można powiedzie, że pytanie Ile? jest podstawowym pytanie do statystyki i jej narzędzia służą do odpowiedzi na nie.

    Zresztą służyły tak od dawna. Pierwszym zadaniem statystyki było właśnie dostarczanie informacji o tym, ilu jest wojowników, budowniczych, niewolników. Jakie zebrano plony, ile jest oliwy. Samo słowo statystyka pochodzi od słowa status (państwo), a przymiotnik statystyczny brzmi prawie tak samo jak zbiorowy, społeczny. Dlatego wszystko co ma dodatek statystyczny w nazwie będzie odnosiło się do społeczności.

    RÓŻNICE MIĘDZY DWIEMA GRUPAMI SĄ ISTOTNE STATYSTYCZNIE — Kiedy usłyszysz takie zdanie, niemal bezrefleksyjnie łapiesz, o co w nim chodzi. Te grupy różnią się w sposób istotny, odczuwalny, nie do pominięcia. Na przykład różnice między kobietami a mężczyznami są istotne statystycznie. Oznacza to mniej więcej tyle samo, co mężczyźni są z Marsa, a kobiety z Wenus.

    Wszystko się zgadza, brzmi to całkiem logicznie i spójnie. I zawsze kiedy jest tak dobrze, przychodzi ktoś, kto psuje wszystko, bo wcale nie jest tak, jak powiedzieliśmy. W statystyce jest kilka pojęć, które nie mają zbyt wiele wspólnego z potocznym rozumieniem i istotność statystyczna jest jednym z nich. Wszystko przez położenie słowa 'statystycznie' za słowem 'istotny'.

    KIEDY USŁYSZYSZ, ŻE RÓŻNICE MIĘDZY GRUPAMI SĄ ISTOTNE STATYSTYCZNIE — to przede wszystkim nie zrozum tego, jako istotne statystycznie w tym znaczeniu, o którym pisałam wyżej. Że są to różnice obserwowane w całej społeczności. Jeśli Twój rozmówca jest statystykiem i chcesz zobaczyć, jak wije się przy wyjaśnieniu, to zadaj mu to pytanie:"istotne statystycznie - a co masz na myśli?". Jeśli chcesz zaoszczędzić katuszy, to niżej jest rozwikłanie zagadki, jak powinno się rozumieć istotność statystyczną.

    Wynik testu statystycznego może być istotny lub nieistotny statystycznie. W statystyce do badania zależności posługujemy się testami statystycznymi - tak, jak w medycynie testami medycznymi. Wynik, który jest istotny statystycznie to żargonowe powiedzenie tego, że ten wynik osiągnął pewien oczekiwany pułap. Dokładniej rzecz ujmując, wynik testu statystycznego ma szansę wystąpienia niższą niż 5%, jeśli przyjmie się dodatkowe założenie, że szansę tego wystąpienia sprawdza się, gdy tej zależności czy różnicy nie ma. Dalsze wyjaśnienie wpędza nas w las statystycznych pojęć, więc zatrzymajmy się tutaj. Statystyczna istotność statystyczna ma o wiele skromniejsze znaczenie niż by się chciało.

    Jeśli w radiu, telewizji czy w Internecie widzisz, słyszysz pojedyncze zdanie różnica między grupami jest istotna statystycznie, to nie daj się zwieść, zwłaszcza, wówczas mówi to statystyk. Nie dlatego, że kłamie, ale dlatego, że wszyscy naukowcy cierpią na swoisty brak teorii umysłu. Bardzo ciężko im wejść w buty, kogoś, kto nie mówi tym samym żargonem. Krótko mówiąc, posługują się tym zawężonym znaczeniem pojęcia istotności. A różnica między ogólnym pojęciem istotności a pojęciem istotności statystycznej jest ogromna.

    ISTOTNOŚĆ STATYSTYCZNA TO NIE STATYSTYCZNA ISTOTNOŚĆ — Żeby nie popaść w inny żargon, tym razem z językoznawstwa, powiem, że różnica między istotnością statystyczną a statystyczną istotnością jest taka sama, jak różnica między ptakiem niebieskim, a niebieskim ptakiem. Ptak niebieski to ktoś, kto jest lekkomyślny. Niebieski ptak to ptak o niebieskim kolorze piór. Chodzi tu o kolejność rzeczownika i przymiotnika. Istotność statystyczna to jedno, a statystyczna istotność to drugie.

    Błędy I i II rodzaju

    Historię z błędami I-go i II-go rodzaju zwykle przedstawia się w bardzo prosty sposób. Badacz stawia hipotezę zerową, która jak sama nazwa wskazuje jest hipotezą o braku zależności, oraz hipotezę przeciwną do niej tzw. hipotezę alternatywną. Wobec tego, prowadząc badanie, może się pomylić na dwa sposoby. Albo odrzuci prawdziwą hipotezę zerową (i tym samym przyjmie fałszywą hipotezę alternatywną), albo przyjmie fałszywą hipotezę zerową (i tym samym odrzuci prawdziwą hipotezę alternatywną). Pierwszy błąd nazywany jest błędem I-go rodzaju. Drugi błąd jest nazywany błędem II-go rodzaju.

    Aby mieć czarno na białym, co jest czym, pomocna jest taka tabela:

    Wygodnie czytać ją ze świadomością, że są dwie rzeczywistości: obiektywna oraz subiektywna. Ta prawdziwa i to, co badacz sobie myśli.

    Kiedy patrzysz na powyższą tabelę, widzisz taką czteropolówką, która pokazuje, które decyzje są dobre, a które złe i jak te złe profesjonalnie noszą nazwy. Jeśli decyzja badacza zgadza się z rzeczywistością, to wówczas są dobre decyzje. Te natomiast, w których badacz mija się z rzeczywistością, są złymi.

    Wszystko jest bardzo ogólnie powiedziane, więc przydadzą się przykłady - sądowy lub ciążowy to najczęściej spotykane ilustracje powyższego myślenia

    Ilustracja sądowa idzie tak: wyobraź sobie, że jesteś sędzią w procesie sądowym. Przed Tobą stoi oskarżony, a Ty musisz wydać wyrok: albo niewinny albo oskarżony. Jeśli jest on niewinny, a Ty skażesz go na więzienie, to popełnisz błąd I-go rodzaju. Jest to błędne odrzucenie prawdziwej hipotezy zerowej o braku zarzucanego czynu. Jeśli skazany jest winny, a Ty go wypuścisz, to popełnisz błąd II-go rodzaju. Jest to błędne przyjęcie fałszywej hipotezy zerowej o braku zarzucanego czynu.

    Ilustracja ciążowa jest nieco krótsza.


    Jak się dalej okaże, na tych przykładach można zajechać tylko do pewnego momentu (wiecej, w poście o mocy testu KLIK).

    Zwyczajowo przyjmuje się, że poziom błędu I-go rodzaju wynosi 0.05 (lub: 5%) a błąd II-go rodzaju wynosi 20%.

    Są to tylko umowne wartości, a ich pochodzenie można wyśledzić. Na przykład 5% jest progiem zaproponowanym przez Jerzego Neymana, a 20% - przez psychologa Jacoba Cohena. Nie jest tak, że jakieś skomplikowane twierdzenie dowodzi słuszności tych wartości. Ani też tak, że seria pomiarów wykazała, że one tyle wynoszą (tak jak badanie przyciągania ziemskiego). Są to raczej umowy. Można spotkać badania, gdzie poziom błędu I-go rodzaju ma być niższy i wynosić 0.01%. Możliwe jest również podwyższenie tego błędu do 10% - to jest kwestia oceny badacza w danej dziedzinie nauki.

    Zobacz, że ani razu nie użyłam słowa istotny statystycznie lub p-wartość. Nie potrzebuję. Ba! Nawet mi nie wolno. BłędyI i II-go rodzaju to pojęcia ze słownika statystyki frekwentystycznej i ma to ogromne znaczenie do wniosków wysnuwanych na podstawie wyników. Frekwentystyczna statystyka opiera się na częstościowej interpretacji prawdopodobieństwa.

    Ponieważ jesteśmy w interpretacji częstościowej, musimy więc wyobrazić sobie nieskończony ciąg powtórzeń tego samego eksperymentu. To może być coś prostego jak rzut monetą albo Twoje badanie. Postawmy dwie hipotezy. Jedna niech będzie zerowa o braku związku między zjawiskami, albo o braku zależności lub braku korelacji. Ma być brak związku. Druga hipoteza oznacza, że związek między zjawiskami jednak istnieje.

    CZĘSTOŚCIOWA INTERPRETACJA PRAWDOPODOBIEŃSTWA — to świat, w którym nie interesuje nas jednostkowe doświadczenie, ale to, dokąd bieży cały ciąg tych doświadczeń. To wszystko oznacza, że nie wiesz, czy Twój wynik to błąd I-go lub II-go rodzaju. Wiesz tylko, że gdybyś wykonywała te doświadczenia, to myliłabyś się w 5%, gdyby Twoja hipoteza zerowa była prawdziwa, oraz w 20%, gdyby Twoja hipoteza alternatywna była prawdziwa. Kontrolujemy ile razy pomylimy się w bardzo długim ciągu powtórzeń tego samego eksperymentu.
    Z podobną interpretacją mogłaś spotkać się przy okazji przedziału ufności. Tam również nie wiadomo było, czy Twój przedział zawiera prawdziwą wartość prawopodobieństwa, ani też, z jakim prawdopodobieństwem zawiera prawdziwą wartość. Ufność dotyczyła natury procesu tworzenia przedziału. Podobnie tutaj: kontrolujesz błędy I-go i II-go rodzaju w nieskończonym ciągu powtórzeń tego eksperymentu.

    To również oznacza, że błąd I-go rodzaju nie jest p-wartością.
    Tymczasem wiele książek, wpisów na blogu zawiera powielany przez lata mit/błąd, że błąd I-go rodzaju to poziom istotności statystycznej. Brzmi to mniej więcej tak:" Prawdopodobieństwo popełnienia błędu pierwszego rodzaju, jeśli hipoteza zerowa jest prawdziwa, to poziomem istotności (statystycznej)." Wobec tego pojawia się pytanie, dlaczego łatwo te dwie sprawy połączyć?

    ZALEŻNOŚĆ MIĘDZY BŁĘDAMI - Życie uczy, że dobrze jest nie popełniać błędów. Dobrze jest nie szukać kluczy, tam gdzie ich nie ma. Dobrze jest nie szukać czegoś, co nie istnieje. Tak samo moglibyśmy zechcieć zminimalizować błąd I-go rodzaju. Najlepiej - wyzerować. Ale jeśli zaprojektujemy test, którego poziom błędu I rodzaju α był równy 0, to ceną, jaką za to zapłacimy jest maksymalizacja błędu II-go rodzaju. Jak to się dzieje?

    KONSEKWENCJE MINIMALIZACJI BŁĘDU I-GO RODZAJU- Aby uniknąć błędu I-go rodzaju, chcielibyśmy przyjmować te hipotezy zerowe, które są prawdziwe. Projektujemy zatem test, który przyjmuje każdą hipotezę zerową. Pamiętaj, że cały czas pozostajemy w statystyce frekwentystycznej. Wyobraźmy sobie więc całą serię badań, a w każdym z nich przyjmujemy hipotezę zerową.

    W zasadzie moglibyśmy nawet badań nie robić, bo i tak nie odrzucimy żadnej hipotezy zerowej. Nawet tej fałszywej. To z kolei prowadzi do tego, że jeśli w rzeczywistości jest jakiś efekt, jakaś różnica między grupami, czy korelacja, to i tak nie uznamy jej istnienia. A więc popełnimy błąd II-go rodzaju. W tej serii badań cały czas będziemy popełniać błąd drugiego rodzaju. To oznacza, że popełnimy 100% błędów drugiego rodzaju, chcąc wyzerować błędy pierwszego.

    KONSEKWENCJE MINIMALIZACJI BŁĘDU II -GO RODZAJU - Wykorzystajmy jeszcze raz przykład prawniczy. W przykładzie prawniczym błąd II-go rodzaju oznacza błędne odrzucenie prawdziwej hipotezy alternatywnej (a brzmi ona tak: dana osoba jest przestępcą) i przyjęcie fałszywej hipotezy zerowej (dana osoba jest niewinna). Chcemy, aby było idealnie i perfekcyjnie, czyli w żadnym ze 100 przypadków nie popełnić tego błędu. Zatem w obawie przed popełnieniem błędu II-go rodzaju zwanego β profilaktycznie i przezornie uznajemy, że wszyscy oskarżeni są winni. I kropka. Co się wówczas dzieje? Przestępcy słusznie siedzą za kratkami, ale osoby niewinne również wędrują do więzienia. Błąd II-go rodzaju jest równy zero, ale zmaksymalizowaliśmy błąd I-go rodzaju.

    A tak naprawdę to, chcielibyśmy zminimalizować błąd I-go i błąd II-go rodzaju. Ale one są ze sobą powiązane. Wyzerowanie błędu II-go rodzaju pociągnie zmaksymalizowanie błędu I-go rodzaju. Jaki byłby odpowiedni kompromis między poziom błędu I-go a II-go rodzaju?

    TEST KONSERWATYWNY I TEST LIBERALNY - Chcemy, żeby poziom popełniania błędów I-go rodzaju był równy 5%. Ale czy to przypadkiem nie jest tylko myślenie życzeniowe czy zwykłe chciejstwo? Może są testy, które odrzucają więcej hipotez zerowych i testy, które odrzucają mniej? Są. Nawet mamy dla nich nazwy:-)
    Test, który ma tendencję do nieodrzucania hipotezy zerowej (częściej uważa, że hipoteza zerowa jest prawdziwa), to test, którego rzeczywisty poziom błędu I-go rodzaju nie przewyższa nominalnego, najczęściej 5-procentowego progu, jest nazywany testem konserwatywnym.

    Dlaczego piszę:"rzeczywisty"? Bo zawsze można w laboratorium sprawdzić, czy test naprawdę odrzuca 5%, czy może mniej. To laboratorium to są symulacje i dzięki temu wiemy, że niektóre testy mimo, że na etapie ich projektowania chcieliśmy aby myliły się dokładnie 5%, to jednak nie osiągają tego pułapu (to tylko na pozór dobrze). Pamiętaj, jeśli test jest konserwatywny, to popełnia mniej błędów I-go rodzaju, a kosztem tego jest zwiększenie błędów II-go rodzaju.

    TEST KONSERWATYWNY - Wyobraź sobie wielkokrotne wykonywanie tego samego badania, a więc tego samego testu. Jak sama nazwa wskazuje, hipotezy zerowe zwykle mówią o braku efektu. Za to hipotezy alternatywne - o tym, że coś istnieje, co czyni je bardziej postępowymi. Z tej perspektywy taki test, który nie chce być postępowym a pragnie zachować status quo jest testem konserwatywnym.

    Jeśli badacz chce popełniać mało błędów I-go rodzaju to oznacza, że chce rzadko odrzucać prawdziwe hipotezy zerowe. Aby rzadko odrzucać prawdziwe hipotezy zerowe, trzeba rzadko odrzucać hipotezy zerowe. Żeby rzadko odrzucać atrakcyjnych partnerów, trzeba rzadko odrzucać partnerów w ogóle. Ta strategia ma swój koszt - skoro rzadko odrzucać, to znaczy częściej przyjmować hipotezy zerowe. A to oznacza, że może zdarzać się przyjmowanie fałszywych hipotez zerowych. Przyjęcie fałszywej hipotezy zerowej to odrzucenie prawdziwej hipotezy alternatywnej, a hipotezy alternatywne mówią o istnieniu jakiegoś efektu. Skoro rzadko je przyjmujemy, to jesteśmy dość konserwatywni: częściej twierdzić, że nie ma efektu niż, że jakiś jest. Hipotezy zerowe mówią zwykle o braku istnienia jakiegoś efektu, a konserwatywny jest słowem o etymologii łacińskiej (conservare znaczy przechowywać, zachowywać) i ma znaczenie zachowawczy (‘lepiej nic nie zmieniać’), więc test, który ma tendencję do nieodrzucania hipotezy o zerowym efekcie, jest testem konserwatywnym. Taki test myśli sobi: na wszelki wypadek niczego nie wynajdę, co bym nie musiał się martwić, że społeczeństwo się zmieni. Taki test, który w wielokrotnym powtórzeniu tego samego badania ma obniżony poziom błędu I-go rodzaju ma jednocześnie podwyższony poziom błędu II-go rodzaju.

    TEST LIBERALNY - Test liberalny to test, który nie jest testem konserwatywnym. Niektórzy nazywają je antykonserwatywnymi. Jeśli czytasz te słowa po przeczytaniu poprzedniego akapitu, najbliższa treść powinna być intuicyjna - a przynajmniej bardziej intuicyjna. Jeśli test jest testem liberalnym, to znaczy, że nie chce zachowywać ustalonego status quo. Wobec tego, będzie częściej odrzucał hipotezę zerową i - zarazem - częściej przyjmował hipotezę alternatywną. To oznacza, że spadnie mu błąd II-go rodzaju, ale jednocześnie wzrośnie błąd I-go rodzaju. Test, który ma rzeczywisty poziom alfa wyższy niż 5%, czyli mimo tego, że teoretycznie powinien popełniać nie więcej niż 5% pomyłek w rzeczywistości popełnia ich więcej.

    P-wartość

    Jeśli z wykładów ze statystyki komuś cokolwiek zostaje w głowie to jest to p-wartość i istotność statystyczna. Zajmijmy się tutaj tą pierwszą rzeczą.

    CZYSTO INŻYNIERYJNIE - Robiąc małe TL;DR z posta o statystyce testowej, p-wartość to liczba, która znajduje się na końcu machiny mielącej dane i hipotezę zerową.

    Ta machina nazywa się statystyką testową i to, co z siebie wypluwa, nazywa się wartością statystyki testowej. Z przykładu w poście o statystyce testowej, wiemy że średnia w badanej grupie osób wynosi 120,20 a odchylenie standardowe 1,29. Przykład był czysto fizjologiczny. Badacz chciał sprawdzić, czy jego badana grupa ma książkowy poziom ciśnienia skurczowego. Według podręczników to 120 mm Hg. Czyli w momencie skurczu Twoje serce wtłocza krew do tętnic z taką siłą, która również wtłoczyłaby rtęć do pionowo ustawionego słupka na wysokość 120 milimetrów.

    Z maszynki uzyskujemy wynik 0,49. Do tej pojedynczej liczby przykłada się WZORNIK i ocenia, czy mamy do czynienia z typową dla tej maszynki wartością, czy też nie. W XXI wieku robi to za nas program statystyczny na podstawie takiego rozkładu obliczasz szansę przytrafienia się takiego wyniku, jak otrzymany (np. 0,49), albo bardziej ekstermalnego (czyli więcej niż 0,50, bo jeszcze 0,99 oraz 1,45 itd), którą nazywasz p-wartością (p-value). To wydaje się dziwne, że liczymy prawdopodobieństwo nie tylko tej wartości, która nam wyszła, ale także za jednym zamachem zgarniamy wszystkie za nią. Tak po prostu się dzieje. Nie da rady policzyć prawdopodobieństwa wydarzenia się konkretnego wyniku w tej sytuacji, trzeba wziąć wszystkie. P-wartość określa, czy otrzymana wartość statystyki testowej (owo 0,49) jest typową wartością, jaką wypluwa z siebie test statystyczny. Robi to jednak w pewnych szczególnych okolicznościach - bada tę typowość jeśli założy się, że zjawisko nie istnieje (nie ma różnic między grupami, nie ma związku między cechami).

    To jest ostatnie miejsce, w którym wszyscy badacze ze sobą zgadzają się. Inaczej mówiąc, zgoda badaczy co do tego, czym jest p-wartość, ogranicza się do czysto inżynierskiej definicji, że jest to pewnego rodzaju prawdopodobieństwo otrzymania wyniku taki jak Twój, albo jeszcze rzadszego. Idąc dalej wkraczamy na bagienny teren błędnych interpretacji i wątpliwych wyjaśnień.
    Jeśli spytasz trzech różnych badaczy, czym jest p-wartość, to otrzymasz trzy różne odpowiedzi:
    (a) p-wartość to prawdopodobieństwo prawdziwości hipotezy zerowej
    (b) p-wartość mówi o tym, czy dane uzyskano przypadkiem
    (c) p-wartość to prawdopodobieństwo popełnienia błędu I-go rodzaju.

    Są to często spotykane wyjaśnienia. Przyznasz, że brzmią intuicyjnie i logicznie. Ich jedyną cechą wspólną jest to, że są nieprawdziwe. P-wartość ani nie jest (a), ani (b), ani (c). To zła wiadomość, bo p-wartość służy do wydawania wyroku na hipotezę badawczą - dzięki niej badacz cieszy się, że coś odkrył i publikuje swoje rezultaty, albo - chowa badanie do szuflady.

    Przez prawie sto lat właściwa interpretacja p-wartości pozostawała nieuchwytna. Wyglądało to tak, jakby uczeni i naukowcy nie wiedzieli, jak obchodzić się z podstawowym narzędziem pracy. I nie ma w tym cienia przesady. Każdy badacz posługiwał się własnym intuicyjnym rozumieniem, co sprowadziło na naszą dziedzinę ogromne problemy, aż wreszcie Amerykańskie Towarzystwo Statystyczne wzięło się i zrobiło to samo, co Sobór Trydencki z biblią - ustaliło jednoznaczą, obowiązującą wersję: P-wartość to prawdopodobieństwo otrzymania takiego wyniku jak zaobserwowany, o ile hipoteza zerowa jest prawdziwa.

    P-wartość to prawdopodobieństwo otrzymania takiego wyniku jak zaobserwowany, o ile hipoteza zerowa jest prawdziwa.

    "a p-value is the probability under a specified statistical model that a statistical summary of the data (for example, the sample mean difference between two compared groups) would be equal to or more extreme than its observed value."
    Ta definicja jest tak napakowana treścią, że czytając ją za pierwszym razem, można się zachłysnąć informacją. Spróbujmy ją nieco rozpakować. Najpierw zakładasz, że Twoja hipoteza zerowa jest prawdziwa. Hipoteza zerowa to świat, w którym nie ma zależności między zmiennymi, nie ma różnic między dwiema grupami, nie ma korelacji. Kobiety i mężczyźni nie różnią się pod względem inteligencji emocjonalnej. Lek działa tak samo dobrze jak placebo. Jakość życia nie zmienia się przed i po terapii. Dopiero będąc w tym świecie, sprawdzasz szansę otrzymania Twojego wyniku. Jaka jest szansa znalezienia kłaczka sierści (wynik testu), gdy w pokoju nie ma kota (hipoteza zerowa). Akcent tutaj kładzie się na zgodność danych z hipotezą zerową, a nie na jej prawdziwość, czy fałszywość.

    NIEKOMPATYBILNOŚĆ — A więc tak naprawdę p-wartość mówi o tym, czy i jak bardzo Twoje dane są niekompatybilne z rzeczywistością postulowaną w hipotezie zerowej. Jak bardzo znalezienie kłaczka sierści jest niekompatybilne z hipotezą o braku kota w pokoju. Być może usłyszysz takie stwierdzenie: im niższa p-wartość, tym mniejsze prawdopodobieństwo prawdziwości hipotezy zerowej, czyli ponieważ znalazłaś kłaczek sierści w pokoju, to hipoteza zerowa o braku kota jest nieprawdziwa. Tymczasem to tak nie działa.

    P-wartość nie ma takiej mocy stwierdzania prawdziwości hipotezy zerowej. Ba! Nic w całej klasycznej statystyce nie ma takiej mocy! To podejście pozwala jedynie na badanie typowości wyniku testu - w pewnej sytuacji. Poprawna wersja brzmi: im niższa p-wartość, tym mniej dane są kompatybilne z hipotezą zerową. Niskie p-wartości mogą wzbudzić czujność badacza, może on podejrzewać, że coś jest nie tak z hipotezą zerową, ale równie dobrze z założeniami testu (bo jak pamiętasz z tego posta KLIK - do każdego testu potrzebne są założenia).

    Jeśli w tym miejscu czujesz się trochę oszukana przez p-wartość, to nie jesteś sama. P-wartość może mniej niż to się wydaje - nie potrafi wydusić z danych prawdy o hipotezie zerowej. Nie jest wariografem dla danych i nawet jeśli jest większa od pięciu setnych, to nie jest to potwierdzenie prawdziwości hipotezy zerowej.

    Z p-wartością łączy się jeszcze jedno pojęcie - istotność statystyczna. Może będzie Cię to interesować, zobacz w tym poście: Czym jest istotność statystyczna?


    Procedura testowania istotności statystycznej hipotezy zerowej

    Porozmawiajmy teraz o czymś, co bywa nazywane mocarnymi, lecz intelektualnie sterylnymi grabiami albo najgłupszą z możliwych procedur zinstytucjonalizowanych w nauce — czyli o najpopularniejszym sposobie testowania hipotez statystycznych w psychologii.

    Nie ma podręcznika ze statystyki dla psychologów, który nie opisywałby procedury testowania istotności statystycznej hipotezy zerowej (null hypothesis significance testing, NHST).

    Nawet jeśli nazwa wydaje Ci się nieznana, to kojarzysz te pojęcia: istotność statystyczna, błąd I-go rodzaju, błąd II-go rodzaju, p-wartość, moc testu statystycznego, obszar krytyczny, poziom istotności statystycznej, hipoteza zerowa, hipoteza alternatywna. Jeśli znasz te nazwy, to z całą pewnością widziałeś test istotności statystycznej.

    Procedura testowania istotności statystycznej hipotezy zerowej wyglądają następująco:

    1. Stawiasz hipotezę zerową o braku związku oraz hipotezę alternatywną do niej. Poprzez to, że mówi o zerowości jakiegoś efektu, hipoteza zerowa jest bardzo konkretna. Przy niej hipoteza alternatywna sprawia wrażenie rozmytej, nawet jeśli jest w tzw. wersji kierunkowej (większa od zera), to i tak jest zawężenie w niewielkim stopniu (większa od zera, czyli jaka?).
    2. Wybierasz odpowiedni test statystyczny, przykładowo test t-Studenta i sprawdzasz założenia testu.
    3. Obliczasz p-wartość i porównujesz ją z ustalonym poziomem istotności 0.05.
      Jeżeli:
      • jeżeli p wartość nie przekracza zakładanego poziomu istotności alfa równego 0,05, to podejmujemy decyzję o odrzuceniu hipotezy zerowej na korzyść hipotezy alternatywnej
      • jeśli p-wartość jest większa od 0.05, to nie ma podstaw do odrzucenia hipotezy zerowej.

    Tak wygląda procedura NHST ze wszystkimi krokami i tym, co się w nich dzieje. Z pozoru wygląda na całkiem spójny przepis na testowanie hipotezy statystycznej. Ale gdybyś przyjrzała się bliżej, zobaczyłabyś, że jest ona patchworkową robotą - zszyto ją z dwóch różnych podejść statystycznych - i wyszło to tak samo dobrze, jak dżinsowa sukienka do dżinsowych spodni. Prawdę mówiąc, to Frankenstein.

    Aby zobaczyć tę niekompatybilność, należy rozdzielić to, co należy do jednego podejścia, zwanego fisherowskim, i to, co należy do drugiego podejścia, zwanego frekwentystycznym. Z posta o prawdopodobieństwie dowiedziałaś się, że jest kilka interpretacji tego pojęcia KLIK. Na każdym z nich zbudowano całe szkoły myśli statystycznych. W statystyce nie jest tak, że można sobie wymiennie stosować pojęcia raz z jednego, raz z drugiego podejścia. Nie można przechodzić sobie z jednej szkoły do drugiej, nosząc ciągle kapcie z pierwszej. To dlatego, że każda szkoła tworzy własny system nie tylko myślenia o wynikach, ale także narzędzi, testów i co więcej - interpretacji. Tak właśnie stało się i tutaj. Mamy dwóch twórców: Fishera oraz Neymana i każdy z nich stworzył własny zestaw zabawek.

    Zobaczymy, co do kogo należy.
    - P-wartość jest pojęciem Fishera. Istotność statystyczna oraz poziom istotności statystycznej i pomysł, aby stosować 5%.
    - Błąd I i II-go rodzaju należy do Neymana. A skoro te błędy, to i moc testu statystycznego oraz cała analiza mocy. I w konsekwencji wielkość efektu.

    To jak próba połączenia terapii psychodynamicznej z poznawczo-behawioralną. A nawet gorzej - bo tym dwóm szkołom psychoterapii udało się połączyć w coś nowego (terapia schematów).

    Wielkość efektu

    Mało nam. W statystyce jest już tyle rzeczy - rozmaitego typu testów, wskaźników, mierników. Statystyka sprawia wrażenie gęsto zasiedlonej różnymi bytami - po co więc było tworzyć jeszcze jeden? Wszystko przez tę wstrętną istotność statystyczną, o którą i tak jest sporo nieporozumień. Wbrew pozorom, a wręcz wbrew samej nazwie, istotność statystyczna nie jest tym, czym mogłoby się wydawać. Istotna statystycznie różnica między dwiema grupami wcale jeszcze nie oznacza, że jest ona widoczna gołym okiem i ma znaczenie praktyczne. Maleńka różnica wynosząca np. 1 gram, obsypie się gwiazdkami, gdy wzrośnie liczba obserwacji. Innymi słowami, różnica może być istotna statystycznie, ale nieistotna praktycznie.

    Podobny zabieg językowy wykorzystuje się w reklamach. Suplement diety przyczynia się do redukcji wagi. Środek farmaceutyczny wspomaga pracę jelit. Wyrób medyczny redukuje stres i napięcie. Nie wiadomo, jak przyczynia się, na ile wspomaga i jak bardzo redukuje. Już w XIV wieku wiadomo było, że to dawka czyni zarówno lek, jak i truciznę.

    NIC NIE JEST TRUCIZNĄ I WSZYSTKO JEST TRUCIZNĄ — Mało rzeczy nie tolerujemy w 0%. Zerowa tolerancja występuje na jeden z pierwiastków - na pluton. Jeśli jakaś substancja występowała w środowisku podczas powstawania naszego gatunku to jest duża szansa, że jakoś ją tolerujemy. Na przykład, jak widzisz, my znosimy tlen wyśmienicie - w przeciwieństwie do bakterii beztlenowych, które wyewoluowały zanim nasz życiodajny pierwiastek rozprzestrzenił się po atmosferze i mogły się do niego przystosować. Dla bakterii beztlenowych tlen jest zabójczy.

    Mało rzeczy tolerujemy również w 100%. Mieszanka zwana powietrzem, którą oddychamy nie składa się tylko i wyłącznie z tlenu. Człowiek nie może oddychać czystym tlenem. Za dużo tlenu nie dobrze. Wszystko zależy od dawki.

    Istotność statystyczna nie jest istotnością rzeczywistą, a jednak istnieje potrzeba zmierzenia siły zjawiska. Aby móc mierzyć siłę zjawiska i tym samym samym stwierdzenia, czy dawka albo szerzej: różnica między grupami, albo siła korelacji jest wystarczająco duża, aby stwierdzić, że odkryło się coś ważnego. Stąd wymyślono miarę wielkości zjawiska wskaźnik tzw. wielkość efektu (effect size).

    DEFINICJA WIELKOŚCI EFEKTU — Jedna z wielu definicji wielkości efektu brzmi: wielkość efektu to ilościowe odzwierciedlenie magnitudy jakiegoś zjawiska, potrzebne do odniesienia się do poruszanego problemu (Kelley, Preacher, 2012). Jest ona bardzo obszerna i obejmuje cały szereg scenariuszy badawczych, co jest i jej wadą, i zaletą. Pokażę więc na przykładzie najprostszego planu badawczego, jak ten wskaźnik działa.

    WIELKOŚĆ EFEKTU DLA DWÓCH GRUP — Najprostszy plan badawczy to porównania między dwiema grupami. Na dodatek załóżmy, że są to obserwacje niezależne, to znaczy pierwsza grupa to pewna liczba osób, a druga grupa to ta sama liczba zupełnie innych osób. Innymi słowami, nikt nie został przebadany dwa razy. Osoby badane albo znalazł się w jednej, albo w drugiej grupie. Jedyne co je łączy to to, że badamy je pod względem tej samej cechy. Ta cecha również musi być zgodna z jakimś formatem. Jeśli pamiętasz ze skal pomiarowych Stevensa, to mówię o takiej cesze jest mierzona na skali co najmniej interwałowej (co sprawia, że można policzyć dla niej średnią). Wyniki w większości kwestionariuszy są traktowane jako zmienne interwałowe. W przeciwieństwie do orientacji seksualnej.

    Schemat porównań między dwiema grupami wygląda na przykład tak: badanie poziomu otwartości u osób młodych i starszych. Reakcja na bodziec bólowy u osób, którym podano kofeinę i u osób, którym nie podano kofeiny. Nie jest to na przykład: poczucie jakości życia u osób przed i po terapii (osoba badana jest badana dwa razy) albo zależność posiadania kota od płci (dwie zmienne mierzone na skali nominalnej). W analizie danych najczęściej wykorzystuje się test t-Studenta (do chwili, w której piszę te słowa, jest to nadal bardzo popularna sytuacja badawcza). Dla takiego schematu zwanego plan porównań międzygrupowych (albo schemat międzyobiektowy) chcielibyśmy pokazać, jak duża jest różnica między średnimi dwiema grupami.

    Przypuśćmy, że badacz chciałby zbadać - poetycko rzecz ujmując - długość dźwięku samotności, czyli to, ile czasu dana osoba może wytrzymać w samotności w pustym pokoju, zanim zacznie szukać towarzystwa - w zależności od tego, czy jest ekstrawertykiem czy introwertykiem. Każda z osób ma swoją długości czasu, którą swobodnie wytrzyma w samotności. Mając dwie grupy, możemy zbadać średni poziom wytrzymałości osobno dla introwertyków i osobno dla ekstrawertyków - po prostu policzmy średnią arytmetyczną. Wiemy już, że średnia arytmetyczna to dobry estymator średniego poziomu zmiennej w populacji KLIK. Dla dwóch grup otrzymamy dwie średnie czasu.

    Co dalej? Badacz pracujący w zgodzie z klasyczną statystyką KLIK wykonuje testy istotności statystycznej. Wynik będzie albo istotny albo nieistotny statystycznie, natomiast niezależnie od istotności statystycznej jesteśmy zobligowani do podania tego, jak duża jest różnica miedzy dwiema grupami. Wiemy już też, że sama istotność statystyczna nie przesądza o ważności wyniku.

    Można byłoby jedną odjąć od drugiej uzyskując w ten sposób różnica między średnimi w tych grupach i próbować ją oceniać, czy jest duża, czy mała. Jest jednak jeden problem: nawet jeśli istnieją różnice między dwiema grupami, to rozstrzał wyników jest tak duży, że zachodzą one na siebie. Ani introwertycy, ani ekstrawertycy nie są tacy sami. Introwertycy różnią się miedzy sobą pod względem czasu spędzonego samemu ze sobą. Nawet jeśli sama jesteś introwertyczką i możesz dłużej wytrzymać w samotności, to różnisz się pewnie od innego introwertyka, który nie wytrzymuje tak długo.

    Niekażdy introwertyk będzie szczęśliwy na kole podbiegunowym i niekażdy ekstrawertyk wybiegnie z pustego pokoju w poszukiwaniu towarzystwa już po sekundzie. Istnieją introwertycy, którzy w samotności wytrzymują krócej niż niektórzy ekstrawertycy. Oczywiście, nie jest to przeważająca większość, introwertyzm zobowiązuje, ale tacy kontr‑introwertycy są. Wniosek jaki z tego płynie jest taki, że i intowertycy, i ekstrawertycy są zróżnicowani w długości wytrzymywania w samotności. Innymi słowami, nie tylko grupy różnią się między sobą, ale w samej grupie występują różnice.

    Nie wystarczy zatem odejmować średnie. Musimy zatem coś zrobić, aby okiełznać zróżnicowanie w wynikach wewnątrz tych samych grup. Okazuje się, że dobrym pomysłem jest zmierzyć to zróżnicowanie wewnątrz grup i tym zróżnicowaniem potem podzielić różnicę między średnimi.
    Działa to na tej samej zasadzie co wówczas, gdy chcesz się dowiedzieć, czy dużo osób zachorowało na COVID-19 w Irlandii czy w Polsce. Nie interesują Cię bezwzględne, surowe liczby. Na przykład 120 w Irlandii i 150 w Polsce. Na papierze wygląda to tak, jakby w Polsce było więcej. A Polska jest też większa niż Irlandia. Irlandia ma 5 milionów osób. Tyle osób liczy sobie jedno województwo mazowieckie - Polska jest większa niż Irlandia. Wypada zatem uwzględnić różnice w liczbie obywateli. W liczniku mamy liczbę zachorowań, a w mianowniku - populację państwa. Podobnie postępujemy uwzględniając zmienność cechy w dwóch grupach. Dzięki temu przy okazji otrzymujemy tzw. standaryzowaną wielkość efektu. Czyli bezjednostkowy obiekt, który pozwala dokonać porównania.

    Mianownik jest jeden, a odchylenia standardowe dwa (po jednym dla każdej z próby). Wobec tego, albo połączymy je albo musimy wybrać.
    - możemy pożyczyć odchylenie standardowe od grupy kontrolnej;
    - możemy połączyć zmienność dla obu grup i wykorzystać tzw. zmienność połączoną (pooled variance).
    Bardzo często stosuje się wówczas d Cohena.

    MNOGOŚĆ WIELKOŚCI EFEKTU — Jak widać, wielkości efektu jest bardzo wiele. Są w różnych postaciach nie tylko w obrębie jednego schematu badawczego.

    INTERPRETACJA WIELKOŚCI EFEKTU — Dobrze. Wiemy już po co jest wielkość efektu, wiemy że jest wiele rodzajów wielkości efektu, dopasowanych do schematów badawczych (porównania lub korelacje) oraz potrzeb badacza (czy ma porównywać do grupy kontrolnej czy ...). Ale w ostateczności badacz i tak kończy znowu z pojedynczą liczbą, którą teraz musi oceniać pod względem istotności praktycznej.

    Założenie jest takie, że kiedy prowadzisz badania w jakiejś dziedzinie, to wiesz, jaka wielkość efektu jest duża. Jeśli np. odchudzasz się, to wiesz, że 1 kg w tydzień to mało, a 5 to dużo, zaś 10 kg to niebezpiecznie dużo. Jeśli prowadzisz badania nad czasem reakcji, to wiesz, czy różnica 5 milisekund jest duża, czy mała. Wiesz to, bo znasz badane zjawisko. Tak wygląda idealna sytuacja, ale psychologia to jednak nie XVIII-wieczna fizyka. Na dodatek często posługujemy się kwestionariuszami samoopisowymi, w których osoby badane umieszczają się na skalach likertowskich.

    ROZMIARÓWKA COHENA — Dlatego potrzebna jest nam rozmiarówka. Kiedy naprawdę nie wiesz, czy Twoje d Cohena jest duże lub małe mam dobrą wiadomość - istnieje standardowa rozmiarówka, tak jak w odzieży, która służy do tego, aby ocenić, czy ta wielkość efektu, którą otrzymałaś w badania jest duża, czy mała. Pamiętaj jednak, że jest to tylko ostatnia deska ratunku, gdy naprawdę nie wiesz, jak to zbadać.



    WIELKOŚĆ EFEKTU I WIELKOŚĆ PRÓBY — Wielkość efektu można wykorzystać do jeszcze jednej rzeczy oprócz badania ważności wyniku - do wyznaczenia wielkości próby, a po ludzku rzecz ujmując: do odpowiedzi na pytanie, ile osób powinno wziąć udział w badaniu. Robi się to w następujący sposób - pamiętaj, że jesteśmy w świecie klasycznych testów, gdzie mamy błędy I-go i II-go rodzaju oraz spodziewaną wielkość efektu. Te trzy rzeczy musimy wyznaczyć przed zebraniem danych. Zgodnie ze zwyczajem, który mało kto kwestionuje, błąd I-go rodzaju alfa wyznacza się na 5%, a błąd II-go rodzaju beta - na 80%. Zostaje wskazać, jakiej wielkości efektu spodziewamy się. Jest to najtrudniejszy moment. Poza nim zostanie tylko włączyć odpowiednie oprogramowanie, np. G*Power albo R.

    Aby posłużyć się jakimś przykładem, musimy sobie wyobrazić konkretny schemat badawczy - to dlatego, że jak już pewnie zauważyłaś, wielkości efektu przychodzą w tylu formach i odmianach, że trudno o bardzo uogólniony przykład.

    Powiedzmy, że badamy taką zmienną psychologiczną jak prężność w zależności od tego, czy osoby mieszkają z rodzicami, bądź też nie. Klasyczny schemat porównań między dwiema grupami, stąd odpowiedni będzie d Cohena. Jeśli jesteś wytrawnym badaczem prężności, to wiesz, że można mierzyć to kwestionariuszem KOP-26 lub SPP-25 i to, jak te skale zachowują się, a przede wszystkim, jakie różnice są duże, a jakie małe. To ważne. Inaczej będziesz musiała się wspierać rozmiarówką Cohena. Dla dobra przykładu, tak zrobimy. Wyobraźmy sobie, że spodziewasz się wielkości różnicy między dwiema grupami w prężności d Cohena równej 0,5.

    Mamy trzy puzzle: błąd I-go rodzaju, który wynosi 5%; błąd II-go rodzaju, który wynosi 20%; spodziewana wielkość efektu d Cohena, która wynosi 0,5. Czwarty puzzel - liczba osób potrzebnych w badaniu - będzie bonusem. Po wprowadzeniu trzech danych do programu (albo do kalkulatora online) wynosi, że wymagana liczebność wynosi 64 w pojedynczej grupie. Razem potrzebuję zebrać dane od n = 128 osób.

    LITERATURA:
    Kelley, K., Preacher, K. J. (2012). On effect size. Psychological Methods, 17(2), 137–152. https://doi.org/10.1037/a0028086

    Mechanika testów klasycznych

    JEDNA STRUKTURA, WIELE TESTÓW — Klasycznych testów statystycznych jest bardzo dużo - wystarczy, że zajrzysz do działu metody 1.0 i metody 2.0. A to tylko drobna część. Dobra wiadomość jest taka, że jeśli widziałeś jeden test, to tak jakbyś widział je wszystkie. Choć różne testy służą różnym scenariuszom badawczym (korelacja, porównania, etc.) to to, co je łączy to wspólna struktura. Proces testowania hipotez statystycznych jest taki sam dla większości, jeśli nie wszystkich testów.

    ETAPY TESTOWANIA — Można wyróżnić kilka etapów. Zacznijmy od tego, że dane trzeba obejrzeć, aby wiedzieć, czy można zastanowić odpowiedni test. Ten etap to sprawdzanie założeń. Jeśli masz dwie zmienne mierzone na skali nominalnej KLIK, to raczej nie zrobisz testu t-Studenta. Trzeba także sprawdzić, czy rozkłady wyników są odpowiednie do zastosowania konkretnego testu - na przykład test t-Studenta bardzo lubi symetryczne, jednogarbne rozkłady.

    STATYSTYKA TESTOWA — Gdy wiemy, że format danych jest odpowiedni do przeprowadzenia pożądanego testu, to dane wkładamy do maszynki zwanej statystyką testową KLIK. Poważnie to brzmi, lecz na papierze jest to po prostu tylko wzór, którzy przetwarza zebrane wyniki oraz hipotezę zerową do jednej liczby, zwanej wartością statystyki testowej.

    ROZKŁAD STATYSTYKI TESTOWEJ — Wartości statystyki testowej są różne w zależności od zebranych danych. Pięciu różnych badaczy uzyska pięć różnych wartości statystyki testowej. Jedne z nich są częstsze, inne - rzadsze. Po matematycznemu mówiąc, zarówno cecha, jak i statystyka testowa ma swój rozkład KLIK.

    P-WARTOŚĆ — Skupmy się na jednym z pięciorga badaczy - co jeden z nich zrobi z otrzymaną wartością statystyki testowej? Oceni ją pod kątem typowości, obliczając tzw. p-wartość (wartości p, p-value) KLIK. Będzie mógł powiedzieć, czy wynik jest istotny lub nieistotny statystycznie.

    WIELKOŚĆ EFEKTU — Badacze są zainteresowani nie tylko istotnością statystyczną, ale tym, czy wynik badania jest naprawdę istotny w rzeczywistości. Czy różnica między grupą kontrolną a grupą eksperymentalną mimo tego, że ma trzy gwiazdki, jest znacząca klinicznie a lek przynosi oczekiwany skutek? O znaczeniu badania świadczy narzędzie zwane wielkością efektu KLIK.

    ANALIZA MOCY —Obok tego wszystkiego potrzebujemy odpowiedzieć na dwa pytania. Po pierwsze: czy test miał szansę wykryć zjawisko, jeśli ono naprawdę istnieje w rzeczywistości. Po drugie: ile osób powinno się przebadać? Do obu tych celów służy tzw. analiza mocy, wykorzystująca pojęcia błędów I-go i II-go rodzaju KLIK. Dwa ostatnie punkty: wielkość efektu i analiza mocy to nowe standardy prowadzenia analiz. Same techniki istniały już wcześniej. Mocy testu statystycznego zaczęto używać w latach 30-tych XX wieku, a wielkość efektu - w latach 60-tych. Sporo czasu musiało jednak upłynąć zanim weszły do mainstreamowego analizowania danych.

    Powyżej zarysowałam Tobie ogólną strukturę testów statystycznych. Od założeń, poprzez statystykę testową i p-wartość, aż do wielkości efektu i analizy mocy. Te pojęcia będą przewijać się i przewijać. Teraz możesz przejść do najczęściej stosowanego sposobu weryfikacji hipotez statystycznych, czyli tzw. procedury testowania istotności statystycznej hipotezy zerowej NHST, KLIK.