Wielkość efektu

Mało nam. W statystyce jest już tyle rzeczy - rozmaitego typu testów, wskaźników, mierników. Statystyka sprawia wrażenie gęsto zasiedlonej różnymi bytami - po co więc było tworzyć jeszcze jeden? Wszystko przez tę wstrętną istotność statystyczną, o którą i tak jest sporo nieporozumień. Wbrew pozorom, a wręcz wbrew samej nazwie, istotność statystyczna nie jest tym, czym mogłoby się wydawać. Istotna statystycznie różnica między dwiema grupami wcale jeszcze nie oznacza, że jest ona widoczna gołym okiem i ma znaczenie praktyczne. Maleńka różnica wynosząca np. 1 gram, obsypie się gwiazdkami, gdy wzrośnie liczba obserwacji. Innymi słowami, różnica może być istotna statystycznie, ale nieistotna praktycznie.

Podobny zabieg językowy wykorzystuje się w reklamach. Suplement diety przyczynia się do redukcji wagi. Środek farmaceutyczny wspomaga pracę jelit. Wyrób medyczny redukuje stres i napięcie. Nie wiadomo, jak przyczynia się, na ile wspomaga i jak bardzo redukuje. Już w XIV wieku wiadomo było, że to dawka czyni zarówno lek, jak i truciznę.

NIC NIE JEST TRUCIZNĄ I WSZYSTKO JEST TRUCIZNĄ — Mało rzeczy nie tolerujemy w 0%. Zerowa tolerancja występuje na jeden z pierwiastków - na pluton. Jeśli jakaś substancja występowała w środowisku podczas powstawania naszego gatunku to jest duża szansa, że jakoś ją tolerujemy. Na przykład, jak widzisz, my znosimy tlen wyśmienicie - w przeciwieństwie do bakterii beztlenowych, które wyewoluowały zanim nasz życiodajny pierwiastek rozprzestrzenił się po atmosferze i mogły się do niego przystosować. Dla bakterii beztlenowych tlen jest zabójczy.

Mało rzeczy tolerujemy również w 100%. Mieszanka zwana powietrzem, którą oddychamy nie składa się tylko i wyłącznie z tlenu. Człowiek nie może oddychać czystym tlenem. Za dużo tlenu nie dobrze. Wszystko zależy od dawki.

Istotność statystyczna nie jest istotnością rzeczywistą, a jednak istnieje potrzeba zmierzenia siły zjawiska. Aby móc mierzyć siłę zjawiska i tym samym samym stwierdzenia, czy dawka albo szerzej: różnica między grupami, albo siła korelacji jest wystarczająco duża, aby stwierdzić, że odkryło się coś ważnego. Stąd wymyślono miarę wielkości zjawiska wskaźnik tzw. wielkość efektu (effect size).

DEFINICJA WIELKOŚCI EFEKTU — Jedna z wielu definicji wielkości efektu brzmi: wielkość efektu to ilościowe odzwierciedlenie magnitudy jakiegoś zjawiska, potrzebne do odniesienia się do poruszanego problemu (Kelley, Preacher, 2012). Jest ona bardzo obszerna i obejmuje cały szereg scenariuszy badawczych, co jest i jej wadą, i zaletą. Pokażę więc na przykładzie najprostszego planu badawczego, jak ten wskaźnik działa.

WIELKOŚĆ EFEKTU DLA DWÓCH GRUP — Najprostszy plan badawczy to porównania między dwiema grupami. Na dodatek załóżmy, że są to obserwacje niezależne, to znaczy pierwsza grupa to pewna liczba osób, a druga grupa to ta sama liczba zupełnie innych osób. Innymi słowami, nikt nie został przebadany dwa razy. Osoby badane albo znalazł się w jednej, albo w drugiej grupie. Jedyne co je łączy to to, że badamy je pod względem tej samej cechy. Ta cecha również musi być zgodna z jakimś formatem. Jeśli pamiętasz ze skal pomiarowych Stevensa, to mówię o takiej cesze jest mierzona na skali co najmniej interwałowej (co sprawia, że można policzyć dla niej średnią). Wyniki w większości kwestionariuszy są traktowane jako zmienne interwałowe. W przeciwieństwie do orientacji seksualnej.

Schemat porównań między dwiema grupami wygląda na przykład tak: badanie poziomu otwartości u osób młodych i starszych. Reakcja na bodziec bólowy u osób, którym podano kofeinę i u osób, którym nie podano kofeiny. Nie jest to na przykład: poczucie jakości życia u osób przed i po terapii (osoba badana jest badana dwa razy) albo zależność posiadania kota od płci (dwie zmienne mierzone na skali nominalnej). W analizie danych najczęściej wykorzystuje się test t-Studenta (do chwili, w której piszę te słowa, jest to nadal bardzo popularna sytuacja badawcza). Dla takiego schematu zwanego plan porównań międzygrupowych (albo schemat międzyobiektowy) chcielibyśmy pokazać, jak duża jest różnica między średnimi dwiema grupami.

Przypuśćmy, że badacz chciałby zbadać - poetycko rzecz ujmując - długość dźwięku samotności, czyli to, ile czasu dana osoba może wytrzymać w samotności w pustym pokoju, zanim zacznie szukać towarzystwa - w zależności od tego, czy jest ekstrawertykiem czy introwertykiem. Każda z osób ma swoją długości czasu, którą swobodnie wytrzyma w samotności. Mając dwie grupy, możemy zbadać średni poziom wytrzymałości osobno dla introwertyków i osobno dla ekstrawertyków - po prostu policzmy średnią arytmetyczną. Wiemy już, że średnia arytmetyczna to dobry estymator średniego poziomu zmiennej w populacji KLIK. Dla dwóch grup otrzymamy dwie średnie czasu.

Co dalej? Badacz pracujący w zgodzie z klasyczną statystyką KLIK wykonuje testy istotności statystycznej. Wynik będzie albo istotny albo nieistotny statystycznie, natomiast niezależnie od istotności statystycznej jesteśmy zobligowani do podania tego, jak duża jest różnica miedzy dwiema grupami. Wiemy już też, że sama istotność statystyczna nie przesądza o ważności wyniku.

Można byłoby jedną odjąć od drugiej uzyskując w ten sposób różnica między średnimi w tych grupach i próbować ją oceniać, czy jest duża, czy mała. Jest jednak jeden problem: nawet jeśli istnieją różnice między dwiema grupami, to rozstrzał wyników jest tak duży, że zachodzą one na siebie. Ani introwertycy, ani ekstrawertycy nie są tacy sami. Introwertycy różnią się miedzy sobą pod względem czasu spędzonego samemu ze sobą. Nawet jeśli sama jesteś introwertyczką i możesz dłużej wytrzymać w samotności, to różnisz się pewnie od innego introwertyka, który nie wytrzymuje tak długo.

Niekażdy introwertyk będzie szczęśliwy na kole podbiegunowym i niekażdy ekstrawertyk wybiegnie z pustego pokoju w poszukiwaniu towarzystwa już po sekundzie. Istnieją introwertycy, którzy w samotności wytrzymują krócej niż niektórzy ekstrawertycy. Oczywiście, nie jest to przeważająca większość, introwertyzm zobowiązuje, ale tacy kontr‑introwertycy są. Wniosek jaki z tego płynie jest taki, że i intowertycy, i ekstrawertycy są zróżnicowani w długości wytrzymywania w samotności. Innymi słowami, nie tylko grupy różnią się między sobą, ale w samej grupie występują różnice.

Nie wystarczy zatem odejmować średnie. Musimy zatem coś zrobić, aby okiełznać zróżnicowanie w wynikach wewnątrz tych samych grup. Okazuje się, że dobrym pomysłem jest zmierzyć to zróżnicowanie wewnątrz grup i tym zróżnicowaniem potem podzielić różnicę między średnimi.
Działa to na tej samej zasadzie co wówczas, gdy chcesz się dowiedzieć, czy dużo osób zachorowało na COVID-19 w Irlandii czy w Polsce. Nie interesują Cię bezwzględne, surowe liczby. Na przykład 120 w Irlandii i 150 w Polsce. Na papierze wygląda to tak, jakby w Polsce było więcej. A Polska jest też większa niż Irlandia. Irlandia ma 5 milionów osób. Tyle osób liczy sobie jedno województwo mazowieckie - Polska jest większa niż Irlandia. Wypada zatem uwzględnić różnice w liczbie obywateli. W liczniku mamy liczbę zachorowań, a w mianowniku - populację państwa. Podobnie postępujemy uwzględniając zmienność cechy w dwóch grupach. Dzięki temu przy okazji otrzymujemy tzw. standaryzowaną wielkość efektu. Czyli bezjednostkowy obiekt, który pozwala dokonać porównania.

Mianownik jest jeden, a odchylenia standardowe dwa (po jednym dla każdej z próby). Wobec tego, albo połączymy je albo musimy wybrać.
- możemy pożyczyć odchylenie standardowe od grupy kontrolnej;
- możemy połączyć zmienność dla obu grup i wykorzystać tzw. zmienność połączoną (pooled variance).
Bardzo często stosuje się wówczas d Cohena.

MNOGOŚĆ WIELKOŚCI EFEKTU — Jak widać, wielkości efektu jest bardzo wiele. Są w różnych postaciach nie tylko w obrębie jednego schematu badawczego.

INTERPRETACJA WIELKOŚCI EFEKTU — Dobrze. Wiemy już po co jest wielkość efektu, wiemy że jest wiele rodzajów wielkości efektu, dopasowanych do schematów badawczych (porównania lub korelacje) oraz potrzeb badacza (czy ma porównywać do grupy kontrolnej czy ...). Ale w ostateczności badacz i tak kończy znowu z pojedynczą liczbą, którą teraz musi oceniać pod względem istotności praktycznej.

Założenie jest takie, że kiedy prowadzisz badania w jakiejś dziedzinie, to wiesz, jaka wielkość efektu jest duża. Jeśli np. odchudzasz się, to wiesz, że 1 kg w tydzień to mało, a 5 to dużo, zaś 10 kg to niebezpiecznie dużo. Jeśli prowadzisz badania nad czasem reakcji, to wiesz, czy różnica 5 milisekund jest duża, czy mała. Wiesz to, bo znasz badane zjawisko. Tak wygląda idealna sytuacja, ale psychologia to jednak nie XVIII-wieczna fizyka. Na dodatek często posługujemy się kwestionariuszami samoopisowymi, w których osoby badane umieszczają się na skalach likertowskich.

ROZMIARÓWKA COHENA — Dlatego potrzebna jest nam rozmiarówka. Kiedy naprawdę nie wiesz, czy Twoje d Cohena jest duże lub małe mam dobrą wiadomość - istnieje standardowa rozmiarówka, tak jak w odzieży, która służy do tego, aby ocenić, czy ta wielkość efektu, którą otrzymałaś w badania jest duża, czy mała. Pamiętaj jednak, że jest to tylko ostatnia deska ratunku, gdy naprawdę nie wiesz, jak to zbadać.



WIELKOŚĆ EFEKTU I WIELKOŚĆ PRÓBY — Wielkość efektu można wykorzystać do jeszcze jednej rzeczy oprócz badania ważności wyniku - do wyznaczenia wielkości próby, a po ludzku rzecz ujmując: do odpowiedzi na pytanie, ile osób powinno wziąć udział w badaniu. Robi się to w następujący sposób - pamiętaj, że jesteśmy w świecie klasycznych testów, gdzie mamy błędy I-go i II-go rodzaju oraz spodziewaną wielkość efektu. Te trzy rzeczy musimy wyznaczyć przed zebraniem danych. Zgodnie ze zwyczajem, który mało kto kwestionuje, błąd I-go rodzaju alfa wyznacza się na 5%, a błąd II-go rodzaju beta - na 80%. Zostaje wskazać, jakiej wielkości efektu spodziewamy się. Jest to najtrudniejszy moment. Poza nim zostanie tylko włączyć odpowiednie oprogramowanie, np. G*Power albo R.

Aby posłużyć się jakimś przykładem, musimy sobie wyobrazić konkretny schemat badawczy - to dlatego, że jak już pewnie zauważyłaś, wielkości efektu przychodzą w tylu formach i odmianach, że trudno o bardzo uogólniony przykład.

Powiedzmy, że badamy taką zmienną psychologiczną jak prężność w zależności od tego, czy osoby mieszkają z rodzicami, bądź też nie. Klasyczny schemat porównań między dwiema grupami, stąd odpowiedni będzie d Cohena. Jeśli jesteś wytrawnym badaczem prężności, to wiesz, że można mierzyć to kwestionariuszem KOP-26 lub SPP-25 i to, jak te skale zachowują się, a przede wszystkim, jakie różnice są duże, a jakie małe. To ważne. Inaczej będziesz musiała się wspierać rozmiarówką Cohena. Dla dobra przykładu, tak zrobimy. Wyobraźmy sobie, że spodziewasz się wielkości różnicy między dwiema grupami w prężności d Cohena równej 0,5.

Mamy trzy puzzle: błąd I-go rodzaju, który wynosi 5%; błąd II-go rodzaju, który wynosi 20%; spodziewana wielkość efektu d Cohena, która wynosi 0,5. Czwarty puzzel - liczba osób potrzebnych w badaniu - będzie bonusem. Po wprowadzeniu trzech danych do programu (albo do kalkulatora online) wynosi, że wymagana liczebność wynosi 64 w pojedynczej grupie. Razem potrzebuję zebrać dane od n = 128 osób.

LITERATURA:
Kelley, K., Preacher, K. J. (2012). On effect size. Psychological Methods, 17(2), 137–152. https://doi.org/10.1037/a0028086

1 komentarz:

phamily pisze...

Świetnie jest to opisane