Test niezależności chi-kwadrat dla dwóch zmiennych

MAJ 2024| LJK | ~2500 słów


Test χ2 to najczęściej wykonywany test, gdy zmienne są jakościowe - ich wartości są kategoriami jak płeć, poziom wykształcenia. Jest to test pracujący na liczebnościach. Występuje on w dwóch wersjach: jako test niezależności (test of independence) i jako test dobroci dopasowania (goodness of fit). W tym poście omówimy tę pierwszą wersję.

SPIS TREŚCI:

Wprowadzenie: historia testu chi-kwadrat

Test χ2 (czytaj: chi-kwadrat, χ to grecka litera alfabetu) jest bardzo stary. Został opracowany przez jednego z ojców współczesnej statystyki - Karla "przez K" Pearsona - jeszcze w czasach, w których jeszcze wszyscy myśleli, że istnieje tylko i wyłącznie rozkład normalny, który opisuje wszystkie zjawiska w przyrodzie. Wobec tego porównywano z nim wszystkie inne rozkłady otrzymywane w badaniach. Czyniono to sposób, który z dzisiejszego punktu widzenia, wydaje się być osobliwy - na piechotę, sprawdzając czy otrzymana liczba obserwacji zgadza się z tą, która powinna być, gdyby dana cecha posiadała rozkład normalny.

Punktem wyjścia było spostrzeżenie, że rozkład normalny określa częstość, z jaką będą występować wartości. Odwołajmy się chociaż do reguły 3-sigma. Rozkład normalny ma taką własność, że między 68% całego rozkładu znajduje się na o jedno odchylenie standardowe na lewo i na prawo od średniej. Więc, wystarczy porównać, czy w zebranej próbie liczba obserwacji w tym przedziale wynosi około 68%. Dzisiaj sprawdzenie, czy rozkład w próbie jest zbliżony do rozkładu normalnego odbywa się inaczej: albo za pomocą statystyk opisowych (skośność, kurtoza) i wykresów (boxplot, qqplot), albo za pomocą testów normalności nazwanych od nazwiska ich autorów: Kołomogorowa-Smirnova oraz Shapiro-Wilka. Ponad sto lat temu, około 1900 r. diagnostyka normalności wyglądała inaczej, zwłaszcza dlatego, że nie istniały testy normalności (Kołmogorow, Smirnov, Shapiro i Wilk byli wówczas co najwyżej dziećmi). Mimo rozwoju statystyki i odejścia od prymitywnych metod badania normalności rozkładu, test chi-kwadrat nie umarł, a służy teraz mniej więcej temu samemu celowi (sprawdzeniu zgodności rozkładów), ale przede wszystkim dla zmiennych jakościowych (których wartości są kategoriami).

Test χ2 można uznać za wzorcowy test istotności statystycznej, ponieważ dokładnie oddaje ich ideę - przynajmniej według jednego z ojców-założycieli współczesnej statystyki: Ronalda Fishera. W jego mniemaniu stawianie konkurencyjnej hipotezy alternatywnej było kompletną pomyłką, zaś badacz powinien przede wszystkim skupić się na hipotezie zerowej. Test chi-kwadrat wpasowuje w ten sposób myślenia, ponieważ bada stopień rozbieżności danych z modelem postulowanym przez hipotezę zerową.

NIEZALEŻNOŚĆ — niezależność zmiennych w statystyce oznacza inną niezależność niż ta, którą znamy z języka codziennego. Niezależność w życiu codziennym ma szczególną własność - nie musi iść w dwie strony. Jedna osoba może być zależna od drugiej, ale nie musi to działać zwrotnie. Najlepszym przykładem jest diada dziecko-rodzic. Dziecko - zwłaszcza w ciągu pierwszych miesięcy życia - jest zależne od rodzica (który je karmi, przewija, koi), ale rodzic nie jest zależny od dziecka. Podobnie jest z rzeczami, sprawami itd.

W statystyce niezależność zawsze posiada cechę zwrotności. W świcie zmiennych obowiązuje wzajemność. Matematycy posłużyliby się jedną linijką ze wzorem P(A) · P(B) = P(A ∩ B) i ktoś, kto miał styczność z rachunkiem prawdopodobieństwa, jest w stanie z łatwością zrozumieć tę symbolikę. Jednocześnie taki ktoś prawdopodobnie nie czyta tego tekstu albo stawi mniejszość czytelników, wobec tego wyjaśnię niezależność zmiennych w nieco prostszy sposób – w kategoriach informacyjności (tj. zawierania informacji).

Kiedy dwie zmienne są niezależne, wówczas informacja o jednej zmiennej nie niesie informacji o tej drugiej. To tak, jakby znać stan posiadania pieniędzy w portfelu, ale nie wiedzieć, jaka jest liczba włosów na głowie. Jeśli dwie zmienne są niezależne, to na podstawie znajomości jednej z nich (tego jaką wartość przyjęła), nie możesz przewidzieć, co stanie się z drugą zmienną. To wszystko - to jest znaczenie niezależności zmiennych w statystyce.

PRZYKŁAD: INTRO- i EKSTRAWERSJA A PREFEROWANA BARWA — Funkcjonowanie testu chi- kwadrat poznamy na konkretnym przykładzie badań. Będą to badania nad związkiem między typem osobowości a preferowaną barwą. Tak, dobrze przeczytał_ś - barwa i osobowość.

Jak sądzisz - czy osoba, która szuka mniejszej społecznej stymulacji, która regeneruje się w samotności i jej poszukuje (mniej więcej to nazywamy introwersją) może mieć jakąś preferencję barw? Albo osoba, która wręcz przeciwnie - poszukuje innych ludzi, która nie znosi samotności również wybierałaby jakiś szczególny kolor? Być może intuicyjnie odpowiesz:"tak, różne typy osobowości preferują różne barwy". Czy czerwony kolor, który krzyczy:"Jestem tu! Zauważ mnie" może być równie często wybierany przez introwertyków jak kolor zielony, który przemawia spokojem? To jest sedno twierdzenia Fabera Birrena:"Introwertycy preferują zimne kolory (zielony, niebieski), a ekstrawertycy preferują ciepłe kolory (czerwony, żółty)."


O teście chi-kwadrat

FORMAT DANYCH — czyli założenia testu, jakie muszą być spełnione, aby można było zastosować test chi-kwadrat.

Najprościej rzecz ujmując, to muszą być dwie zmienne
jakościowe. W typologii Stevensa zmiennym jakościowym odpowiadają dwie zmienne o najniższym typie pomiaru. Zgodnie z tym, to mogą być dwie zmienne nominalne, jak np. płeć (mierzona w kategoriach: kobieta, mężczyzna, niebinarna) i przynależność do jednej z dwóch grup: eksperymentalnej i kontrolnej. To mogą być dwie zmienne o porządkowym typie pomiaru, np. poziom wykształcenia. To mogą być też mieszane typy pomiaru: jedna zmienna jest nominalna, a druga – porządkowa. Grunt, aby obie były spod znaku zmiennych jakościowych.

Pamiętaj, że wartości zmiennej nominalnej nie mają charakteru liczb rzeczywistych, tzn. nie można ustalić ani kolejności, ani wykonywać operacji algebraicznych (dodawać, mnożyć, itd.). Są zwykłymi znakami graficznymi - ich jedynym zadaniem jest przyporządkować obserwacje do jednej z kategorii. Wartości zmiennej porządkowej są nieco bardziej zaawansowane arytmetycznie. Jak sama nazwa wskazuje dają się porządkować - układać od najmniej do największej (lub na odwyrtkę). Ale to wszystko, co można z nimi zdziałać, ponieważ operacje dodawania i mnożenia są zablokowana. Na szczęście ten brak nie ma znaczenia, gdy stosujemy test chi-kwadrat, ponieważ wykorzystuje on liczebności. Czy liczba osób, które znajdują się łącznie w konkretnej kategorii każdej ze zmiennych, jest zgodna z oczekiwaną w tej kategorii liczbą osób? Ten test nie zadaje pytań o to, która kategoria charakteryzuje się większym nasileniem zmiennej.

TABELA KONTYNGENCJI - Do badania liczebności potrzebujemy tabelę kontyngencji, zwaną również tabelą krzyżową lub dwudzielczą. Taka tabela w zwarty sposób przedstawia współzależność między dwiema zmiennymi jakościowymi. Każda komórka tabeli zawiera liczbę jednostek, która zarówno jest w pewnej kategorii jednej zmiennej, jak i w jakiejś kategorii drugiej zmiennej - np. 10 (to ta liczebność) kobiet (zmienna Płeć), które posiadają kota (zmienna Posiadane zwierzę).

Rozmiar tabeli kontyngencji podaje się według przepisu
r x c (liczba wierszy razy liczba kolumn; r = row, c = column).

PRZYKŁAD: INTRO- i EKSTRAWERSJA A PREFEROWANA BARWA — Gdyby była pełna zależność między typem osobowości a preferowaną barwą, wówczas znając to, czy ktoś jest introwertykiem, czy ekstrawertykiem, moglibyśmy kupować mu farbę do ścian bez pytania, jaki kolor preferuje. Wiadomo byłoby, którą woli.

Jednak nie jest to takie proste. W praktyce zawsze zdarzy się introwertyk, który akurat lubi różowy i ekstrawertyk, który lubi lazurowy odcień niebieskiego, dlatego w omawianym badaniu układ liczebności jest następujący:

Wprawdzie jest równa liczba introwertyków i ekstrawertyków, ale różna między zimnolubnymi i ciepłolubnymi.

Na brzegach tabeli znajdują się liczebności zmiennej bez uwzględnienia obecności tej drugiej zmiennej, są to tzw. rozkłady brzegowe. Zupełnie tak, jakbyś zasłoniła (zasłonił) ręką prawie całą tabelę, jej wnętrze, zostawiając jedynie kategorie i liczebności pojedynczej zmiennej (każdej z nich), czyli to, co jest na brzegach. Zapamiętaj tę nazwę (rozkłady brzegowe), ponieważ przyda się już za chwilę.

MECHANIZM TESTOWANIA STATYSTYCZNEGO — Będąc jednym z klasycznych testów statystycznych przeprowadzanych w paradygmacie NHST, test chi-kwadrat posiada charakterystyczny schemat przepływu danych. Przypomnijmy w skrócie ten schemat.

Punktem wyjścia - i okularami przez które patrzy się na cały proces - jest hipotezę zerowa o braku związku między zmiennymi. Ponieważ nie pracuje się na surowych danych, to w trakcie analiz są one przetwarzane przez maszynkę zwaną statystyką testową do pojedynczej liczby zwanej wartością statystyki testowej danego testu. Wartościami tejże statystyki rządzi rozkład zwany rozkładem statystyki testowej. To on stanowi podstawę dalszych obliczeń oraz wnioskowania. Obliczenia polegają na zadaniu pytania o to, jak typowa jest wartość uzyskanej statystyki testowej t a odpowiedź przychodzi w postaci p-wartości/istotności statystycznej. Na końcu, aby zabezpieczyć się przeciwko optymistycznym wnioskom wyciągniętym na podstawie istotności statystycznej, oblicza się miarę siłę zjawiska, tzw. wielkość efektu, którą w teście chi-kwadrat jest współczynnik phi (dla tabel 2x2) lub V Cramera. To jest szybki skrót z posta o mechanice klasycznych testów statystycznych. Zobaczmy teraz, jak test chi-kwadrat realizuje schemat klasycznego testu statystycznego.

HIPOTEZA ZEROWA H0 w teście chi kwadrat mówi o niezależności dwóch zmiennych i brzmi:

H0: dwie zmienne (jakościowe) są niezależne (względem siebie).

Przypomnijmy, niezależność zmiennych oznacza, że mając informację o tym, w której kategorii jednej ze zmiennych znalazła się osoba badana, nie wiadomo o kategorii tej drugiej zmiennej. Wiedząc, że dana osoba jest ekstrawertykiem, nie wiem, czy preferuje kolor zimny czy ciepły. I w drugą stronę, znając preferencję kolorystyczną osoby, nie umiem wskazać, czy jest introwertykiem czy ekstrawertykiem.

Jeśli nazwiemy je ogólnie X i Y, to będziemy mogli zapisać symboliczną formułę tej hipotezy:
H0: X ⫫ Y

Znaczek, który tu widzisz, dwie pionowe kreski umieszczone na jedną poziomą, ⫫, to właśnie matematyczny symbol niezależności.

Po ustaleniu hipotezy zerowej H0 możemy przejść do zagadnień związanych z hipotezą alternatywną, H1.

HIPOTEZA ALTERNATYWNA - Ogólnie twierdzi się, że hipoteza alternatywna to takie miejsca, do którego trafiają hipotezy badawcze. Co prawda hipotezy badawcze i hipotezy statystyczne to odrębne światy. Jedne wyrażają przypuszczenia o zjawisku w terminach danej dziedziny. Drugie z kolei to przypuszczenia odnośnie rozkładów zmiennych. Jak te światy łączą się ze sobą? Aby móc weryfikować słuszność przypuszczeń naukowych, należy przełożyć hipotezę badawczą na język terminów statystycznych, na język średnich, odchyleń standardowych, rozkładów itd, tworząc w ten sposób hipotezę statystyczną. Statystyczna wersja hipotezy badawczej to jest właśnie hipoteza alternatywna H1.

O ile hipoteza zerowa jest jedna - i stanowi o braku związku między zmiennymi, to hipotez alternatywnych mogą być trzy wersje, wyrażające kierunek zależności między zmiennymi. To się świetnie składa, bo badacz stawia konkretną formę przypuszczenia - np. im wyższe nasilenie empatii, tym większa siatka przyjaciół albo kobiety są bardziej empatyczne niż mężczyźni w miejsce istnieje związek między empatią a liczbą przyjaciół. Konkretny kierunek zależności wskazany przez badacza przekłada się na konkretny kierunek zależności w hipotezie alternatywnej.

Wszystko działa, dopóki nie trafimy na test χ2, który jest nieco inny. Hipoteza alternatywna w tym teście jest tylko jedna i mówi o tym, że owszem, istnieje jakiś związek, ale nie wyszczególnia jaki. Może jest tak, że introwertycy wolą zimne kolory, a ekstrawertycy - ciepłe. Może być, że na odwrót. Hipoteza alternatywna w teście chi-kwadrat tego nie pomieści. To tym bardziej nakłada na Ciebie obowiązek patrzenia w dane, w tabelę kontyngencji. Może zdarzyć się tak, że otrzymasz wynik istotny statystycznie, dużą wielkość efektu, ale dane będą wprost krzyczeć, że Twoja hipoteza badawcza jest błędna.

HIPOTEZA ALTERNATYWNA H1 w teście χ2 jest niekonkretnym zaprzeczeniem hipotezy zerowej, ~H0 mówi o istnieniu związku zależności między zmiennymi:

H0: dwie zmienne (jakościowe) są zależne.

TWORZENIE STATYSTYKI TESTOWEJ — Wróćmy na chwilę do tabeli kontyngencji. Hipoteza zerowa H0 tworzy szczególną sytuację. Gdyby była ona prawdziwa – i dwie zmienne były naprawdę niezależne – to powinniśmy zaobserwować zupełnie inny układ liczebności wewnątrz tabeli kontyngencji. Układ, który komunikowałby niezależność zmiennych Typ osobowości i preferencja barw. Układ, w którym liczebności ekstrawertyków i introwertyków preferujących kolory zimne powinny być takie same, jak liczebności ekstrawertyków i introwertyków preferujących kolory ciepłe.

Używając języka opisu tabel kontyngencji, jeśli zmienne są niezależne, to rozkłady brzegowe tabeli kontyngencji powinny odtworzyć się wewnątrz niej.

W ten sposób powstała hipotetyczna tabela liczebności dla zmiennych Typ osobowości i Preferencja barwy, zwana tabelą liczebności oczekiwanych - oczekiwanych w sytuacji, w której te dwie zmienne są niezależne od siebie. Ta tabela (wraz z tabelą liczebności otrzymanych) stanie się podstawą dalszych obliczeń w teście chi-kwadrat.

Powiedzieliśmy, że weryfikacja hipotez nie polega na oglądaniu jedynie danych w próbie. Podczas testowania dane wędrują do czegoś, co nazywa się statystyką testową danego testu. Technicznie, to po prostu zwykły matematyczny wzór, który przetwarza dane do pojedynczej liczby, zwanej wartością statystyki testowej, uwzględniając przy tym to, co postuluje hipoteza zerowa testu chi-kwadrat.

STATYSTYKA TESTOWA W TEŚCIE CHI-KWADRAT — Statystyka testowa w teście chi kwadrat bazuje na rozbieżności między otrzymaną tabelą kontyngencji a pewną hipotetyczną tabelą, która pokazuje spodziewane liczebności jak gdyby nie byłoby tej zależności. Dla każdej tabeli kontyngencji można stworzyć jej alternatywną wersję z liczebnościami sugerującymi brak związku.

Rozumowanie jest następujące – jeśli nie ma zależności między dwoma nominalnymi zmiennymi, to tabela kontyngencji reprezentująca liczebności powinna wyglądać tak, jak tabela po prawej stronie. Zauważ, że to tabela liczebności oczekiwanych w sytuacji, gdy hipoteza zerowa jest prawdziwa, czyli gdy nie ma zależności między zmiennymi.

Obliczanie, jakie liczebności powinny znaleźć się w każdej komórce tej tabeli jest niezwykle proste, a i tak robi to za nas program statystyczny.

W wyniku porównania dwóch tabel - otrzymanej i oczekiwanej - otrzymujemy pojedynczą liczbę. Mierzy ona stopień rozbieżności między tabelą liczebności otrzymanych (lewa strona) z tabelą liczebności oczekiwanych (prawa strona).

Ta pojedyncza liczba to właśnie statystyka chi kwadrat χ2. Jeśli przyjrzymy się wzorowi na tę statystykę (jeszcze nie został zamieszczony w poście), to zauważymy, że w liczniku znajduje się miara rozbieżności między tym, co spodziewane od tego, co otrzymano. Większy licznik to większa rozbieżność między liczebnościami spodziewanymi, a otrzymanymi.
Duża wartość chi-kwadrat to duża rozbieżność między tabelą z liczebnościami otrzymanymi a tabelą z liczebnościami oczekiwanymi. To sygnał, że tabela krzyżowa z liczebnościami, które pojawiły się w badaniu, bardzo różni się od hipotetycznej tabeli krzyżowej z liczebności wyliczonymi dla sytuacji, w której zmienne nie mają ze sobą nic wspólnego.

W każdym teście statystycznym, dane po przejściu przez statystykę testową są sprowadzone do pojedynczej liczby, zwaną statystyką testową, i to na jej podstawie odbywa się dalsze wnioskowanie – m.in. obliczanie p-wartości (zwanej też istotnością statystyczną). W teście chi-kwadrat statystyką testową jest właśnie statystyka chi-kwadrat.

W omawianym przykładzie wartość statystyki testowej chi-kwadrat wynosi χ2 = 26,29.

Ale na samym oglądaniu wartości statystyki testowej χ2 = 26,29 wnioskowanie statystyczne nie kończy się. Należy zadać sobie pytanie, jak często może taka wartość trafia się? Pamiętaj, że to pytanie o częstość pada w określonym kontekście - prawdziwości hipotezy zerowej. Innymi słowami, zadajemy następujące pytanie: czy gdyby nie było zależności między zmiennymi Typ osobowości a Preferowana barwa, to jak często badacz obserwowałby χ2 = 26,29?

I teraz potrzebujemy jakiegoś tła, jakichś innych wartości, które moglibyśmy zestawić z tą naszą wartość 26,29 i ocenić, jak często - lub jak rzadko - pojawia się. Teraz na scenę wjeżdża rozkład wartości statystyki testowej. Ponieważ dane są losowe (tj. nie jesteś w stanie przewidzieć tego, co otrzymasz w badaniu, zanim go nie przeprowadzisz), to i wartość statystyki chi kwadrat jest równie losowa, różna w różnych badaniach. Innymi słowy, dwa różne badania dadzą dwie różne wartości statystyki chi-kwadrat. Tylko i wyłącznie z tego powodu, że inne osoby wezmą udział w tych badaniach. Mimo tego, daje się precyzyjnie określić częstość występowania poszczególnych wartości w tej szczególnej sytuacji, jaką jest sytuacja prawdziwości hipotezy zerowej H0. W poście o statystyce testowej dowiesz się, że statystyka testowa posiada dwa rodzaje rozkładów, zarówno gdy hipoteza zerowa jest prawdziwa, jak i wówczas gdy hipoteza alternatywna jest prawdziwa.

Ten rozkład statystyki testowej odpowiada na pytanie o to, jakie wartości powinniśmy obserwować jeśli hipoteza zerowa H0 jest prawdziwa. Jeśli dwie zmienne są niezależne, to częściej powinny pojawiać mniejsze wartości statystyki testowej chi-kwadrat, pokazujące małą rozbieżność między tabelami - te bliższe zeru. Natomiast rzadziej będą występować te wartości statystyki, które sugerują ich dużą rozbieżność. Zatem, duża wartość statystyki chi kwadrat jest nietypowa - o ile zmienne są niezależne. To, co właśnie zostało opisane słowami, powinien oddawać kształt krzywej rozkładu statystyki testowej.

ROZKŁAD STATYSTYKI TESTOWEJ | to oczywiście rozkład pokazujący to, jakie wartości statystyki testowej są częste, a jakie rzadkie - gdy nie ma zależności między zmiennymi. Zadajemy wówczas pytanie: jak typowa byłaby wartość statystyki testowej chi-kwadrat, gdyby zależności między zmiennymi nie było? Odpowiedź na to pytanie otrzymujemy w postaci p-wartości (ang. p-value) zwanej też istotnością statystyczną (ang. statistical significance). W teście chi-kwadrat stosuje się rozkład wartości statystyki testowej, który nazywa się rozkładem chi-kwadrat (tak, tak, to nie pomyłka - test, statystyka testowa i rozkład tej statystyki noszą tę samą nazwę). Porozmawiajmy chwilę o własnościach tego rozkładu, porównując go z rozkładem, o którym słyszeli chyba wszyscy - z rozkładem normalnym.

Rozkład normalny to rozkład, którego wykresem jest krzywa Gaussa, który ma szczyt znajdujący się w miejscu, gdzie spotykają się średnia, mediana i moda, którego ramiona opadają symetrycznie po obu stronach szczytu i którego ogony nigdy nie dotykają osi poziomej OX, przez co każda wartość zmiennej, którą opisuje ten rozkład, ma prawo przytrafić się - choćby najmniejszą szansę, ale ma. Rozkład normalny zapisuje się za pomocą symboli N(μ, σ), gdzie μ /mi/ to średnia, zaś σ /sigma/ to odchylenie standardowe. Rozkład chi-kwadrat taki nie jest. Opowieść o wartościach, jaką opowiada rozkład chi-kwadrat, jest zupełnie inna. Po pierwsze jest to rozkład, który wszystkim wartościom ujemnym przypisuje zerową szansę wystąpienia - wartości poniżej zera nie występują. Po drugie, rozkład nie jest symetryczny. Po trzecie bardzo zmienia się pod wpływem pewnej liczby, która nazywa się liczbą stopni swobody (degrees of freedom). Zobaczmy, jak to wygląda w praktyce.

LICZBA STOPNI SWOBODY | Można powiedzieć, że rozkładem chi-kwadrat rządzi pojedyncza liczba, która wiąże liczbę wierszy r i kolumn c, a którą można obliczyć w następujący sposób: (r - 1) · (c - 1). Jeśli liczba wierszy Twojej tabeli kontyngencji wynosi r = 3 (np. kobiety, mężczyźni, niebinarni) a liczba kolumn c = 2 (np. grupa kontrolna vs. grupa eksperymentalna), to liczba stopni swobody wynosi wówczas df = (3-1) · (2-1) = 2 · 1 = 2.

WPŁYW LICZBY STOPNI SWOBODY NA KSZTAŁT ROZKŁADU - Liczba stopni swobody to tylko liczba, która powstaje z mnożenia, ale która wywiera ogromny wpływ na kształt rozkładu statystyki testowej. A jeśli tak się dzieje, to ma to wpływ na obliczoną później p-wartość (zwaną też istotnością statystyczną). Zobacz - poniżej znajduje się rozkład o jednym stopniu swobody i jego kształt jest taki:

Warto zapamiętać, że ten kształt rozkładu odpowiada tabelom 2x2, ponieważ wówczas df = (2 - 1) · (2 - 1) = 1.

Gdy tabela jest nieco większa, np. 3x4 (trzy wiersze, cztery kolumny) albo 4x3 (cztery wiersze, trzy kolumny), to rozkład ma trzy stopnie swobody i wygląda następująco:

Pod wpływem liczby stopni swobody, rozkład wartości statystyki testowej, wygina się i odkształca. Zauważ, że liczba osób badanych, N, nie ma żadnego znaczenia – liczy się tylko rozmiar tabeli. W tabeli 2x2, gdzie każda ze zmiennych ma po dwie kategorie, może być rozmieszczone N = 10 osób, N = 100 osób albo N = 1000 osób. Zupełnie inaczej jest w innych testach, gdzie liczba osób badanych ma duże znaczenie i to ona wywołuje zmiany w rozkładzie statystyki testowej - takich jak test t-Studenta.

DLACZEGO TO WAŻNE? | Dlaczego ten kształt rozkładu wartości statystyki testowej jest tak ważny? Bo powoduje, że przy tej samej wartości statystyki testowej można uzyskać inną istotność statystyczną. Istotności statystycznej czy p-wartość nie liczymy na podstawie rozkładu zmiennej. Niestety, SPSS nie pokazuje (jeszcze) tego rozkładu. Jedyne, co dostajemy to cyferki w tabelkach, co zwiększa tylko matryfikację statystyki (pamiętasz film Matrix?).

TEST χ2 JEST PRAWOSTRONNY — Dla wszystkich początkujących test χ2 najczęściej będzie interesować testem prawostronnym. To oznacza, że interesować nas będzie tylko prawa strona rozkładu wartości tego testu – ta, która pokazuje duże wartości statystyki testowej chi-kwadrat. Po tej prawej stronie krzywa szybko opada ku osi OX. Ta własność odzwierciedla fakt, że jeśli tylko dwie zmienne nie są ze sobą związane, to duże wartości statystyki testowej są mało prawdopodobne.

Kiedy już wiemy, z jakim rozkładem mamy do czynienia, przyszła pora na obliczanie szansy na pojawienie się naszej wartości statystyki testowej χ2 = 26,29. Ta szansa to właśnie p-wartość.

Matematycznie, p-wartość (istotność statystyczna) jest obliczana jako obszar leżący na prawo od uzyskanej wartości statystyki testowej. W przykładzie p wynosi p = 2,92 · 10-7. Jest to wynik istotny statystycznie. Dlaczego? Gdyby chcieć zapisać tę p-wartość bez potęg liczby 10, wówczas p = 0,000 000292 (sześć zer po przecinku i dopiero dwójka). Z pewnością jest to wynik niższy niż 0,05 (pięć setnych).

Jak należy rozumieć tę wartość? Pamiętajmy, że w klasycznych testach statystycznych patrzymy na wszelkie obliczenia z perspektywy prawdziwości hipotezy zerowej H0. Zadajemy więc pytanie o to, jaka jest szansa, aby w teście pojawiła się tak duża wartość statystyk tesowej χ2 = 26.29, jeśli tylko zmienne są niezależne - jeśli tylko preferencja barwy zimnej lub ciepłej nie zależy od osobowości. Odpowiedź na to pytanie to właśnie p-wartość. Wygląda na to, że szansa na zaobserwowanie co najmniej takiej wartości chi-kwadrat jak 29,29 jest bardzo mała, mniejsza niż jeden procent, a nawet jedna tysięczna.

I co dalej? Czy już mogę powiedzieć, że skoro sam wynik testu jest małoprawdopodobny to hipoteza zerowa H0 jest małoprawdopodobna? Nie, z faktu, że zdarzył się mało prawdopodobny wynik, trudno to małe prawdopodobieństwo od razu przenieść na hipotezę zerową H0. P-wartość po prostu sygnalizuje Ci, że coś jest nie tak, rzucając cień wątpliwości na tę hipotezę H0. Dzisiaj tak niską p-wartość interpretuje się właśnie w kategoriach niezgodności danych z hipotezą zerową H0. To dopiero pierwszy sygnał ku pozytywnej weryfikacji hipotezy badawczej.

WIELKOŚĆ EFEKTU — Wielkość efektu phi φ albo V Cramera są miarami związku. Zwróć uwagę na to, że statystyka chi-kwadrat mówi o rozbieżności między dwiema tabelami, zaś współczynnik phi φ oraz współczynnik V Cramera są miarami czegoś przeciwnego – zbieżności (związku) tych zmiennych. Gdy miara wynosi zero, wówczas nie ma związku między zmiennymi (nie dotyczy to współczynnika korelacji r Pearsona!). Im bliżej jedynki, to większa siła związku między zmiennymi.

I tu jest jeden drobny szczegół - istnieją dwa wzory na współczynnik phi jest obliczany albo bezpośrednio ze statystyki testowej chi-kwadrat albo z liczebności. W SPSS zaimplementowano ten drugi, przez co współczynnik phi może przyjmować wartości ujemne – ale już nie V Cramera (ten jest zawsze dodatni).

Wybór miary siły związku zależy od rozmiaru tabeli. Dla bardzo małych tabel
2x2 odpowiednią miarą jest współczynnik phi. Jeśli tabela kontyngencji jest większa, np. 2x3 albo 3x4, to należy wybrać V Cramera.

Skoro wiemy już jakie wartości mogą przyjmować współczynniki, przejdźmy do progów wielkości efektu według Cohena, które pozwalają ocenić, czy związek jest mały czy duży.

  • Kiedy wartość bezwzględna współczynnika phi lub V Cramera poniżej ,10, to mówimy, że siła związku między dwiema zmiennymi jest zaniedbywalna.
  • Kiedy wartość bezwzględna współczynnika phi lub V Cramera od ,10 do ,30 to mówimy, że siła związku między dwiema zmiennymi jest mała.
  • Kiedy wartość bezwzględna współczynnika phi lub V Cramera od ,30 do ,50 to mówimy, że siła związku między dwiema zmiennymi jest umiarkowana.
  • Kiedy wartość bezwzględna współczynnika phi lub V Cramera sięga powyżej ,50 to mówimy, że siła związku między dwiema zmiennymi jest duża.

Przy czym rozmiarówka według Cohena to ostatnia deska ratunku, która pozwala się badaczom rozeznać w wielkości efektu, gdy prowadzą pionierskie badania.

PRZYKŁAD: TYP OSOBOWOŚCI A PREFEEENCJA BARW — W omawianym przykładzie wartość współczynnika phi wynosi φ = ,36. Zgodnie z powyższym systemem progów jest to kategoriach umiarkowanej siły zależności między typem osobowości a preferencją barw.

ZAPIS WYNIKÓW ANALIZ WEDŁUG APA — Po wykonaniu analiz należy ich wyniki zapisać zgodnie z wybranym w danej dziedzinie systemem zapisu. W psychologii stosujemy zapis amerykańskiego stylu redakcyjnego, American Psychological Association, APA. Zgodnie z nim, wyniki testu mają ustaloną ogólną formę. Zaczyna się od litery symbolizującej test, np. χ2, potem pojawia się liczba stopni swobody, owe df, następnie wartość statystyki testowej zaokrąglona do dwóch miejsc po przecinku, np. 26,29. Potem p-wartość wraz z informacją o jej stronności, np. p =  .023 i na samym końcu wielkość efektu - jeśli jest, ponieważ niektórym testom nie odpowiada żadna wielkość efektu.

Według niego powinniśmy wyniki testu chi-kwadrat umieścić w obrębie takiego formatu: χ2(df, N = ...) = wartość statystyki testowej; p-wartość = ... ; φ = ... (lub V Cramera = ...). W wykropkowane miejsca, oczywiście, wstawiamy odpowiednie cyferki wyświetlone w outpucie programu, df to liczba stopni swobody, N to liczba osób badanych.

Z tym zapisem związane są dwie rzeczy, o których należy wiedzieć: 1. φ lub V-Cramera, ponieważ wszystko zależy od wymiaru tabeli kontyngencji. Jeśli tabelą 2x2 wówczas wybieramy phi. Pewna zmiana dotyczy tego, co dzieje się w miejscu, gdzie znajduje się liczba stopni swobody. Ponieważ w teście chi-kwadrat liczba stopni swobody nie jest powiązana z liczbą osób badanych (nie jest to N pomniejszone o jeden jak w przypadku testu t-Studenta dla jednej próby) a informacja o liczbie osób badanych jest ważna, to stosuje się nieco zmieniony zapis i wewnątrz gładkiego nawiasu wstawia się liczbę osób badanych, np. N = 200 .

PRZYKŁAD: TYP OSOBOWOŚCI A PREFERENCJA BARW — W omawianym przykładzie zapis analiz testem χ2 powinien wyglądać następująco: χ2(1, N = 200) = 26,29; p < 0,001 (jednostronna, dokładna); φ = 0,36.

ANALIZA MOCY — Analizę mocy wykonujemy, gdzie chcemy dowiedzieć się, ile osób (ogólnie: jednostek badanych) należy zgromadzić, aby test miał odpowiednią moc (zwykle 80%). W tym celu ustala się kilka parametrów testu: poziom błędów I-go rodzaju, szukaną wielkość efektu i w efekcie program statystyczny jest w stanie wskazać potrzebną wielkość próby. Takie postępowanie wydaje się być bułką z masłem i działa dla testów parametrycznych, czyli takich, które żądają od danych konkretnego rozkładu (np. niech rozkład zmiennej będzie rozkładem normalnym).

Niestety, sprawy mają się inaczej, w przypadku testów nieparametrycznych, do których należy test chi-kwadrat. On nie nakazuje konkretnej postaci rozkładu zmiennych - te dwie zmienne, których niezależność bada, mają być jedynie jakościowe. Dla grupy testów nieparametrycznych analiza mocy jest bardziej skomplikowana i opiera się na symulacjach komputerowych. Dlatego pominiemy ją w tym poście (co oczywiście nie zrobi najlepiej wynikom).

PROBLEM Z TESTEM CHI-KWADRAT — Test chi-kwadrat jest testem badającym niezależność zmiennych. Leżąca u jego podstaw statystyka testowa chi-kwadrat jest statystyką mierzącą rozbieżność między tabelą krzyżową wypełnioną otrzymanymi liczebnościami a pewną hipotetyczną tabelą liczebności oczekiwanych w konkretnej sytuacji - gdy dwie zmienne są ze sobą niepowiązane. Ta statystyka jest wrażliwa na odchylenia od niezależności, ale nie odpowie, jak ta zależność wygląda. Aby odkryć wzorzec tej zależności, należy patrzeć bezpośrednio w dane (tu: tabelę kontyngencji). Jest to bardzo ważne, ponieważ zarówno dużą wartość statystyki testowej chi-kwadrat jak i istotność statystyczną pokażą dane, których kierunek zależności jest zgodny z kierunkiem wskazanym przez hipotezę badawczą, jak i dane, który kierunek zależności idzie w zupełnie w inną stronę.

Teraz zobaczymy, po pierwsze, jak wygląda tabela kontyngencji, gdy dane przeczą hipotezie badawczej – to introwertycy preferują ciepłe barwy, a ekstrawertycy – zimne. Po drugie - jak wyglądają wyniki testu chi-kwadrat. To pomoże utrwalić sobie nawyk zaglądania w próbę, zamiast jedynie oglądania wyników testu statystycznego.

Wynik testu chi-kwadrat będzie taki sam, jak dla danych, gdzie to introwertycy preferowali kolory zimne, a ekstrawertycy – kolory ciepłe, χ2(1, N = 200) = 26,29; p < 0,001; φ = 0,36. Statystyka testowa chi-kwadrat wynosi 29,26. Podobnie, jak bezwzględna wartość współczynnika phi: ,36. Jedynie znak minus mógłby zasugerować, że powinniśmy się przyjrzeć tabeli. Gdybyśmy jednak mieli dane zorganizowane w tabeli o co najmniej trzech wierszach (lub trzech kolumnach), wówczas należałoby obejrzeć współczynnik V Cramera, a on przyjmuje wartości dodatnie (i nie ma bezpiecznika jak w przypadku współczynnika phi).

Zatem, kiedy ucieszysz się z istotnego statystycznie wyniku (choć to dopiero połowa sukcesu publikacyjnego), musisz spojrzeć w dane. Dopiero wówczas, gdy obejrzysz liczebności w tabeli krzyżowej, będziesz wiedzieć, czy zależność jest taka, jaką przewidujesz.

Brak komentarzy: