Test niezależności chi-kwadrat dla dwóch zmiennych

MAJ 2022| LJK | ~2500 słów


Test χ2 to test statystyczny opracowany przez Karla Pearsona w czasach, w których jeszcze wszyscy myśleli, że istnieje tylko rozkład normalny i porównywano otrzymane rozkłady, zwane empirycznymi, do właśnie tego rozkładu. Dzisiaj porównywanie odbywa się inaczej: albo za pomocą statystyk opisowych (skośność, kurtoza) i wykresów (boxplot, qqplot), albo za pomocą testów normalności Kołomogorowa-Smirnova i Shapiro-Wilka. Około 1900 r. albo nie było takiego zwyczaju albo nie było testów normalności (rzeczeni panowie byli wówczas co najwyżej dziećmi). Porównywano zatem na piechotę – badano, czy otrzymana liczebność zgadza się z tą, która powinna być, gdyby dana cecha posiadała rozkład normalny. Wiemy, że rozkład normalny określa częstość, z jaką będą występować wartości – np. najwięcej powinno wartość z przedziału wokół średniej. Wystarczy więc porównać, czy zgadza się liczba obserwacji w określonych przedziałach.

SPIS TREŚCI:

Test χ2 (czytaj: chi-kwadrat, owe χ to grecka litera) nazywam idealnym testem istotności statystycznej, ponieważ dokładnie oddaje ideę testów istotności statystycznej według innego z ojców-założycieli współczesnej statystyki: Ronalda Fishera. W jego mniemaniu stawianie konkurencyjnej hipotezy alternatywnej było pomyłką, zaś test chi-kwadrat bardzo wpasowuje w ten sposób myślenia, ponieważ koncentruje się na hipotezie zerowej H0 i stopniu rozbieżności danych z modelem przez nią postulowanym (czyli sprawdza, czy badane liczebności są zgodne z oczekiwanymi liczebnościami). Według Fishera, badacza nie interesują żadne alternatywne wyjaśnienia zawarte w hipotezie alternatywnej H1 - i w dużej mierze taki właśnie jest test chi kwadrat χ2.

Test chi-kwadrat występuje w dwóch wersjach: jako test niezależności (test of independence) i jako test dobroci dopasowania (goodness of fit). W tym poście omówimy tę pierwszą wersję.

NIEZALEŻNOŚĆ — niezależność zmiennych w statystyce oznacza inną niezależność niż tą, którą znamy z języka codziennego. W statystyce niezależność jest zwrotna, tj. idzie w dwie strony. Matematycy posłużyliby się jedną linijką ze wzorem P(A)·P(B) = P(A ∩ B) i ktoś, kto miał styczność z rachunkiem prawdopodobieństwa wcześniej, byłby w stanie z łatwością zrozumieć tę symbolikę. Jednocześnie taki ktoś prawdopodobnie nie czyta tego tekstu albo stawi mniejszość osób trafiających na tego bloga. Wobec tego wyjaśnię niezależność zmiennych w nieco prostszy sposób – w kategoriach informacyjności. Bardziej niż symbole potrzebne nam jest zrozumienie idei niezależności. Zatem kiedy dwie zmienne są niezależne, wówczas informacja o jednej zmiennej nie niesie informacji o tej drugiej. Należy przy tym pamiętać, że statystyczna (a raczej probabilistyczna) niezależność jest zwrotna - wzajemna. Zupełnie inaczej ma to miejsce w języku codziennym, gdzie jedna sprawa/rzecz/osoba może nie zależeć od drugiej, ale ta druga od pierwszej – jak najbardziej. Dziecko jest zależne od matki (zwłaszcza w ciągu pierwszych miesięcy życia), ale matka nie jest zależna od dziecka. To jest niezależność znana z języka codziennego. W języku statystyki obowiązuje wzajemność.

PRZYKŁAD: INTRO- i EKSTRAWERSJA A PREFEROWANA BARWA — Test chi kwadrat poznajmy na przykładzie związku między typem osobowości a preferowaną barwą. Badacz stawia hipotezę badawczą, przypuszczając, że introwertycy preferują zimne barwy, zaś ekstrawertycy preferują ciepłe barwy. Takie badania prowadzone są już mniej więcej od lat sześćdziesiątych.

FORMAT DANYCH — czyli założenia testu, jakie muszą być spełnione, aby można było zastosować test chi-kwadrat.

Najprościej rzecz ujmując: to muszą być dwie zmienne jakościowe. W typologii Stevensa zmiennym jakościowym odpowiadają dwie zmienne o najniższym typie pomiaru. Zgodnie z tym, to mogą być dwie zmienne nominalne, jak np. Płeć(o kategoriach: kobieta, mężczyzna, niebinarna) i przynależność do jednej z dwóch grup: eksperymentalnej i kontrolnej. To mogą być dwie zmienne o porządkowym typie pomiaru, np. poziom wykształcenia. To mogą być też mieszane typy pomiaru: jedna zmienna jest nominalna, a druga – porządkowa.

Wartości zmiennej nominalnej nie mają charakteru liczbowego, tzn. nie można ustalić ani kolejności, ani wykonywać operacji algebraicznych (dodawać, mnożyć, itd.). Są zwykłymi znakami graficznymi. Wartości zmiennej porządkowej dają się – jak sama nazwa wskazuje – porządkować. I to wszystko, co można zdziałać, ponieważ możliwość dodawania i mnożenia jest nadal zablokowana. To wszystko nie ma znaczenia w teście chi-kwadrat, ponieważ test chi-kwadrat pracuje na liczebnościach. Czy liczba osób, które znajdują się łącznie w konkretnej kategorii każdej ze zmiennych, jest zgodna z oczekiwaną liczbą osób? Ten test nie zadaje pytań o to, kto ma wyższą wartość w jakiejś zmiennej.

Za to potrzebujemy tabelę kontyngencji, zwaną również tabelą krzyżową albo tabelą dwudzielczą. Jest to sposób przedstawienia współzależności między dwiema zmiennymi jakościowymi. Rozmiar tabeli kontyngencji podaje się według przepisu rxc (liczba wierszy x liczba kolumn; r = row, c = column).

PRZYKŁAD: INTRO- i EKSTRAWERSJA A PREFEROWANA BARWA — Gdyby była pełna zależność między typem osobowości a preferowaną barwą, wówczas znając to, czy ktoś jest introwertykiem, czy ekstrawertykiem, moglibyśmy kupować mu farbę do ścian bez pytania, jaki kolor preferuje. Wiadomo byłoby, którą woli.

Jednak nie jest to takie proste. Zawsze zdarzy się introwertyk, który akurat lubi różowy i ekstrawertyk, który lubi lazurowy odcień niebieskiego, dlatego w badaniu może zdarzyć się taka sytuacja:

Jest równa liczba introwertyków i ekstrawertyków, ale różna między zimnolubnymi i ciepłolubnymi.

HIPOTEZA ZEROWA w teście chi kwadrat mówi o niezależności dwóch zmiennych:

H0: dwie zmienne są niezależne

I znów pojawia się termin niezależność w znaczeniu węższym niż w języku codziennym i dotyczy braku wzajemnej informacji. Teraz zajmiemy się tym, jak to wygląda w przypadku testu chi-kwadrat. Pamiętajmy, że ten test dotyczy zmiennych jakościowych, których wartości to kategorie. Niezależność takich zmiennych oznacza, że mając informację o tym, w której kategorii jednej ze zmiennych znalazła się osoba badana, nie wiadomo o kategorii tej drugiej zmiennej. Wiedząc, że dana osoba jest ekstrawertykiem, nie wiem, czy preferuje kolor zimny czy ciepły.

Przyjrzyjmy się tabeli kontyngencji.

Na brzegach tabeli znajdują się liczebności zmiennej bez uwzględnienia obecności tej drugiej zmiennej, są to tzw. rozkłady brzegowe. Zupełnie tak, jakbyś zasłoniła (zasłonił) ręką prawie całą tabelę, zostawiając jedynie kategorie i liczebności pojedynczej zmiennej. Jeśli hipoteza zerowa jest prawdziwa – i dwie zmienne są niezależne – to rozkłady brzegowe odtwarzają się wewnątrz tabeli. Tym krótkim stwierdzeniem komunikuję, że w przypadku gdy dwie zmienne są niezależne, to liczebności w poszczególnych kategoriach jednej zmiennej powinny być takie same w każdej z kategorii tej drugiej zmiennej. Liczebności ekstrawertyków i introwertyków preferujących kolory zimne powinny być takie same, jak liczebności ekstrawertyków i introwertyków preferujących kolory ciepłe.

Podczas weryfikacji hipotez dane wędrują do czegoś, co nazywa się statystyką testową. Statystyka testowa to wzór, który sprowadza dane do pojedynczej liczby, uwzględniając przy tym to, co postuluje hipoteza zerowa testu chi-kwadrat H0.

STATYSTYKA TESTOWA W TEŚCIE CHI-KWADRAT — Statystyka testowa w teście chi kwadrat bazuje na rozbieżności między otrzymaną tabelą kontyngencji a pewną hipotetyczną tabelą, która pokazuje spodziewane liczebności jak gdyby nie byłoby tej zależności. Dla każdej tabeli kontyngencji można stworzyć jej alternatywną wersję z liczebnościami sugerującymi brak związku.

Rozumowanie jest następujące – jeśli nie ma zależności między dwoma nominalnymi zmiennymi, to tabela kontyngencji reprezentująca liczebności powinna wyglądać tak, jak tabela po prawej stronie.

Obliczanie, co powinno się znaleźć w tabeli jest proste i zwykle to robi program statystyczny.

Następnie w wyniku porównania tych dwóch tabel otrzymujemy pojedynczą liczbę, miarę rozbieżności między punktem odniesienia, a naszym położeniem -między tabelą z liczebnościami spodziewanymi (prawa strona) a liczebnościami otrzymanymi (lewa strona).

Ta liczba to właśnie statystyka chi kwadrat. Jeśli przyjrzymy się wzorowi na statystykę chi-kwadrat, to zauważymy, że w liczniku bada ona rozbieżność między tym, co spodziewane od tego, co oczekiwane. Im większy licznik, tym większa rozbieżności między liczebnościami spodziewanymi, a otrzymanymi.

Ponieważ dane są losowe (tj. nie jesteś w stanie przewidzieć tego, co otrzymasz w badaniu), to i wartość statystyki chi kwadrat jest losowa. Co więcej – ma ona określony rozkład, jeśli tylko zmienne są niezależne. W poście o statystyce testowej dowiesz się, że ma ona rozkład, zarówno gdy hipoteza zerowa jest prawdziwa, jak i wówczas gdy hipoteza alternatywna jest prawdziwa.

Dane po przejściu przez statystykę testową są sprowadzone do pojedynczej liczby (więcej: KLIK). I to na jej podstawie odbywa się dalsze wnioskowanie – m.in. obliczanie p-wartości (zwanej też istotnością statystyczną). W teście chi-kwadrat statystyką testową jest właśnie statystyka chi-kwadrat.

Jeśli dwie zmienne są niezależne, to częściej powinny pojawiać mniejsze wartości statystyki testowej, pokazujące małą rozbieżność między tabelami, a rzadziej takie wartości, które sugerują ich dużą rozbieżność. Zatem, duża wartość statystyki chi kwadrat jest nietypowa.

PRZYKŁAD: TYP OSOBOWOŚCI A PREFEROWANA BARWA — W omawianym przykładzie wartość statystyki testowej chi-kwadrat wynosi 26,29.

ROZKŁAD STATYSTYKI TESTOWEJ to oczywiście wykres pokazujący to, jakie wartości statystyki testowej są częste, a jakie rzadkie. Należy przy tym pamiętać, że owa częstotliwość badana jest w sytuacji, gdy nie ma zależności między zmiennymi. Zadajemy wówczas pytanie: jak typowa byłaby wartość statystyki testowej chi-kwadrat, gdyby zależności między zmiennymi nie było?

Rozkład statystyki testowej chi kwadrat zmienia się w zależności od liczby wierszy i kolumn. Można powiedzieć, że rządzi nim liczba, którą można obliczyć w następujący sposób: (r-1) · (c-1). Innymi słowy, kształtem rozkładu rządzi liczba zwaną liczbą stopni swobody (degrees of freedom). Rozkład statystyki testowej chi-kwadrat o jednym stopieniu swobody przedstawia się następująco:

Ten rysunek odpowiada tabelom 2x2, ponieważ wówczas df = (2-1)·(2-1) = 1.

Gdy tabela jest nieco większa, np. 3x4 (trzy wiersze, cztery kolumny) albo 4x3 (cztery wiersze, trzy kolumny), to rozkład ma trzy stopnie swobody i wygląda następująco:

Zauważ, że liczba osób badanych nie ma żadnego znaczenia – liczy się rozmiar tabeli. W tabeli 2x2, gdzie każda ze zmiennych ma po dwie kategorie, może być rozmieszczone 10 osób, 100 osób czy 1000 osób. Nie zmienia to faktu, że dla takich danych rozkładem statystyki testowej będzie rozkład z jednym stopniem swobody. Zupełnie inaczej jest w innych testach, gdzie liczba osób badanych ma duże znaczenie.

Interesuje nas prawa strona rozkładu statystyki testowej – ta, która pokazuje duże wartości statystyki testowej. Duża wartość statystyki testowej to duża rozbieżność między tabelą z liczebnościami otrzymanymi a tabelą z liczebnościami oczekiwanymi.

WIELKOŚĆ EFEKTU Wielkość efektu phi φ albo V Cramera są miarami związku. Zwróć uwagę na to, że statystyka chi-kwadrat mówi o rozbieżności między dwiema tabelami, zaś współczynnik phi φ oraz współczynnik V Cramera są miarami czegoś przeciwnego – zbieżności (związku) tych zmiennych. Gdy miara wynosi zero, wówczas nie ma związku między zmiennymi (nie dotyczy to współczynnika korelacji r Pearsona!). Im bliżej jedynki, to większa siła związku między zmiennymi.

I tu jest jeden drobny szczegół - istnieją dwa wzory na Współczynnik phi jest obliczany albo bezpośrednio ze statystyki testowej chi-kwadrat albo z liczebności. W SPSS zaimplementowano ten drugi, przez co współczynnik phi może przyjmować wartości ujemne – ale już nie V Cramera (ten jest zawsze dodatni).

Wybór miary siły związku zależy od rozmiaru tabeli. Dla bardzo małych tabel 2x2 odpowiednią miarą jest współczynnik phi. Jeśli tabela kontyngencji jest większa, to należy wybrać V Cramera.

Skoro wiemy już jakie wartości mogą przyjmować współczynniki, przejdźmy do progów wielkości efektu według Cohena, które pozwalają ocenić, czy związek jest mały czy duży.

  • Kiedy wartość bezwzględna współczynnika phi lub V Cramera poniżej ,10, to mówimy, że siła związku między dwiema zmiennymi jest zaniedbywalna.
  • Kiedy wartość bezwzględna współczynnika phi lub V Cramera od ,10 do ,30 to mówimy, że siła związku między dwiema zmiennymi jest mała.
  • Kiedy wartość bezwzględna współczynnika phi lub V Cramera od ,30 do ,50 to mówimy, że siła związku między dwiema zmiennymi jest umiarkowana.
  • Kiedy wartość bezwzględna współczynnika phi lub V Cramera sięga powyżej ,50 to mówimy, że siła związku między dwiema zmiennymi jest duża.

Przy czym rozmiarówka według Cohena to ostatnia deska ratunku, która pozwala się badaczom rozeznać w wielkości efektu, gdy prowadzą pionierskie badania.

PRZYKŁAD: TYP OSOBOWOŚCI A PREFEROWANA BARWA — W omawianym przykładzie wartość współczynnika phi wynosi ,36. Jest to umiarkowana

ANALIZA MOCY — Test chi-kwadrat jest testem nieparametrycznym, tj. w jego hipotezie zerowej nie ma konkretnego parametru odnoszącego się do populacji. To powoduje, że jest to test nieparametryczny. Dla tej grupy testów analiza mocy jest trudniejsza i opiera się na symulacjach komputerowych.

PROBLEM Z TESTEM CHI-KWADRAT — Test chi-kwadrat pokazuje, czy zmienne są ze sobą związane, czy też nie. Natomiast nie odpowie, jak ta zależność wygląda. Aby odkryć wzorzec tej zależności, należy patrzeć w dane (tu: tabelę kontyngencji).

Wyobraźmy sobie teraz, że tabela kontyngencji pokazuje, że jednak dane przeczą hipotezie badawczej – to introwertycy preferują ciepłe barwy, a ekstrawertycy – zimne. Zupełnie inaczej niż badacz przewidywał.

Problem z testem chi-kwadrat jest taki, że on tego nie pokazuje. Wszystko ze względu na to, jak zbudowana jest statystyka testowa chi-kwadrat – podnosi ona do kwadratu różnicę między liczebnościami oczekiwanymi i otrzymanymi, zamazując to, czy ta liczebność otrzymana jest powyżej czy poniżej oczekiwanej. Ta statystyka sprawdza stopień rozbieżności, niezależnie w którą stronę idzie ta rozbieżność – czy zgodnie z przewidywaniami badacza, czy też kompletnie w poprzek.

Wynik testu chi-kwadrat będzie taki sam, jak dla danych, gdzie to introwertycy preferowali kolory zimne, a ekstrawertycy – kolory ciepłe. Statystyka testowa chi-kwadrat wynosi 29,26. Podobnie, jak bezwzględna wartość współczynnika phi: ,36. Jedynie znak minus mógłby zasugerować, że powinniśmy się przyjrzeć tabeli. Gdybyśmy jednak mieli dane zorganizowane w tabeli o co najmniej trzech wierszach (lub trzech kolumnach), wówczas należałoby obejrzeć współczynnik V Cramera, a on przyjmuje wartości dodatnie (i nie ma bezpiecznika jak w przypadku współczynnika phi).

Zatem, kiedy ucieszysz się z istotnego statystycznie wyniku (choć to dopiero połowa sukcesu publikacyjnego), musisz spojrzeć w dane. Dopiero wówczas, gdy obejrzysz liczebności w tabeli krzyżowej, będziesz wiedzieć, czy zależność jest taka, jaką przewidujesz.

To powyżej ma szczególne znaczenie, gdy pracujesz w podejściu NHST (istotny – istnieje, nieistotny – nie istnieje). Wynik istotny statystycznie, który rzekomo ma potwierdzać hipotezę badawczą, może tak naprawdę jej zaprzeczać jeszcze bardziej niż wynik nieistotny statystycznie.

Brak komentarzy: