MAJ 2024| LJK | ~2500 słów
Ilekroć zastanawiasz się, czy masz wystarczającą liczbę spodni, bluzek, majtek i skarpetek (słowem: garderoby) albo łyżeczek, widelców, noży w szufladzie (słowem: sztućców) albo może innych rzeczy, może nawet nigdy nie zastanawiał_ś się nad tym, to i tak jest mnóstwo okazji do nieświadomego wykonania testu chi-kwadrat. Test χ2 to najczęściej wykonywany test, gdy zmienne są jakościowe - ich wartości są kategoriami jak płeć, poziom wykształcenia. Jest to test pracujący na liczebnościach. Występuje on w dwóch wersjach: jako test niezależności (test of independence) i jako test dobroci dopasowania (goodness of fit). W tym poście omówimy tę pierwszą wersję. |
Wprowadzenie: historia testu chi-kwadrat
Test χ2 (czytaj: chi-kwadrat, χ to grecka litera alfabetu) jest bardzo stary. Został opracowany przez drugiego z ojców współczesnej statystyki - Karla "przez K" Pearsona - jeszcze w czasach, w których jeszcze wszyscy myśleli, że istnieje tylko i wyłącznie rozkład normalny, który opisuje wszystkie zjawiska w przyrodzie. Wobec tego porównywano z nim rozkłady otrzymywane w badaniach. Czyniono to sposób, który z dzisiejszego punktu widzenia, wydaje się być osobliwy - na piechotę, sprawdzając czy otrzymana liczba obserwacji zgadza się z tą, która powinna być, gdyby dana cecha posiadała rozkład normalny.
Punktem wyjścia było spostrzeżenie, że rozkład normalny określa częstość, z jaką będą występować wartości. Odwołajmy się chociaż do reguły 3-sigma. Rozkład normalny ma taką własność, że między 68% całego rozkładu znajduje się na o jedno odchylenie standardowe na lewo i na prawo od średniej. Więc, wystarczy porównać, czy w zebranej próbie liczba obserwacji w tym przedziale wynosi około 68%. Dzisiaj sprawdzenie, czy rozkład w próbie jest zbliżony do rozkładu normalnego odbywa się inaczej: albo za pomocą statystyk opisowych (skośność, kurtoza) i wykresów (boxplot, qqplot), albo za pomocą testów normalności nazwanych od nazwiska ich autorów: Kołomogorowa-Smirnova oraz Shapiro-Wilka. Ponad sto lat temu, około 1900 r. diagnostyka normalności wyglądała inaczej, zwłaszcza dlatego, że nie istniały testy normalności (Kołmogorow, Smirnov, Shapiro i Wilk byli wówczas co najwyżej dziećmi). Mimo rozwoju statystyki i odejścia od prymitywnych metod badania normalności rozkładu, test chi-kwadrat nie umarł, a służy teraz mniej więcej temu samemu celowi (sprawdzeniu zgodności rozkładów), ale przede wszystkim dla zmiennych jakościowych (których wartości są kategoriami).
Test χ2 można uznać za wzorcowy test istotności statystycznej, ponieważ dokładnie oddaje ich ideę - przynajmniej według jednego z ojców-założycieli współczesnej statystyki: Ronalda Fishera. W jego mniemaniu stawianie konkurencyjnej hipotezy alternatywnej jest kompletną pomyłką, zaś badacz powinien przede wszystkim skupić się na hipotezie zerowej. Test chi-kwadrat wpasowuje w ten sposób myślenia, ponieważ bada stopień rozbieżności danych z modelem postulowanym przez hipotezę zerową.
NIEZALEŻNOŚĆ — niezależność zmiennych w statystyce oznacza inną niezależność niż ta, którą znamy z języka codziennego. Niezależność w życiu codziennym ma szczególną własność - nie musi iść w dwie strony. Jedna osoba może być zależna od drugiej, ale nie musi to działać zwrotnie. Najlepszym przykładem jest diada dziecko-rodzic. Dziecko - zwłaszcza w ciągu pierwszych miesięcy życia - jest zależne od rodzica (który je karmi, przewija, koi), ale rodzic nie jest zależny od dziecka. Podobnie jest z rzeczami, sprawami itd.
W statystyce niezależność zawsze posiada cechę zwrotności. W świcie zmiennych obowiązuje wzajemność. Matematycy posłużyliby się jedną linijką ze wzorem P(A)·P(B) = P(A ∩ B) i ktoś, kto miał styczność z rachunkiem prawdopodobieństwa, jest w stanie z łatwością zrozumieć tę symbolikę. Jednocześnie taki ktoś prawdopodobnie nie czyta tego tekstu albo stawi mniejszość czytelników, wobec tego wyjaśnię niezależność zmiennych w nieco prostszy sposób – w kategoriach informacyjności (tj. zawierania informacji).
Kiedy dwie zmienne są niezależne, wówczas informacja o jednej zmiennej nie niesie informacji o tej drugiej. To tak, jakby znać stan posiadania pieniędzy w portfelu, ale nie wiedzieć, jaka jest liczba włosów na głowie. Jeśli dwie zmienne są niezależne, to na podstawie znajomości jednej z nich (tego jaką wartość przyjęła), nie możesz przewidzieć, co stanie się z drugą zmienną. To wszystko - to jest znaczenie niezależności zmiennych w statystyce.
PRZYKŁAD: INTRO- i EKSTRAWERSJA A PREFEROWANA BARWA — Funkcjonowanie testu chi- kwadrat poznamy na konkretnym przykładzie badań. Będą to badania nad związkiem między typem osobowości a preferowaną barwą. Tak, dobrze przeczytał_ś - barwa i osobowość.
Jak sądzisz - czy osoba, która szuka mniejszej społecznej stymulacji, która regeneruje się w samotności i jej poszukuje (mniej więcej to nazywamy introwersją) może mieć jakąś preferencję barw? Albo osoba, która wręcz przeciwnie - poszukuje innych ludzi, która nie znosi samotności również wybierałaby jakiś szczególny kolor? Być może intuicyjnie odpowiesz:"tak, różne typy osobowości preferują różne barwy". Czy czerwony kolor, który krzyczy:"Jestem tu! Zauważ mnie" może być równie często wybierany przez introwertyków jak kolor zielony, który przemawia spokojem? To jest sedno twierdzenia Fabera Birrena:"Introwertycy preferują zimne kolory (zielony, niebieski), a ekstrawertycy preferują ciepłe kolory (czerwony, żółty)."
O teście chi-kwadrat
FORMAT DANYCH — czyli założenia testu, jakie muszą być spełnione, aby można było zastosować test chi-kwadrat.
Najprościej rzecz ujmując: to muszą być dwie zmienne jakościowe. W typologii Stevensa zmiennym jakościowym odpowiadają dwie zmienne o najniższym typie pomiaru. Zgodnie z tym, to mogą być dwie zmienne nominalne, jak np. Płeć (mierzona w kategoriach: kobieta, mężczyzna, niebinarna) i przynależność do jednej z dwóch grup: eksperymentalnej i kontrolnej. To mogą być dwie zmienne o porządkowym typie pomiaru, np. poziom wykształcenia. To mogą być też mieszane typy pomiaru: jedna zmienna jest nominalna, a druga – porządkowa. Grunt, aby obie były spod znaku zmiennych jakościowych.
Pamiętaj, że wartości zmiennej nominalnej nie mają charakteru liczb rzeczywistych, tzn. nie można ustalić ani kolejności, ani wykonywać operacji algebraicznych (dodawać, mnożyć, itd.). Są zwykłymi znakami graficznymi - ich jedynym zadaniem jest przyporządkować obserwacje do jednej z kategorii. Wartości zmiennej porządkowej są nieco bardziej zaawansowane arytmetycznie. Jak sama nazwa wskazuje dają się porządkować - układać od najmniej do największej (lub na odwyrtkę). Ale to wszystko, co można z nimi zdziałać, ponieważ operacje dodawania i mnożenia są zablokowana. Na szczęście ten brak nie ma znaczenia, gdy stosujemy test chi-kwadrat, ponieważ wykorzystuje on liczebności. Czy liczba osób, które znajdują się łącznie w konkretnej kategorii każdej ze zmiennych, jest zgodna z oczekiwaną w tej kategorii liczbą osób? Ten test nie zadaje pytań o to, która kategoria charakteryzuje się większym nasileniem zmiennej.
TABELA KONTYNGENCJI - Do badania liczebności potrzebujemy tabelę kontyngencji, zwaną również tabelą krzyżową albo tabelą dwudzielczą. Taka tabela w zwarty sposób przedstawia współzależność między dwiema zmiennymi jakościowymi. Każda komórka tabeli zawiera liczbę jednostek, która zarówno jest w pewnej kategorii jednej zmiennej, jak i w jakiejś kategorii drugiej zmiennej - np. jest dziesięć (to ta liczebność) kobiet (zmienna Płeć), które posiadają kota (zmienna Posiadane zwierzę).
Rozmiar tabeli kontyngencji podaje się według przepisu rxc (liczba wierszy x liczba kolumn; r = row, c = column).
PRZYKŁAD: INTRO- i EKSTRAWERSJA A PREFEROWANA BARWA — Gdyby była pełna zależność między typem osobowości a preferowaną barwą, wówczas znając to, czy ktoś jest introwertykiem, czy ekstrawertykiem, moglibyśmy kupować mu farbę do ścian bez pytania, jaki kolor preferuje. Wiadomo byłoby, którą woli.
Jednak nie jest to takie proste. W praktyce zawsze zdarzy się introwertyk, który akurat lubi różowy i ekstrawertyk, który lubi lazurowy odcień niebieskiego, dlatego w omawianym badaniu układ liczebności jest następujący:
Wprawdzie jest równa liczba introwertyków i ekstrawertyków, ale różna między zimnolubnymi i ciepłolubnymi.
Na brzegach tabeli znajdują się liczebności zmiennej bez uwzględnienia obecności tej drugiej zmiennej, są to tzw. rozkłady brzegowe. Zupełnie tak, jakbyś zasłoniła (zasłonił) ręką prawie całą tabelę, zostawiając jedynie kategorie i liczebności pojedynczej zmiennej. Zapamiętaj tę nazwę (rozkłady brzegowe), ponieważ przyda się już za chwilę.
MECHANIZM TESTOWANIA STATYSTYCZNEGO — Będąc jednym z klasycznych testów statystycznych przeprowadzanych w paradygmacie NHST, test chi-kwadrat posiada charakterystyczny schemat przepływu danych. Przypomnijmy w skrócie ten schemat.
Punktem wyjścia - i okularami przez które patrzy się na cały proces - jest hipotezę zerowa o braku związku między zmiennymi. Ponieważ nie pracuje się na surowych danych, to w trakcie analiz są one przetwarzane przez maszynkę zwaną statystyką testową do pojedynczej liczby zwanej wartością statystyki testowej danego testu. Wartościami tejże statystyki rządzi rozkład zwany rozkładem statystyki testowej. To on stanowi podstawę dalszych obliczeń oraz wnioskowania. Obliczenia polegają na zadaniu pytania o to, jak typowa jest wartość uzyskanej statystyki testowej t a odpowiedź przychodzi w postaci p-wartości/istotności statystycznej. Na końcu, aby zabezpieczyć się przeciwko hurraoptymistycznym wnioskom wyciągniętym na podstawie istotności statystycznej, oblicza się miarę siłę zjawiska, tzw. wielkość efektu, którą w teście chi-kwadrat jest współczynnik phi (dla tabel 2x2) lub V Cramera. To jest szybki skrót z posta o mechanice klasycznych testów statystycznych. Zobaczmy teraz, jak test chi-kwadrat realizuje schemat klasycznego testu statystycznego.
HIPOTEZA ZEROWA w teście chi kwadrat mówi o niezależności dwóch zmiennych:
H0: dwie zmienne (jakościowe) są niezależne względem siebie.
Przypomnijmy, niezależność zmiennych oznacza, że mając informację o tym, w której kategorii jednej ze zmiennych znalazła się osoba badana, nie wiadomo o kategorii tej drugiej zmiennej. Wiedząc, że dana osoba jest ekstrawertykiem, nie wiem, czy preferuje kolor zimny czy ciepły. I w drugą stronę, znając preferencję kolorystyczną osoby, nie umiem wskazać, czy jest introwertykiem czy ekstrawertykiem.
Wróćmy na chwilę do tabeli kontyngencji. Hipoteza zerowa tworzy szczególną sytuację. Gdyby była ona prawdziwa – i dwie zmienne były niezależne – to powinniśmy zaobserwować zupełnie inny układ liczebności wewnątrz tabeli kontyngencji. Układ, który komunikowałby niezależność zmiennych Typ osobowości i preferencja barw. Układ, w którym liczebności ekstrawertyków i introwertyków preferujących kolory zimne powinny być takie same, jak liczebności ekstrawertyków i introwertyków preferujących kolory ciepłe.
Używając języka tabeli kontyngencji, jeśli zmienne są niezależne, to rozkłady brzegowe tabeli kontyngencji powinny odtwarzyć się wewnątrz niej.
W ten sposób powstała hipotetyczna tabela liczebności zmiennych Typ osobowości i Preferencja barwy, zwana tabelą liczebności oczekiwanych - oczekiwanych w sytuacji, w której te dwie zmienne są niezależne od siebie. Ta tabela (wraz z tabelą liczebności otrzymanych) stanie się podstawą dalszych obliczeń w teście chi-kwadrat.
Powiedzieliśmy, że weryfikacja hipotez nie polega na oglądaniu jedynie danych w próbie. Podczas testowania dane wędrują do czegoś, co nazywa się statystyką testową danego testu. To po prostu wzór, który przetwarza dane do pojedynczej liczby, zwanej wartością statystyki testowej, uwzględniając przy tym to, co postuluje hipoteza zerowa testu chi-kwadrat H0.
STATYSTYKA TESTOWA W TEŚCIE CHI-KWADRAT — Statystyka testowa w teście chi kwadrat bazuje na rozbieżności między otrzymaną tabelą kontyngencji a pewną hipotetyczną tabelą, która pokazuje spodziewane liczebności jak gdyby nie byłoby tej zależności. Dla każdej tabeli kontyngencji można stworzyć jej alternatywną wersję z liczebnościami sugerującymi brak związku.
Rozumowanie jest następujące – jeśli nie ma zależności między dwoma nominalnymi zmiennymi, to tabela kontyngencji reprezentująca liczebności powinna wyglądać tak, jak tabela po prawej stronie. Zauważ, że to tabela liczebności oczekiwanych w sytuacji, gdy hipoteza zerowa jest prawdziwa, czyli gdy nie ma zależności między zmiennymi.
Obliczanie, jakie liczebności powinny znaleźć się w każdej komórce tej tabeli jest niezwykle proste, a i tak robi to za nas program statystyczny.
W wyniku porównania dwóch tabel - otrzymanej i oczekiwanej - otrzymujemy pojedynczą liczbę. Mierzy onastopień rozbieżności między tabelą liczebności otrzymanych (lewa strona) z tabelą liczebności oczekiwanych (prawa strona).
Ta pojedyncza liczba to właśnie statystyka chi kwadrat. Jeśli przyjrzymy się wzorowi na statystykę chi-kwadrat (jeszcze nie został zamieszczony w poście), to zauważymy, że w liczniku znajduje się miara rozbieżność między tym, co spodziewane od tego, co otrzymano. Większy licznik to większa rozbieżność między liczebnościami spodziewanymi, a otrzymanymi.
A duża wartość chi-kwadrat to duża rozbieżność między tabelą z liczebnościami otrzymanymi a tabelą z liczebnościami oczekiwanymi. To sygnał, że tabela krzyżowa z liczebnościami, które pojawiły się w badaniu, bardzo różni się od hipotetycznej tabeli krzyżowej z liczebności wyliczonymi dla sytuacji, w której zmienne nie mają ze sobą nic wspólnego.
W każdym teście statystycznym, dane po przejściu przez statystykę testową są sprowadzone do pojedynczej liczby, zwaną statystyką testową, i to na jej podstawie odbywa się dalsze wnioskowanie – m.in. obliczanie p-wartości (zwanej też istotnością statystyczną). W teście chi-kwadrat statystyką testową jest właśnie statystyka chi-kwadrat.
W omawianym przykładzie wartość statystyki testowej chi-kwadrat wynosi χ2 = 26,29.
Ale na samym oglądaniu wartości statystyki testowej χ2 = 26,29 wnioskowanie statystyczne nie kończy się. Należy zadać sobie pytanie, jak często może taka wartość trafia się? Pamiętaj, że to pytanie o częstość pada w określonym kontekście - prawdziwości hipotezy zerowej. Innymi słowami, zadajemy następujące pytanie: czy gdyby nie było zależności między zmiennymi Typ osobowości a Preferowana barwa, to jak często badacz obserwowałby χ2 = 26,29?
I teraz potrzebujemy jakiegoś tła, jakichś innych wartości, które moglibyśmy zestawić z tą naszą i ocenić. Ponieważ dane są losowe (tj. nie jesteś w stanie przewidzieć tego, co otrzymasz w badaniu), to i wartość statystyki chi kwadrat jest losowa, różna w różnych badaniach. Mimo tego, daje się precyzyjnie określić częstość występowania poszczególnych wartości w tej szczególnej sytuacji, jaką jest sytuacja prawdziwości hipotezy zerowej. W poście o statystyce testowej dowiesz się, że ma ona rozkład, zarówno gdy hipoteza zerowa jest prawdziwa, jak i wówczas gdy hipoteza alternatywna jest prawdziwa.
Jeśli dwie zmienne są niezależne, to częściej powinny pojawiać mniejsze wartości statystyki testowej chi-kwadrat, pokazujące małą rozbieżność między tabelami - te bliższe zeru. Natomiast rzadziej będą występować te wartości statystyki, które sugerują ich dużą rozbieżność. Zatem, duża wartość statystyki chi kwadrat jest nietypowa - o ile zmienne są niezależne. To, co właśnie zostało opisane słowami, powinnien oddawać kształt krzywej rozkładu statystyki testowej.
ROZKŁAD STATYSTYKI TESTOWEJ to oczywiście wykres pokazujący to, jakie wartości statystyki testowej są częste, a jakie rzadkie - gdy nie ma zależności między zmiennymi. Zadajemy wówczas pytanie: jak typowa byłaby wartość statystyki testowej chi-kwadrat, gdyby zależności między zmiennymi nie było? Odpowiedź na to pytanie otrzymujemy w postaci p-wartości (ang. p-value) zwanej też istotnością statystyczną (ang. statistical significance).
Problem w tym, że kształt rozkładu statystyki testowej chi kwadrat zmienia się w zależności od wymiaru tabeli kontyngencji, czyli liczby wierszy i kolumn. Można powiedzieć, że rządzi nim liczba, którą można obliczyć w następujący sposób: (r-1) · (c-1). Jest to tzw. liczba stopni swobody (degrees of freedom). Niektóre rozkłady ją mają, inne - nie (np. rozkład normalny nie posiada liczby stopni swobody). Jest to taka liczba, która powoduje zmianę kształtu rozkładu. Zobacz:
Ten kształt rozkładu odpowiada tabelom 2x2, ponieważ wówczas df = (2-1)·(2-1) = 1.
Gdy tabela jest nieco większa, np. 3x4 (trzy wiersze, cztery kolumny) albo 4x3 (cztery wiersze, trzy kolumny), to rozkład ma trzy stopnie swobody i wygląda następująco:
Zauważ, że liczba osób badanych nie ma żadnego znaczenia – liczy się rozmiar tabeli. W tabeli 2x2, gdzie każda ze zmiennych ma po dwie kategorie, może być rozmieszczone 10 osób, 100 osób czy 1000 osób. Zupełnie inaczej jest w innych testach, gdzie liczba osób badanych ma duże znaczenie - takich jak test t-Studenta.
Dlaczego ten kształt rozkładu wartości statystyki testowej jest tak ważny? Bo powoduje, że przy tej samej wartości statystyki testowej można uzyskać inną istotność statystyczną.
Wracając do rozkładu wartości statystyki testowej, najczęściej będzie interesować nas prawa strona tego rozkładu – ta, która pokazuje duże wartości statystyki testowej chi-kwadrat. Po prawej stronie krzywa szybko opada ku osi OX. Ta własność odzwierciedla fakt, że jeśli tylko dwie zmienne nie są ze sobą związane, to duże wartości statystyki testowej są mało prawdopodobne.
P-wartość (istotność statystyczna) jest obliczana jako pole leżące na prawo od uzyskanej wartości statystyki testowej. W przykładzie wynosi ona p = 2,92 · 10-7. Jest to wynik istotny statystycznie. Gdyby chcieć zapisać tę p-wartość bez potęg liczby 10, wówczas p = 0,000 000292 (sześć zer po przecinku i dopiero 2). Z pewnością jest to wynik niższy niż 0,05 (pięć setnych).
WIELKOŚĆ EFEKTU Wielkość efektu phi φ albo V Cramera są miarami związku.
Zwróć uwagę na to, że statystyka chi-kwadrat mówi o rozbieżności między dwiema tabelami, zaś współczynnik phi φ oraz współczynnik V Cramera są miarami czegoś przeciwnego – zbieżności (związku) tych zmiennych. Gdy miara wynosi zero, wówczas nie ma związku między zmiennymi (nie dotyczy to współczynnika korelacji r Pearsona!). Im bliżej jedynki, to większa siła związku między zmiennymi.
I tu jest jeden drobny szczegół - istnieją dwa wzory na Współczynnik phi jest obliczany albo bezpośrednio ze statystyki testowej chi-kwadrat albo z liczebności. W SPSS zaimplementowano ten drugi, przez co współczynnik phi może przyjmować wartości ujemne – ale już nie V Cramera (ten jest zawsze dodatni).
Wybór miary siły związku zależy od rozmiaru tabeli. Dla bardzo małych tabel 2x2 odpowiednią miarą jest współczynnik phi. Jeśli tabela kontyngencji jest większa, to należy wybrać V Cramera.
Skoro wiemy już jakie wartości mogą przyjmować współczynniki, przejdźmy do progów wielkości efektu według Cohena, które pozwalają ocenić, czy związek jest mały czy duży.
- Kiedy wartość bezwzględna współczynnika phi lub V Cramera poniżej ,10, to mówimy, że siła związku między dwiema zmiennymi jest zaniedbywalna.
- Kiedy wartość bezwzględna współczynnika phi lub V Cramera od ,10 do ,30 to mówimy, że siła związku między dwiema zmiennymi jest mała.
- Kiedy wartość bezwzględna współczynnika phi lub V Cramera od ,30 do ,50 to mówimy, że siła związku między dwiema zmiennymi jest umiarkowana.
- Kiedy wartość bezwzględna współczynnika phi lub V Cramera sięga powyżej ,50 to mówimy, że siła związku między dwiema zmiennymi jest duża.
Przy czym rozmiarówka według Cohena to ostatnia deska ratunku, która pozwala się badaczom rozeznać w wielkości efektu, gdy prowadzą pionierskie badania.
PRZYKŁAD: TYP OSOBOWOŚCI A PREFEEeNCJA BARW — W omawianym przykładzie wartość współczynnika phi wynosi ,36. Zgodnie z powyższym systemem progów jest to kategoriach umiarkowanej siły zależności między typem osobowości a preferencją barw.
ZAPIS WYNIKÓW ANALIZ WG APA — Po wykonaniu analiz należy ich wyniki zapisać zgodnie z wybranym w danej dziedzinie systemem zapisu. W psychologii stosujemy zapis APA. Według niego powinniśmy wyniki testu chi-kwadrat umieścić w obrębie takiego formatu: χ2(df, N) = wartość statystyki testowej; p-wartość; φ. df to liczba stopni swobody, N to liczba osób badanych.
PRZYKŁAD: TYP OSOBOWOŚCI A PREFERENCJA BARW — W omawianym przykładzie zapis analiz powinien wyglądać następująco: χ2(1, N = 200) = 26,29; p < 0,001 (jednostronna, dokładna); φ = 0,36.
ANALIZA MOCY — Analizę mocy wykonujemy, gdzie chcemy dowiedzieć się, ile osób (ogólnie: jednostek badanych) należy zgromadzić, aby test miał odpowiednią moc (zwykle 80%). W tym celu ustala się kilka parametrów testu: poziom błędów I-go rodzaju, szukaną wielkość efektu i w efekcie program statystyczny jest w stanie wskazać potrzebną wielkość próby. Takie postępowanie wydaje się być bułką z masłem i działa dla testów parametrycznych, czyli takich, które żądają od danych konkretnego rozkładu (np. niech rozkład zmiennej będzie rozkładem normalnym).
Niestety, sprawy mają się inaczej, w przypadku testów nieparametrycznych, do których należy test chi-kwadrat. On nie nakazuje konkretnej postaci rozkładu zmiennych - te dwie zmienne, których niezależność bada, mają być jedynie jakościowe. Dla grupy testów nieparametrycznych analiza mocy jest bardziej skomplikowana i opiera się na symulacjach komputerowych. Dlatego pominiemy ją w tym poście (co oczywiście nie zrobi najlepiej wynikom).
PROBLEM Z TESTEM CHI-KWADRAT — Test chi-kwadrat jest testm badającym niezależność zmiennych. Leżąca u jego podstaw statystyka testowa chi-kwadrat jest statystyką mierzącą rozbieżność między tabelą krzyżową wypełnioną otrzymanymi liczebnościami a pewną hipotetyczną tabelą liczebności oczekiwanych w konkretnej sytuacji - gdy dwie zmienne są ze sobą niepowiązane. Ta statystyka jest wrażliwa na odchylenia od niezależności, ale nie odpowie, jak ta zależność wygląda. Aby odkryć wzorzec tej zależności, należy patrzeć bezpośrednio w dane (tu: tabelę kontyngencji). Jest to bardzo ważne, ponieważ zarówno dużą wartość statystyki testowej chi-kwadrat jak i istotność statystyczną pokażą dane, których kierunek zależności jest zgodny z kierunkiem wskazanym przez hipotezę badawczą, jak i dane, który kierunek zależności idzie w zupełnie w inną stronę.
Teraz zobaczymy, po pierwsze, jak wygląda tabela kontyngencji, gdy dane przeczą hipotezie badawczej – to introwertycy preferują ciepłe barwy, a ekstrawertycy – zimne. Po drugie - jak wyglądają wyniki testu chi-kwadrat. To pomoże utrwalić sobie nawyk zaglądania w próbę, zamiast jedynie oglądania wyników testu statystycznego.
Wynik testu chi-kwadrat będzie taki sam, jak dla danych, gdzie to introwertycy preferowali kolory zimne, a ekstrawertycy – kolory ciepłe, χ2(1, N = 200) = 26,29; p < 0,001; φ = 0,36. Statystyka testowa chi-kwadrat wynosi 29,26. Podobnie, jak bezwzględna wartość współczynnika phi: ,36. Jedynie znak minus mógłby zasugerować, że powinniśmy się przyjrzeć tabeli. Gdybyśmy jednak mieli dane zorganizowane w tabeli o co najmniej trzech wierszach (lub trzech kolumnach), wówczas należałoby obejrzeć współczynnik V Cramera, a on przyjmuje wartości dodatnie (i nie ma bezpiecznika jak w przypadku współczynnika phi).
Zatem, kiedy ucieszysz się z istotnego statystycznie wyniku (choć to dopiero połowa sukcesu publikacyjnego), musisz spojrzeć w dane. Dopiero wówczas, gdy obejrzysz liczebności w tabeli krzyżowej, będziesz wiedzieć, czy zależność jest taka, jaką przewidujesz.
Brak komentarzy:
Prześlij komentarz