Statystyka w psychologii: Statystyka testowa i jej rozkład

Wróżka, którą odwiedzasz, ma następującą procedurę przewidywania przyszłych zdarzeń: wykłada karty na stolik, po czym przygląda się im uważnie wzdłuż i wszerz, analizując układ, kolejność pojawienia się, to, co dana karta przedstawia, oraz to, w jaką stronę patrzy znajdująca się na niej postać. Statystyk tak nie może zrobić. Nikt nie patrzy gołym okiem na dane po to, aby jakoś wyciągnąć wnioski. W wielu badaniach zresztą taką bazę danych trudno byłoby objąć wzrokiem nawet po wydrukowaniu. A i po wydrukowaniu zajęłaby pole golfowe.

CO ROBIĄ TESTY STATYSTYCZNE? — Wnioskowanie statystyczne wymaga przetworzenia danych. Skrócenia ich, wyciśnięcia esencji i odrzucenia szypułek. W klasycznych testach statystycznych dane sprowadza się zwykle do jednej liczby. Test statystyczny to kolejna maszynka mieląca dane. Jedną już poznałeś w poście o estymatorze KLIK. Ta będzie wyglądała podobnie z tą różnicą, że tutaj do górnego kotła wkładamy nie tylko dane, a hipotezę zerową.

IDEA TESTÓW — Statystyka zajmuje się zjawiskami, które wykazują zmienność. Cechy psychologiczne są świetnym przykładem zjawiska, które różnicuje ludzi. Mamy różne poziomy samooceny, prężność, czas reakcji na bodziec w teście Stroopa. Różni ludzie uzyskują różne wyniki. Nie ma dwóch tych samych prób. Ta zmienność powoduje również to, że wskaźniki policzone dla tych prób, będą różne. Załóżmy, że dwóch badaczy A i B bada tę samą cechę. Badacz A ma zbiór wyników osób badanych, Badacz B ma zbiór wyników osób badanych, ale estymatory obliczone na ich danych wychodzą różne. Średnia jest przykładem estymatora i najprawdopodobniej średnie będą różnić się. Podobnie zachowują się statystyki testowe - dla różnych prób badacz bedzie otrzymywać różne liczby, czyli różne wartości statystyki testowej. Zmienność tych wyników leży u podstaw działania testów statystycznych.

Dalej robi się ze statystyką testową coś, czego nie robi się z estymatorem. Zanim jednak o tym powiem, obejrzyjmy sobie statystykę testową. Skończyliśmy na tym, że dla różnych prób statystyka testowa daje różne wyniki. Inaczej mówiąc, dwóch badaczy uzyska dwie różne wartości statystyki testowej. A zatem - zmienność. Jeśli jakieś zjawisko wykazuje zmienność, to można badać szanse występowania poszczególnych wartości. Profesjonalnie rzecz biorąc - można zapytać o rozkład tych wartości statystyki testowej. Jedne wyniki będą zdarzać się częściej, inne rzadziej.

ROZKŁAD STATYSTYKI TESTOWEJ DLA HIPOTEZY ZEROWEJ I ALTERNATYWNEJ — A teraz najważniejsza rzecz. Do maszynki statystyki testowej możemy włożyć albo zawartość hipotezy zerowej - albo alternatywnej. Na rysunku akurat jest hipoteza zerowa. Wówczas taki rozkład będzie nazywany rozkładem (wartości) statystyki testowej dla hipotezy zerowej. Jeśli jednak do drugiego kotła wstawimy hipotezę alternatywną, to taki rozkład będzie nazywany rozkładem (wartości) statystyki testowej dla hipotezy alternatywnej. Krótko mówiąc: jeden wzór, ale dwa rozkłady.

Najłatwiej będzie mi wyjaśnić sens tego wszystkiego na przykłądzie tego pierwszego - rozkładu statystyki testowej dla hipotezy zerowej. Niektórzy piszą, że jest to: "rozkład statystyki testowej, gdy hipoteza zerowa jest prawdziwa" albo "w warunkach prawdziwości hipotezy zerowej". To zwyczajne synonimy.

ROZKŁAD STATYSTYKI TESTOWEJ DLA HIPOTEZY ZEROWEJ — Rozkład statystyki testowej to typowy rozkład. Służy do oceny tego, jak typowa jest wartość statystyki testowej. Jeśli jest bliżej szczytu, to jest bardziej typowa. W miarę oddalania się od szczytu w kierunku tzw. ogonów rozkładu, pojawiają się coraz to rzadsze okazy statystyki testowej. Zgodnie ze zwyczajem, przyjmuje się, że jeśli będą znajdować się poza umownym szlabanem to wówczas są to dość ekstremalne wartości. Wartość statystyki testowej dla Twojego zbioru danych leży gdzieś wzdłuż poziomej osi, na której ułożone są wartości. To, co dalej się robi jest pomalowanie powierzchni pod krzywą na prawo od Twojej wartości.

Jeśli pamiętasz post o rozkładzie KLIK, to wiesz, że do pomalowania całej powierzchni pod krzywą rozkładu potrzeba jednego kubełka farby. Matematycy nazywają to całką pod krzywą i dla całego rozkładu wynosi jeden. To jest matematycznym językiem powiedziane, że suma wszystkich szans nie może przekraczać 100 %. Ale zawsze można uszczknąć mniej niż sto procent. Przy końcu rozkładu znajdują się takie wartości statystyki testowej, dla których nie trzeba całego kubła - wystarczy szklanka albo może naparstek. A po matematycznemu ta szklanka czy naparstek nazywa się p-wartość. Teraz mogę napisać bardzo profesjonalnie: Pole pod powierzchnią krzywej rozkładu statystyki testowej na prawo od otrzymanej wartości statystyki testowej to właśnie p-wartość KLIK.

PRZYKŁAD DZIAŁANIA STATYSTYKI TESTOWEJ — Do każdego schematu badawczego można dopasować test statystyczny. Dla ułatwienia rachunków, weźmy najprostszy przykład. Badacz chciałby sprawdzić, czy wśród nauczycieli akademickich średni poziom ciśnienia krwi jest taki, jak książkowy 120/80 mmHg. To jest to ciśnienie krwi, które mierzysz owijając pasem ściskającym przedramię. Ten wskaźnik składa się z dwóch części: jedna odpowiada za ciśnienie skurczowe (120) a druga za ciśnienie rozkurczu (80).

Po przeprowadzeniu badania, w bazie danych masz jedną kolumnę z danymi. Jedna próba, jedna średnia. W takim przypadku aż prosi się o hipotezę zerową postaci H₀: μ = 120. Do maszynki statystyki testowej włożymy: średnią arytmetyczną wyników w zebranej przez badacza próbie, odchylenie standardowe, liczbę obserwacji. Hipoteza zerowa tejże postaci H₀: μ = 0 jest to hipoteza zerowa jednopróbowego testu t-Studenta, a pasująca do niej statystyka testowa ma wzór:

Jeśli średnia w naszej próbie wyniosła x̄ = 120,29 z odchyleniem standardowym s równym 1,29 a łącznie przebadano n = 10 osób, to po włożeniu tych danych do maszynki mamy:

Po użyciu wzoru okazało się, że otrzymaliśmy pojedynczą liczbę 0,49. Te 0,49 jest tzw. wartością statystyki testowej otrzymaną w badaniu. Co jeszcze można byłoby z nią zrobić? Można byłoby sprawdzić, szansę otrzymania tej wartości - i jeszcze wyższej, np. o,49 oraz 0,99 oraz 1,83 itd. Będzie to takie zbiorcze prawdopodobieństwo wielu innych wartości, które są większe od tej naszej. To jest właśnie p-wartość. P-wartość to szansa otrzymania naszej wartości statystyki testowej i wyższej.

To właśnie tę liczbę oceniamy pod kątem typowości - to z jej pomocą liczymy p-wartość. Robiąc duży skrót z posta o p-wartości KLIK, jest to prawdopodobieństwo otrzymania 0,49 lub większej od 0,49. I to tę wartość oceniamy jako istotną czy nieistotną statystycznie.

STATYSTYKA TESTOWA A STATYSTYKA OPISOWA — Kiedy zajrzysz do spisu treści, zobaczysz dział zatytułowany Podstawowa statystyka opisowa. I tu, i tu jest użyta Można powiedzieć, że statystyka testowa i statystyka opisowa to imienniczki. Noszą tę samą nazwę, oznaczają co innego. Statystyka testowa jest obliczana na podstawie próby z uwzględnieniem hipotezy zerowej. Statystyka opisowa jest obliczana na podstawie tylko i wyłącznie próby. Obok tego, statystyka opisowa to po prostu estymator. Przyjrzyj się poniższemu rysunkowi. Po lewej stronie znajduje się mechanizm statystyki testowej, a po prawej - dowolnego estymatora, jaką jest statystyka opisowa.

Zgodnie z mechanizmem po lewej stronie działają statystyki testowe, np. statystyka testowa w teście t-Studenta. Pochłaniają i próbę, i hipotezę zerową. Statystyki opisowe działają zgodnie z mechanizmem po prawej stronie. Średnia, mediana czy odchylenie standardowe pochłaniają jedynie Twoje obserwacje do wyliczenia wartości estymatora - czy ogólnie: sta. Do wzoru na średnią arytmetyczną potrzebujesz jedynie wyników osób badanych, aby ją policzyć. Nie dodajesz żadnej innej wartości średniego poziomu w populacji.

Strony

Statystyka testowa i jej rozkład

Brak komentarzy:

Mechanika testów klasycznych

Ważne

Łączna liczba wyświetleń