Mechanika testów klasycznych

JEDNA STRUKTURA, WIELE TESTÓW — Klasycznych testów statystycznych jest bardzo dużo - wystarczy, że zajrzysz do działu metody 1.0 i metody 2.0. A to tylko drobna część. Dobra wiadomość jest taka, że jeśli widziałeś jeden test, to tak jakbyś widział je wszystkie. Choć różne testy służą różnym scenariuszom badawczym (korelacja, porównania, etc.) to to, co je łączy to wspólna struktura. Proces testowania hipotez statystycznych jest taki sam dla większości, jeśli nie wszystkich testów.

ETAPY TESTOWANIA — Można wyróżnić kilka etapów. Zacznijmy od tego, że dane trzeba obejrzeć, aby wiedzieć, czy można zastanowić odpowiedni test. Ten etap to sprawdzanie założeń. Jeśli masz dwie zmienne mierzone na skali nominalnej KLIK, to raczej nie zrobisz testu t-Studenta. Trzeba także sprawdzić, czy rozkłady wyników są odpowiednie do zastosowania konkretnego testu - na przykład test t-Studenta bardzo lubi symetryczne, jednogarbne rozkłady.

STATYSTYKA TESTOWA — Gdy wiemy, że format danych jest odpowiedni do przeprowadzenia pożądanego testu, to dane wkładamy do maszynki zwanej statystyką testową KLIK. Poważnie to brzmi, lecz na papierze jest to po prostu tylko wzór, którzy przetwarza zebrane wyniki oraz hipotezę zerową do jednej liczby, zwanej wartością statystyki testowej.

ROZKŁAD STATYSTYKI TESTOWEJ — Wartości statystyki testowej są różne w zależności od zebranych danych. Pięciu różnych badaczy uzyska pięć różnych wartości statystyki testowej. Jedne z nich są częstsze, inne - rzadsze. Po matematycznemu mówiąc, zarówno cecha, jak i statystyka testowa ma swój rozkład KLIK.

P-WARTOŚĆ — Skupmy się na jednym z pięciorga badaczy - co jeden z nich zrobi z otrzymaną wartością statystyki testowej? Oceni ją pod kątem typowości, obliczając tzw. p-wartość (wartości p, p-value) KLIK. Będzie mógł powiedzieć, czy wynik jest istotny lub nieistotny statystycznie.

WIELKOŚĆ EFEKTU — Badacze są zainteresowani nie tylko istotnością statystyczną, ale tym, czy wynik badania jest naprawdę istotny w rzeczywistości. Czy różnica między grupą kontrolną a grupą eksperymentalną mimo tego, że ma trzy gwiazdki, jest znacząca klinicznie a lek przynosi oczekiwany skutek? O znaczeniu badania świadczy narzędzie zwane wielkością efektu KLIK.

ANALIZA MOCY —Obok tego wszystkiego potrzebujemy odpowiedzieć na dwa pytania. Po pierwsze: czy test miał szansę wykryć zjawisko, jeśli ono naprawdę istnieje w rzeczywistości. Po drugie: ile osób powinno się przebadać? Do obu tych celów służy tzw. analiza mocy, wykorzystująca pojęcia błędów I-go i II-go rodzaju KLIK. Dwa ostatnie punkty: wielkość efektu i analiza mocy to nowe standardy prowadzenia analiz. Same techniki istniały już wcześniej. Mocy testu statystycznego zaczęto używać w latach 30-tych XX wieku, a wielkość efektu - w latach 60-tych. Sporo czasu musiało jednak upłynąć zanim weszły do mainstreamowego analizowania danych.

Powyżej zarysowałam Tobie ogólną strukturę testów statystycznych. Od założeń, poprzez statystykę testową i p-wartość, aż do wielkości efektu i analizy mocy. Te pojęcia będą przewijać się i przewijać. Teraz możesz przejść do najczęściej stosowanego sposobu weryfikacji hipotez statystycznych, czyli tzw. procedury testowania istotności statystycznej hipotezy zerowej NHST, KLIK.

Brak komentarzy: