poniedziałek, 2 kwietnia 2018

Prima Aprilis 2018

Cześć, dzień dobry, witajcie!

Z okazji nieco już nieświeżego pierwszego kwietnia (Prima Aprilis) wygrzebałam dla Was kilka czerstwych dowcipów o statystyce - do poczytania, zanim zaczniecie uczyć się i aby wzbudzić motywację ;-)


1. Z podręczników do statystyki wynika, że 30 to nieskończoność.

2. Statystyka odgrywa ważną rolę w genetyce. Na przykład dowodzi, że liczba potomstwa jest cechą dziedziczną. Jeśli twój rodzic nie miał dzieci, to są szanse na to, że Ty też nie będziesz.

3. Statystykowi urodziły się bliźniaki. Zadzwonił do księdza, który od razu chciał umówić dzień chrztu - 'Przynieś je do kościoła w niedzielę, to je ochrzczę'. 'Nie' - odpowiada statystyk - 'do ochrzczenia przyniosę jednego z nich, a drugi będzie grupą kontrolną'.

4. Jak wielu statystyków jest potrzebnych do wykręcenia żarówki? Między 5 a 7, p< 0.005.

5. Średnio rzecz ujmując, każdy z nas ma po jednej piersi i jednym jądrze.

środa, 21 lutego 2018

EFA i PCA

Opis próby czy testowanie hipotez to nie są jedyne zadania rozwiązywane za pomocą narzędzi statystycznych. Dzięki nim duży zbiór cech można spróbować sprowadzić do mniejszego. Można również pokusić się o sprawdzenie, czy istnieje zestaw ukrytych cech, który generuje otrzymany zbiór danych (zwykle: odpowiedzi w kwestionariuszu). Redukcja da-
nych oraz odkrywanie struktury zmiennych to dwie kolejne obszary zastosowań statystyki. Poniższy materiał zawiera wprowadzenie do analizy czynnikowej oraz rozszerzenie materiału o analizie składowych głównych (wprowadzenie do PCA znajduje się tutaj pca).

Zanim przejdziemy do głównego tematu, chciałam nawiązać do kilka pojęć, które będą potrzebne do omówienia trudniejszych zagadnień. Oto ich lista:
• zmienność
• kombinacja liniowa
• macierz korelacji i jej dekompozycja według wartości własnych


Zmienność.
Zmienność można rozumieć tak jak to słowo brzmi - chodzi o zróżnicowanie wartości, które może przyjąć zmienna losowa - różnimy się między sobą na wielu, wielu wymiarach, nie tylko wzrostem i wagą, ale całym zbiorem zjawisk psychicznych. W tym materiale będę pisać zmienne losowe, mając na myśli typowo psychologiczne pojęcia: albo po prostu cechy, albo - bardziej metodologicznie namacalnie - itemy, czyli pozycje testowe. Zmienne losowe mogą być też stałe - to znaczy przyjmować te same wartości dla różnych obserwacji, w myśl zasady - każdemu po równo (lewa część poniższego rysunku). Oczywiście, taka cecha, która ma stałą wartość niezależnie od osoby badanej jest nieinteresująca i zarazem mało informatywna - nie niesie w sobie za wiele informacji. Taki item także jest nieinteresujący, jeśli wszyscy odpowiedzą tak samo. Dodatkowo, może również prowadzić do kłopotów w analizach.

Rys. Stałość i zmienność zmiennych losowych (LJK)

Zmienność zmiennej X można opisywać za pomocą różnych wskaźników (zwanych statystykami, zwłaszcza gdy mają pożądane właściwości) np. rozstęp, czyli różnica między największą a najmniejszą wartością albo rozstęp międzykwartylowy. Spośród nich wszystkich najbardziej popularną jest wariancja, var(X). O innych pisałam tu:klik.

W tym miejscu, chciałabym napisać o dwóch pojęciach: zmienności wspólnej i swoistej, mimo że jeszcze nie wprowadziłam pojęcia ’czynnik’, dlatego proszę Czytelnika o cierpliwość.
Mamy zbiór danych. W zbiorze danych są zarówno obserwacje (zwykle w wierszach) i zmienne (zwykle w kolumnach). Zmienność danej zmiennej X wyrażona przez wariancję var(X) można rozłożyć na zmienność wspólną i zmienność swoistą. Zmienność wspólna jest to ta część, która jest wyjaśniona przez (ukryte) czynniki.

Zmienność swoista jest właściwa tylko danej zmiennej. Zapisując to równaniem:
wariancja zmiennej X = wariancja wspólna + wariancja swoista
Matematycznie powyższy zapis przełożę na:
varX = h2i + u2i
gdzie h2i i - wariancja wspólna (zwana też ’zasobami wspólnymi’, communalities) wyjaśniona przez czynniki ukryte, ui - wariancja swoista charakterystyczna tylko dla tej konkretnej zmiennej w zebranej bazie obserwacji.

Kombinacja liniowa.
Kombinacja liniowa ma ścisłą definicją w języku matematycznym, natomiast ja chciałabym wprowadzić pojęcie kombinacji liniowej przez podanie przykładu. Liceum MMXL wprowadziło ocenę osiągnięć ucznia na podstawie trzech typów ocen cząstkowych: wyniki w naukach przyrodniczo-technicznych (matematyka, fizyka, chemia), wyniki w naukach humanistycznych (język polski, język angielski, historia) oraz wyniki sportowe.

Zbiorcza ocena Osiągniecia szkolne liczona jest w następujący sposób:
OS = 6 · Wyniki w naukach przyrodniczo − technicznych +
5 · Wyniki w naukach humanistycznych + 4 · Wyniki Sportowe
Osiągnięcia Szkolne są zatem sumą poszczególnych ocen cząstkowych z odpowiednimi wagami - najbardziej liczą się nauki ścisłe, najmniej punktów uczeń zdobywa za w-f. Przemnożenie zmiennych przez liczby oraz zsumowanie daje jedną zmienną, OS. Można zatem powiedzieć, że Osiągnięcia Szkolne są kombinacją liniową trzech typów ocen: Wyników w naukach przyrodniczo-technicznych, humanistycznych i sportowych. Kombinacją - ponieważ kombinują, czyli łączą trzy wskaźniki i robi się jeden, Osiągnięcia Szkolne. Na dodatek, żadna z cząstkowych ocen nie jest podnoszona do kwadratu czy pierwiastkowana - jest jedynie przemnożona przez konkretną liczbę (stąd jest to kombinacja liniowa, a nie np. kwadratowa).

Macierz korelacji i jej dekompozycja według wartości własnych, które są wielkościami wariancji czynnika. Teraz powyższe zdanie nie ma większego sensu, więc zacznijmy od początku: zmienność jednej zmiennej opisywana jest za pomocą wariancji, var(X). Dalej, współzmienność dwóch zmiennych X oraz Y można przedstawić za pomocą korelacji, cor(X, Y). Jeśli mamy więcej niż dwie zmienne, współzmienność wszystkich możliwych par zmiennych możemy przedstawić w postaci tablicy, o której profesjonalnie mówi się macierz. To właśnie macierz korelacji stanowi centrum zainteresowania zarówno analizy czynnikowej, jak i analizy składowych głównych. Poznajmy trochę nowe pojęcie.
Dla trzech zmiennych X1, X2, X3 macierz korelacji wygląda następująco:



Wartości w powyższej macierzy zaznaczone zielonym kolorem znajdują się na głównej przekątnej macierzy. Każda macierz ma główną przekątną. Część macierzy jest względem niej symetryczna, tj. wartości pod główną przekątną są odbite nad główną przekątną (ona zachowuje się jak lustro). Jedną z macierzy symetrycznych jest macierz korelacji, bo przecież korelacja X1 i X2 jest taka sama jak korelacja X2 i X1 - kolejność nie ma znaczenia.
W macierzy korelacji na głównej przekątnej figurują wariancje poszczególnych zmierzonych zmiennnych:
var(X1), var(X2), var(X3)
Tak wygląda pełna macierz korelacji. Gdyby zamiast wariancji zmiennych, na przekątnej znalazłby się tylko wariancje wspólne hi2 (patrz wyżej), to taka macierz ze zmienioną główną przekątną byłaby zredukowaną macierzą korelacji. Dlaczego o tym piszę? Bo pełną macierzą korelacji zajmuje się analiza składowych głównych, a zredukowaną macierzą korelacji zajmuje się analiza czynnikowa - to jest podstawowa różnica między tymi dwoma technikami statystycznymi. Ma to ogromne konsekwencje w interpretacji wyników i dlatego nie wolno tego mieszać.

Jeszcze chwilę popatrzymy na macierze.
Dla n zmiennych X1 , X2 , ... , Xn , gdzie n jest dowolną liczbą, np. 563. Macierz korelacji jest odpowiednio większa:



Macierz jednostkowa - to macierz, która ma przekątnej (głównej) jedynki, a w pozostałych miejscach zera:



Zmienne latentne
Co to są zmienne latentne (zmienne ukryte, a tutaj: czynniki)? Najprościej rzecz ujmując, są to zmienne których nie da się bezpośrednio zaobserwować. Możemy badać czas reakcji, który jest pewnym wskaźnikiem stanów czy cech psychicznych. Możemy sprawdzać, czy dana osoba jest towarzyska, nie-małomówna, ale nie wyjmiemy termometru, żeby zbadać jej ekstrawersję. My możemy najczęściej badać przejawy ukrytych cech - inteligencji, cech osobowości, itp. Aby odkryć te ukryte zmienne należy zająć się dwoma matematycznymi obiektami związanymi z macierzami.
Są to: wartości własne oraz wektory własne - występują one parami: każdej wartości własnej przyporządkowany jest wektor własny. W zasadzie, to najbardziej interesujące są wartości własne - z jednej strony można o nich myśleć, jako liczbach, które charakteryzują macierz: są jakby jej liniami papilarnymi. Ma to przełożenie na praktykę, bo wartość własna jest równa wariancji czynnika. Z kolei nam zależy na czynnikach o jak największych wartościach własnych, bo wówczas czynniki te zawierają jak najwięcej wariancji z oryginalnego zbioru danych.

EFA i PCA
Analiz dokonuje się nie tylko po to, aby opisywać próbę, ale także, aby wykryć strukturę danych (odkryć procesy stojące za danymi) lub zredukować je do mniejszego rozmiaru. EFA (Exploratory Factor Analysis) jest przykładem modelu wspólnego czynnika, zakładającego, że za zbiorem zmierzonych zmiennych kryją się wyjaśniające ich zmienność czynniki wspólne i czynniki specyficzne (swoiste) - patrz wyżej. Czynniki wspólne są nieobserwowalnymi zmiennymi, które mogą mieć wpływ na więcej niż jedną zmienną obserwowalną X. Czynnik specyficzny (swoisty, unikalny, unique) jest właściwy tylko dla danej zmiennej X. Posługując się terminem ’kombinacje liniowe’ - każda zmierzona zmienna jest liniową kombinacją jednego lub więcej wspólnych czynników i jednego unikalnego (specyficznego) czynnika. I w drugą stronę, czynnik można przedstawić w postaci kombinacji liniowej oryginalnych zmiennych obserwowalnych i spojrzeć na niego z nieco bardziej ogólnego punktu widzenia, a także nadać abstrakcyjną nazwę.
Natomiast PCA jest metodą redukcją danych bez rozdzielania na wariancję wspólną i swoistą. Dla przykładu: zbiór dziesięciu oryginalnych zmiennych można sprowadzić do zbioru czterech nowych zmiennych, zachowując możliwie najwięcej informacji (czyli jak największą zmienność oryginalnych zmiennych, bo w gruncie rzeczy to jest ta ’informacja’). Z tego względu, celem PCA jest przedstawić oryginalne zmienne obserwowalne za pomocą liniowych kombinacji składowych, tak jakby spakować je do mniejszych zmiennych. Analiza czynnikowa oraz redukcja danych są stosowane gdy zmienne obserwowane traktujemy jako ciągłe i gdy oczekujemy ciągłych zmiennych ukrytych (to ustalasz Ty, drogi badaczu).
Poniżej znajduje się ogólny opis obu technik wraz z towarzyszącym zbiorem różnych statystyk, wspomagających badacza.
Podczas realizacji zadania EFA czy PCA, często posiłkujemy się różnymi regułami kciuka, które pomagają odpowiedzieć na pytania, przed którymi stoi badacz: jak określić liczbę czynników, ile zmiennych należy wybrać do analiz, jak ocenić wyniki etc. Mimo wszystko, reguły kciuka pozostają heurystycznymi regułami - w większości przypadków działają, ale nigdy nie jesteśmy pewni, czy nasz przypadek jest we właściwej kategorii. A ponieważ nie są udowodnionymi matematycznie zasadami, to zdania są podzielone i można spotkać różne opinie. O niektórych regułach kciuka napisałam. Dodatkowo, nie napisałam również o wszystkich możliwych statystykach wykorzystywanych w analizie - powodem takiej decyzji jest to, że jest ich bardzo dużo, a mi zależało na przed stawieniu sedna problemu EFA i PCA, zamiast tworzeniu poradnika parametrów.

Różnica między PCA a EFA
Podstawowa różnica między EFA a PCA tkwi (dosłownie) w przedmiocie analiz. PCA ’trawi’ pełną macierz korelacji, z kolei EFA zmaga się ze zredukowaną macierzą korelacji - zredukowaną o wariancję swoistą poszczególnych zmiennych obserwowalnych. EFA szuka struktury ukrytych zmiennych nieobciążonych wariancją swoistą, a PCA jest metodą redukcji danych do mniejszego rozmiaru bez rozróżnienia na rodzaje wariancji. Różnica znajduje odbicie w nomenklaturze - EFA tworzy czynniki (ukryte), a PCA - składowe (główne).

Różnice przedstawione matematycznie
PCA - Principal Components Analysis Analiza Składowych Głównych - oryginalne zmienne obserwowalne w
bazie można przedstawić w postaci kombinacji liniowych składowych:
Z = A · G
A - macierz ładunków
G - macierz składowych głównych
FA - Factor analysis Analiza czynnikowa - oryginalne zmienne obserwowalne w bazie można przedstawić w
postaci kombinacji liniowych czynników ukrytych oraz specyficznych:
Z = A · F + B · U
A - macierz ładunków
F - macierz czynników wspólnych
B - macierz ładunków specyficznych
U - macierz czynników specyficznych
Nawet jeśli te powyższe równania niewiele mówią, to z samego porównania prawych stron tych równań, widać że w pierwszym przypadku zmienność zmiennych obserwowalnych Z jest przedstawiona jako przemnożenie dwóch bytów A oraz G, a w drugim przypadku jest jeszcze coś dodanego - chodzi o to, że zmienność Z rozłożono na część wspólną i część specyficzną, tak że przedmiotem analiz stała się zredukowana macierz korelacji (to jest w dużym uproszczeniu).

Zmienne w modelu
Kluczową dla analizy czynnikowej jest decyzja o tym, które zmienne obserwowalne z bazy włączyć do modelu - to na przykład są itemy w kwestionariuszu. Odpowiedź na pytanie, jakie zmienne powinny wejść do analiz, ma daleko idące konsekwencje. Może się zdarzyć, że w wyniku wybrania nieoptymalnego zbioru zmiennych otrzymamy wyniki, delikatnie rzecz ujmując, trudne do zinterpretowania. Chodzi o stabilność algorytmów, dzięki którym otrzymujemy ’cyferki’ - źle się zachowują, jeśli mamy zmienne, które nie wnoszą żadnej informacji, np. wartości takiego itemu są te same: wszyscy odpowiedzieli nie wiem. Zaciemniać analizy mogą między innymi te zmienne (itemy), które niosą małą ilość informacji lub nie korelują między sobą. Dobrze byłoby, aby na jeden ukryty czynnik przypadało 3 lub 4 zmienne obserwowalne (albo itemy).

Statystyką wspierającą podjęcie decyzji dotyczącej zmiennych w modelu jest ZZW, Zasób Zmienności Wspólnej lub krócej: zasoby wspólne. Jest to ilość wariancji danej zmiennej obserwowalnej X, która może zostać wyjaśniona przez wybraną przez użytkowaną lub sugerowaną przez teorię liczbę czynników. Ze względu na to, że PCA operuje pełną macierzą wariancji-kowariancji, początkowy (przed uzyskiwaniem/ekstrahowaniem składowych) zasób zmienności wspólnej wynosi 1. Za to EFA korzysta ze zredukowanej macierzy korelacji i statystyki ZZW (podczas analizy czynnikowej) dla każdej zmiennej będą różne od 1. Początkowy ZZW danej zmiennej (itemu; pytania w kwestionariuszu) przed wyodrębnieniem oznacza ilość wariancji tej zmiennej wyjaśnionej przez wszystkie czynniki (albo składowe, jeśli PCA). ZZW po wyodrębnieniu oznacza ilość wariancji wyjaśnionej przez czynniki, które ostatecznie wzięły udział w danym rozwiązaniu.

Wielkość próby - Nie ma jednoznacznych wskazań. Co gorsza, nie ma też zbieżnych zdań na ten temat. W przypadku, gdy zmienne posiadają duże zasoby wspólne (ZZW, więcej: wyżej), to wystarczy około 100 elementów. Przy małych zasobach wspólnych nawet 200 czy 300 nie wystarczy. Obok wielkości próby istotnym elementem jest jakość tej próby - próba niezbyt homogeniczna (jednorodna) w badaniu może również spowodować problemy. Najlepiej jest badać różne osoby (nie tylko studentów pierwszego roku psychologii).

Ilość czynników
Aby określić liczbę czynników do dyspozycji dwa sposoby. Po pierwsze: teoria, która pozwala spodziewać się, ile czynników ukrytych występuje, np. model Wielkiej Piątki zaskakująco zakłada pięć czynników. Drugim sposobem jest wykorzystać dostępne wskaźniki, które pozwolą podjąć decyzję. Podstawowym narzędziem jest wykres osypiska (ang. scree plot), który prezentuje uszeregowane wartości własne od największej do najmniejszej. Wykres ten wypłaszcza się od pewnej wartości - przyjmuje się, że jest to punkt odcięcia liczby czynników.
Inne kryterium - kryterium Kaizera - pozwala wskazać ilość czynników na podstawie wartości własnych. Ta reguła kciuka mówi, że liczba czynników zależy od liczby wartości własne większych od jednego (1).
Poniżej znajduje się wykres osypiska (przykładowy).

Rys. Wykres osypiska dla EFA i dla PCA (LJK).

To są w zasadzie dwa nałożone na siebie wykresy osypiska - jeden, ten z czarnymi kropkami, to wykres osypiska dla analizy składowych głównych (PCA). Drugi, z kropkami o pustym środku, to wykres osypiska dla analizy czynnikowej. Dlaczego one się nie pokrywają? Tak jak już pisałam, pierwsza technika, PCA, operuje na pełnej macierzy korelacji między zmiennymi. Druga technika, FA, bazuje na zredukowanej macierzy korelacji. Stąd też obliczenia w obu technikach będą różne

Ekstrakcja czynnika
Algorytmy zaimplementowane w programie statystycznym pozwalają na wyodrębnianie (ekstrakcję) czynników za pomocą kilku metod. Są to np.: metoda największej wiarygodności, która zakłada wielowymiarowy rozkład normalny zmiennych obserwowalnych X. Cóż, po pierwsze - większość zmiennych nie ma takiego rozkładu, a po drugie - normalność rozkładu poszczególnych zmiennych nie gwarantuje normalności wspólnego rozkładu: To, że każdy z osobna item ma rozkład normalny, nie znaczy jeszcze, że wszystkie w kupie mają wielowymiarowy rozkład normalny (to nie jest oczywiste).
Metodą, która radzi sobie z powyższym problemem, jest metoda osi głównych (principal axis) - ta metoda nie wymaga normalności rozkładu, więc jest ’bezpieczniejsza’. Mimo tego, dobrze byłoby przejrzeć zmienne pod kątem występowania wartości odstających, tzw. outlierów. Zawsze przed analizami zrób tzw. data screening, pooglądaj te dane.

Ładunki czynników.
Skoro każda zmienna obserwowalna jest kombinacją liniową czynników wspólnych, to można ją przedstawić w taki sposób:
X = a · F1 + b · F2 + ... + k · Fk
gdzie F1 , F2 , ... , Fk symbolizują ukryte czynniki, a X to zmienna obserwowalna. Liczby a, b, ... k, przez które przemnażane są czynniki to są właśnie ładunki czynnikowe (factor loadings). Pokazują one, jak bardzo zmienna X ’ładuje’ dany czynnik. Im wyższa wartość, tym bardziej dana zmienna ma swój udział w czynniku. W praktyce, interesują nas te ładunki, które są powyżej 0.5 (to jest kolejna reguła kciuka). Skoro jest to reguła kciuka, to nie ma co się dziwić, że niektórzy przyjmą 0.3 za wartość progową dla ładunków.

Rotacja
Rotacja rozwiązania, czyli obracanie układu współrzędnych nowych zmiennych (czynników lub składowych) tak, aby można było łatwiej zinterpretować wyniki. Między innymi zależy nam na tym, aby jedna zmienna obserwowalna X nie ładowała więcej niż jednego czynnika na raz. Takie crossloadings zmiennej X z dwoma lub więcej czynnikami są problematyczne, np. jeśli X ładuje wysoko zarówno czynnik A i czynnik B, wówczas trudno taką zmienną poprawnie zinterpretować.

Rotacje dzielą się na ortogonalne (np. varimax) i nieortogonalne (skośne - np. oblimin). Ortogonalne nie pozwalają na to, aby czynniki były skorelowane ze sobą, natomiast nieortogonalne dopuszczają taką możliwość. Jeśli wykorzystamy rotacje nieortogonalne, to macierz ładunków czynnikowych rozłoży się na dwie części: macierz modelową (pattern matrix) oraz macierz struktury (structure matrix). Aby odczytać ładunki w takim przypadku, należy wykorzystać macierz modelową (pattern matrix).
Dopuszczenie skorelowania (czyli nieortogonalności) czynników ukrytych jest czasem dobrym rozwiązaniem z tego względu, że rzadko ukryte cechy psychologiczne, które są odpowiedzialne za strukturę otrzymanych danych, są zupełnie niezależne od siebie. Przykład (zupełnie losowy) - niech zmiennymi ukrytymi będą lęk i konserwatyzm. Mimo, że to są odrębne konstrukty psychiczne, nie można twierdzić, że są one całkowicie niezależne od siebie, dlatego warto byłoby dopuścić ich skorelowanie.

Ładunki krzyżowe
Idealnie jest, jeśli dany item ładuje tylko jeden, podstawowy dla siebie czynnik. Oznacza to wtedy, że item ten bada tylko jedną cechę, ale jest to sytuacja tylko idealna. Często jest tak, że dwa (i więcej) czynników wyraża się przez jeden item, np. pytanie o krzywdę wyrządzoną drugiej osobie może być zrozumiane jako pytanie o krzywdę dziecku. Dlatego żąda się, aby ładunki krzyżowe, czyli te ładunki, które dotyczą pozostałych czynników, a nie tego podstawowego, pozostały jak najmniejsze. I kolejna reguła kciuka jest taka, żeby ładunki wynosiły mniej niż |0.3| (chodzi o wartość bezwzględną, wszystko co leży na lewo i na prawo od zera w odległości do 0.3 jest uznawane za dopuszczalne).

Ocena analiz
Ocena danych pod katem analizy polega na ocenie kilku parametrów z których wymienię jedynie: wyznacznik macierzy korelacji oraz test sferyczności Bartletta i Kryterium KMO. Wyznacznik macierzy to kolejny, obok wartości własnych, atrybut macierzy. Dzięki niemu wiadomo, czy dany zbiór zmiennych obserwowalnych można sprowadzić do mniejszego rozmiaru. Jeśli wyznacznik macierzy jest równy 1 oznacza to, że zmienne są słabo skorelowane ze sobą i zmienić wymiaru zmiennych nie da się. Test sferyczności Bartletta 1 jest testem, który sprawdza hipotezę o tym, że wyznacznik macierzy jest równy 1.
Gdyby tak było, to macierz korelacji miałaby same jedynki na przekątnej, które oznaczałyby że jest to macierz jednostkową (patrz wyżej).
Miara Kaiser-Meyer-Olkin (miara KMO) - kolejna miara adekwatności próby, w zasadzie macierzy korelacji, sprawdzająca czy dane mogą być użyte w analizie. Pomijając równania, zadowolimy się wartościami referencyjnymi: najlepsze wartości to te bliskie 1. Minimalna wartość tej miary, uważana za dopuszczalną wynosi 0.5

Konfirmacyjna czy Eksploracyjna?
Rozróżnienie między tymi dwoma typami analizy czynnikowej (lub PCA) tak naprawdę sprowadza się do intencji badacza - czy jego celem badacza sprawdzenie struktury danych (eksploracja) czy też potwierdzenie struktury badacza (konfirmacja)? W praktyce wygląda to tak, że jeśli badacz nie ma wcześniej przyjętych założeń co do postaci danych, to po prostu podąża za wynikami analizy, np. wykres osypiska pokazuje, że istnieją trzy czynniki, zatem rzeczony badacz ’wymusza’ ekstrakcję trzech czynników i później zastanawia się czy ma to uzasadnienie teoretyczne. Może on testować, czy rozwiązanie z mniejszą lub większą liczbą czynników będzie lepsze. Jeśli badacz ma założoną pewną strukturę danych i do dyspozycji była teoria przepowiadająca z góry określoną liczbę czynników, np. tak jak w teorii MFT 5 czynników, to badacz ustawia w programie ekstrakcję 5 czynników i może to uznać, za próbę potwierdzenia swojego modelu.
Tak, ale to, co napisałam powyżej, to trochę takie akrobacje umysłowe. Użycie EFA do potwierdzenia struktury czynnikowej nie jest bezspornie przyjętą metodą potwierdzania modelu czy hipotez. Raczej używa się do tego równań strukturalnych SEM (chociaż one też mogą być wykorzystywane do eksploracji) - równania te pozwalają badać stopień rozbieżności między danymi a postulowanym przez badacza modelem, który został z góry, przed badaniem opracowany.

PODSUMOWANIE



wtorek, 2 stycznia 2018

Dystrybuanta rozkładu prawdopodobieństwa.

Zaczynamy zajęcia ze statystyki, prowadzący lub prowadząca przedstawia podstawy rachunku prawdopodobieństwa, zdarzenie elementarne, losowe i przechodzimy do zagadnienia przedstawienia jakoś szans pojawienia się wyników zmiennej losowej - rzutu monetą, kostką, okiem i beretem. I widzimy taki jakiś wzorek:
F(t) = P( -∞< t) 
i koniec. Język matematyczny to bardzo ładny i zwięzły język, którym można wiele myśli wyrazić i wiele idei przekonać. Wiele nie znaczy: wszystko i dlatego mogę pisać tego bloga. W tym poście przedstawię pojęcie matematyczne - dystrybuantę - które służą do opisu szans wystąpienia możliwych wartości zmiennej losowej. Jakiejś zmiennej losowej.


Prawdopodobieństwo trzeba jakoś przedstawić. Można to zrobić w postaci: (a) funkcji prawdopodobieństwa, (b) gęstości, (c) zbiorczo: w postaci skumulowanej, tj. pokazać, jakie jest prawdopodobieństwo spotkania obserwacji do wybranego poziomu, np. jakie jest odsetek dzieci, który osiągnęły wzrost do danego, od najmniejszego możliwego.
Wychodzi na to, że nie wystarczy podać odsetka dzieci, które osiągnęły dany wzrost, tylko wszystkie mniejsze też. Trochę to nieintuicyjne na pierwszy rzut oka, bo na pytanie ile masz centymetrów wzrostu, odpowiadamy konkretnie: "Mam 172 cm", a nie "Do 172", ale uwierzcie mi, że to ma sens przy korzystaniu ze statystyki. W tym miejscu chodzi o to, aby rozmówcy zadać pytanie: 'jaka jest szansa, że Twój wzrost wynosi do 172 cm'. To na razie załatwia sprawę skumulowania. Ale dystrybuanta to nie synonim na skumulowane prawdaopodobieństwo, choć mają wiele wspólnego.Dalej okaże się, co jest różne.



Aby przekształcić rozkład prawdopodobieństwa (podany w powyższej postaci) do dystrybuanty należy w kolejno dodawać do siebie wartości tego prawdopodobieństwa. Na pierwszym miejscu jest liczba oczek, na drugim miejscu skumulowane prawdopodobieństwo uzyskania liczby oczek do podanej:



W przypadku rozkładów dyskretnych (rozkład dyskretny?klik), takich jak rzut kostką (monetą również) punkty, których następuje dodanie prawdopodobieństwa, nazywamy punktami skoku. Więc punktami skokowymi (skoku) są wszystkie
możliwości wyrzutu oczek.

Rys. Skumulowany rozkład zmiennej o tytule Rzut kostką (LJK).

Na powyższym rysunku wygląda to tak, jakby wykres miał wartości jedynie w czarnych punktach a poza nimi nic nie było. Tak może być tylko i wyłącznie gdy rozmawiamy o skumulowanym prawdopodobieństwie w potocznym tego słowa znaczeniu, gdzie nie ma sensu rozmawiać o tym, ile ono wynosi w punkcie 3.5, bo nie można wyrzucić trzy-i-pół oczka. Okazuje się, że różnica między skumulowanym prawdopodobieństwie a dystrybuantą jest taka, że dystrybuanta muruje dziury w wykresie skumulowanego prawdopodobieństwa: zobaczcie sami (niżej).

Rys. Dystrybuanta rozkładu zmiennej o tytule Rzut kostką (LJK).


Dystrybuanta jako pojęcie matematyczne to nieco szersza sprawa niż skumulowane prawdopodobieństwo. Żąda się bowiem, aby dystrybuanta, oznacza zwykle: F (x), była określona dla wszystkich liczb rzeczywistych, czyli dla wszystkch x ∈ R, nawet jeśli cecha nie pokrywa wszystkich liczb rzeczywistych (np. nie można wyrzucić trzy i pół oczka, nikt nie ma ujemnej samooceny).

Z tej przyczyny powstaje pozorny problem - co z takimi wartościami dystrybuanty, których cecha nie przyjmuje? Nie ma problemu dla wartości wyższych niż maksymalny poziom cechy - dla nich skumulowane prawdopodobieństwo będzie równe 1. Ponadto, nawet jeśli cecha nie przyjmuje jakiejś wartości, to może mieć wartości z jakiegoś mniejszego zakresu, np, P (X < 3.5) = P (X < 3) z tego powodu, że cecha nie przyjmuje
wartości z przedziału (3, 3.5) - ale przyjmuje wartości do 3 - w związku zachowujemy się tak, jakby pytano o liczbę oczek do trzech, zamiast trzy i pół. Wygląda na to, że prawdopodobieństwo przyjęcia wartości z przedziału od ponad 3 do 3.5 jest równe zero;P (3 < X < 3.5) = 0. Stawiamy zerowe prawdopodobieństwo tam, gdzie cecha nie przyjmuje takiej wartości.
Dodatkowo, zgodnie z intuicją skoro żadne prawdopodobieństwo nie jest ujemne, to cokolwiek dodawane do całości kumulacji wywoła powiększenie tej sumy - nigdy jej nie zmniejszy. Innymi słowami, kumulacja można pozostawać na stałym poziomie, ale nigdy nie może się zmniejszać. W ten sposób otrzymaliśmy trzy własności dystrybuanty - zapiszemy je formalnie.

Kryteria dystrybuanty - która funkcja jest dystrybuantą, a która nie jest?
Aby funkcja była dystrybuantą musi spełniać poniższe trzy kryteria:

1. dla x biegnących do minus ∞ F (x) = 0 oraz dla x biegnących do ∞ F (x) = 1, czyli:

2. prawostronnie ciągła
3. niemalejąca - czyli nie ma ujemnych prawdopodobieństw

To są formalne warunki dystrybuanty. Najciekawsze jest to, że jeśli narysujemy dowolną funkcję, lecz spełniającą powyższe kryteria to na pewno opisuje rozkład jakiejś zmiennej. Nie wiadomo, jaka i czy jest odkryta, ale już wiemy, że będzie to rozkład.

Dystrybuanta teoretyczna a empiryczna.
W matematycznym depozycie teoretycznym znajdują się idealne rozkłady - między innymi normalny modelujący, wykładniczy, jednostajny i inne.

Dystrybuanta teoretyczna to dystrybuanta wynikająca z teorii matematycznej, można ją potraktować jako dystrybuantę cechy w (niedostępnej) populacji. Dystrybuanta empiryczna to dystrybuanta uzyskana na podstawie próby.
Niech x będzie dowolnym wynikiem zmiennej (cechy) - możliwym bądź nie. Po prostu: obserwacją. Wartość gdzie n to liczebność próby.

Wzór gwiazdka *


Na przykład: symbol Fˆ5(3) [ef z daszkiem] oznacza ile elementów jest mniejszych lub równych 3 w pięcioelementowej próbce.


Dystrybuanta a gęstość.
Porównajmy teraz dwa widoki: dystrybuantę rozkładu standardowego normalnego N(0, 1) oraz gęstość rozkładu standardowego normalnego N(0, 1): 

Rys. Dystrybuanta (po lewej) a gęstość (po prawej) rozkładu normalnego standardowego (LJK).
 Należy pamiętać, że obie te krzywe opisują rozkład tej samej cechy. Ktoś, kto umie czytać dystrybuantę i gęstość potrafi poradzić sobie z odpowiedzią na dowolne pytanie o rozkład posługując się jedną i drugą zmienną.


Przykład.
Rzucaliśmy osiem razy kostką do gry - więc n = 8. Otrzymaliśmy takie wyniki: 3, 5, 2, 3, 2, 1, 4, 3. Ani razu szóstki, jedna jedynka, trzy trójki, jedna czwórka i jedna piątka. Najpierw policzymy dystrybuantę dla tej sytuacji, to będzie dystrybuanta empiryczna. Korzystam ze wzoru oznaczonego gwiazdką (skrolnij wyżej).
 

Jak narysować dystrybuantę w tej sytuacji? Możemy mieć dystrybuantę empiryczną i teoretyczną. Wiemy, że skoro teoretycznie wszystkie wyniki są jednakowo prawdopodobne, to otrzymalibyśmy dystrybuanta teoretyczna. Z kolei dystrybuanta empiryczna odpowiada konkretnej sytuacji z zadania.

Rys. Dystrybuanta empiryczna i teoretyczna dla rzutu kostką (LJK).

Widać, że się różnią. Mają różne 'progi'. Wyniki to z tego, że dystrybuanta teoretyczna odpowiada sytuacji idealnej, wszystkie rzuty są jednakowo prawdopodobne, stąd te punkty skoku są takie same. Po prawej mamy dystrybuantę empiryczną, która pokazuje, co się zdarzyło. A że bywa różnie, i mimo tego, że szanse na jakiekolwiek wynik są równe, to i tak w konkretnej sytuacji otrzymujemy różne wyniki.

Uwaga.
W matematyce istnieje coś takiego jak 'dystrybucja' (nie, nie dóbr jak w ekonomii) i nie ma to nic wspólnego z 'dystrybuantą'.

piątek, 29 grudnia 2017

Sprawa Kołmogorov-Smirnov vs. Anderson-Darling

Poznamy teraz dwa testy badające, czy rozkład empiryczny jest pożądanym rozkładem. Oba te testy należą do tej samej grupy - pracują na dystrybuantach empirycznych. A dokładniej - mierzą stopień rozbieżności, między dystrybuantą empiryczną a teoretyczną. Oba jednak robią to na dwa różne sposoby.

TEST KOŁMOGOROVA-SMIRNOFFA

Zacznijmy od przykładu, a najlepsze przykłady to te życiowe. Mamy chłopców i dziewczynki - pytamy o to, w jakim momencie życiowym różnica między wzrostem chłopców a dziewczynek jest największa. W zasadzie to nawet mniej nas interesuje sam moment życiowy, jak ta maksymalna możliwa różnica.


Rys. Dystrybuanty skumulowane dla chłopców i dziewczynek (LJK).


Kołmogorova Smirnoffa właśnie bada największą odległość między krzywymi - ta różnica wynosi 0.6 (w moim przykładzie).

Badanie odległości między wykresami
W teście Kołmogorowa-Smirnoffa tak naprawdę chodzi o zbadanie odległości między dwoma wykresami funkcji: jedną jest rozkład cechy w naszej próbie, drugą jest rozkład teoretyczny, od którego podobieństwo pytamy test. Ale na moment zapomnijmy od rozkładach, testach i dystrybuantach i wróćmy do liceum lub technikum.

Przykład. Mamy dwie funkcje: jedna (liniowa)
y1 = f1(x) = x 
To jest tzw. tożsamość (identity): jedynce odpowiada jedynka, 1/2 odpowiada 1/2, pi odpowiada pi, dwójce dwójka, a zombi zombi itd.
Druga funkcja jest kwadratowa
y2 = f2(x) = x2
Dowolnej liczbie x przyporządkowuje jej kwadrat x2, np. 1/2 odpowiada 1/2 do kwadratu, czyli 1/4. 1/3 odpowiada 1/9, a 1/4 odpowiada 1/16. Zajmijmy się tylko liczbami od zera do jednego, czyli ułamkami - zaraz się okaże, dlaczego takie ograniczenie.

Pytanie o odległość między tymi funkcjami jest w zasadzie pytaniem o maksymalną różnicę między wartościami obu funkcji y1 oraz y2, jaka tylko może się zdarzyć.

Zróbmy to najpierw po kolei.
Dla x = 0 wartość pierwszej funkcji wynosi: f1(0) = 0 a wartość drugiej funkcji: f2(0) = 02=0, więc tu nie ma różnicy 0 − 0 = 0.
Dla x = 1/2 mamy w pierwszej funkcji f1(1/2) = 1/2, a w drugiej f2(1/2) = 1/4, więc różnica między nimi wynosi 1/2-1/4=1/4.
Dla x = 1/3 mamy w pierwszej funkcji f1(1/3) = 1/3, a w drugiej f2(1/3) = 1/9, więc różnica między nimi wynosi 1/3-1/9=2/9
I tak dalej, i tak dalej, i tak nieskończenie wiele razy, bo tyle jest liczb w przedziale od zera do jednego.
Gdybyśmy przejrzeli wszystkie punkty z przedziału od zera do jednego w końcu znaleźlibyśmy taki ułamek x, dla którego różnica między obiema funkcjami byłaby największa. Ale po co robić to ręcznie, skoro jest rachunek różniczkowy - istnieją matematyczne sposoby zamiast ręcznego szukania ułamek po ułamku :-).

Jeśli ktoś z liceum/technikum pamięta pochodną i jakieś porównywanie do zera, to właśnie w tym momencie zostało to wykorzystane, a my zobaczmy efekty:

Rys. Istota testu K-S, różnica między krzywymi (LJK).

Maksymalna odległość między tymi dwoma funkcjami f1(x) oraz f2(x) znajduje się dla x = 1/2 i wynosi 1/2 . Niby to samo 1/2, ale różne znaczenia. Czy to jest dużo czy mało? ‘To zależy’. Test K-S właśnie bada, czy maksymalna różnica między krzywymi (dokładniej te krzywe tu mają piękną nazwę: dystrybuantami) jest duża.
Akurat w przypadku dystrybuant można spodziewać się pewnego rodzaju wzorca takich różnic i jedne są uznawane za duże, a inne różnice za małe - dlatego to jest test statystyczny (może sprawdzić czy mamy do czynienia z typową różnicą, czy z ekstremalną <- to tak bardzo skrótowo).

Tak, jak już wspomniałam istotą testu K-S jest maksymalna różnica między dwie funkcjami reprezentującymi rozkład cechy i widać to w postaci analitycznej (czyli we wzorze) statystyki testowej:
T = sup |Fn(x) − F(x)|
gdzie T - statystyka testowa, sup oznacza, że chodzi o możliwie największą wartość różnicy między dwoma zwierzakami: Fn(x) to dystrybuanta empiryczna a F(x) - to dystrybuanta teoretyczna. Te pionowe kreski oznaczają wartość bezwzględną - interesuje nas wartość różnicy, a nie jej znak - wszystko jedno, czy minus 10 czy plus 10 stopni na dworze, mi i tak jest zimno :-)

TEST ANDERSONA-DARLINGA

Drugi test, który pomaga zbadać czy rozkład empiryczny jest rozkładem normalnym i który również w jakiś sposób wykorzystuje dystrybuanty empiryczne, to test Andersona-Darlinga. W zasadzie omówię nieco prostszą wersję testu Andersona-Darlinga, noszą kolejną nazwę pochodzącą od nazwisk twórców, tj. test Cramera-von Misesa. Zrobię to dlatego, że oba te testy: AD oraz CVM różnią się bardzo, bardzo niewiele, główna idea między nimi jest taka sama, przy czym łatwiej objaśnić CVM.
Wróćmy na chwilę do przykładu z funkcjami f1(x) (czyli liniowa) oraz f2(x) (czyli kwadratowa). Test K-S badał maksymalną różnicę między nimi. Kiedy tak patrzymy na rysunek, to przychodzi do głowy pytanie, dlaczego szukać maksymalnej różnicę - może lepiej byłoby scalić wszystkie różnice w jedną? Popatrzeć na pole między jedną a drugą krzywą?

Rys. Istota testu A-D - pole zostawione między dwiema krzywymi (LJK).

Jak obliczyć to pole zieleni? Na papierze rysujemy przerywaną linią kwadrat i rysujemy jego przekątną (zielona linia). Umieszczamy w kwadracie okrąg. Wycinamy z papieru wzdłuż przekątnej i przerywanych linii trójkąt. A potem wycinamy kawałek koła i mamy pole. Tak to mniej-więcej wygląda. Na szczęście
matematycy opracowali narzędzia, które pozwalają liczyć pole między dwoma krzywymi, bo to jest to, co w zasadzie robimy, bez wycinanek. Jeśli ktoś pamięta z edukacji szkolnej (zależnie kto, do jakiej chodził, zgodnie z reformą, ja chodziłam do prastarego liceum), do liczenia pól przydawały się całki i to jest to, co stanowi podstawę statystyki testowej w teście CVM.

gdzie T - statystyka testowa, Fn(x) to dystrybuanta empiryczna a F(x) to dystrybuanta teoretyczna. Tak, ja wiem, że to jest całka, ale powyższy wzór da radę rozumieć praktycznie następująco - oblicz pole, jakie znajduje się między wykresem jednej dystrybuanty, teoretycznej F(x) a wykresem drugiej dystrybuanty empirycznej Fn. "Oblicz powierzchnię błony jak tworzy się na dwóch dystrybuantach" - takie porównanie przychodzi mi do głowy.

Ściśle rzecz ujmując, test Andersona-Darlinga mniej więcej wygląda podobnie, poza tym wprowadza pewne ulepszenie do testu CVM - nadaje wagi tym różnicom. Dlatego też uprzedzam, że powyżej jest statystyka testowa dla CVM, dla AD nie chciałam podać, aby już nie mieszać sprawy z wagami.
Można powiedzieć, że test Andersona-Darlinga to taki upgrade testu Cramera-von-Misesa

Różnica między testem A-D a K-S
Różnicę między testem Andersona-Darlinga a testem Kołmogorova-Smirnoffa dobrze obrazuje różnica między dwie charakterystykami jeziora Loch Ness (niżej).

Rys. Jezioro Loch Ness jako ilustracja do różnicy między KS-AD (LJK).

Test Andersona Darlinga podaje powierzchnię jeziora (56.4km2) natomiast może też interesować nas maksymalna szerokość. Maksymalna szerokość Loch Ness to 1.5km (szerokość podajemy w zwykłych kilometrach, a powierzchnię w kilometrach kwadratowych). Jeden i drugi sposób daje pogląd na jezioro, i oba również tracą informację (pytanie o szerokość pomija powierzchnię jeziora; pytanie o powierzchnię jeziora pomija jego głębokość). Czerwona kreska oznacza maksymalną szerokość jeziora (oczywiście w tym ułożeniu, względem południków).

Jak to wykonać w SPSS-ie?
W SPSS-ie są dostępne tylko Kołmogorov-Smirnoff (oraz nieomówiony powyżej Shapiro-Wilk). W zasadzie to jest K-S z poprawką Lillieforsa i należy po kolei przeplikać:
Analiza→ Opis Częstości → Eksploruj 
a potem należy zaznaczyć okienko z poleceniem ‘Testy normalności wraz z wykresami’. I poszukać tabelki między wykresami (tak, ona może być w gąszczu wykresów).

czwartek, 28 grudnia 2017

Wesołego - Sylwestra i Szczęśliwego Nowego Roku!

Drodzy Czytelnicy mojego bloga, ... blożka w zasadzie, bo niektóre są strasznie obfite w treści, a ten w sumie nieduży :-)

Fot. LJK.


Z okazji Nowego Roku, który zdarzy się już w najbliższy poniedziałek, składam Wam najserdeczniejsze życzenia noworoczne. A żeby nie było, że tylko w Nowy Rok, to też i w pozostałe 365 dni również - zdrowia, szczęścia i ogólnie, żeby Wam się statystycznie lepiej wiodło niż w poprzednim. I czekolady! - Lili.

A powyżej to moja bombka choinkowa i przednia elewacja aparatu fotograficznego. Hej!


Ps. Jeśli zdarza mi się nie odpowiedzieć na wiadomość przez formularz, to trzeba wysłać drugi, przypominający :( Za wszelkie pominięcia przeproszę :-)

niedziela, 26 listopada 2017

Parametr μ jako stała (liczba) lub jako zmienna (losowa).

Zabiegi statystyczne służą do tego, aby móc na podstawie dobrze dobranej próby wnioskować o parametrach w populacji. Parametrach - czyli co? Zwykle uczymy się, że parametr to pewna stała liczba, której nie znamy i poznać dokładnie nie możemy, bo całej populacji nie przebadamy. A, i że oznacza się je greckimi  literami, np μ. Z tym drugim nie ma co dyskutować, skoro chcemy upamiętnić gracki alfabet, to niech będzie. Lepszy grecki alfabet niż chińskie znaczki. Natomiast myślenie o parametrze w kategoriach populacji to scheda po Ronaldzie A. Fisherze - genialnym matematyku i statystyku XX w., niemniej jednak był to tylko człowiek, który miał swoje przyzwyczajenia myślowe - postrzeganie parametru jako charakterystyce populacji jest jedną z nich. Z jednej strony można właśnie tak myśleć o parametrze: jako czymś, co charakteryzuje populację, np. średni poziom wzrostu wszystkich Polaków. Z drugiej strony łatwiej ogarnąć dalsze techniki statystyczne, gdy myśli się o parametrze jako o czymś, co bardziej charakteryzuje jakiś rozkład cechy niż samą populację. Dlaczego? Przecież wprawdzie badamy populację, ale dokładniej to celem badań jest rozkład cechy. To rozkład ma parametr (np. wykładniczy) lub parametry (normalny: średnia i wariancja), a nie sama populacja - populacja ma wiele cech, wzrost, przeżywalność, poziom depresji. Przy założeniu, że wzrost ma rozkład normalny to jest sens pytać o jego parametr μ (i średnią z próby wykorzystać jako przybliżenie tego μ). Niby jest to niewielka sprawa, ale w pierwszym przypadku parametr ‘fruwa’ w powietrzu jako charakterystyka populacji, a w drugim jest przytwierdzony do rozkładu cechy.

Tak czy siak, w szkole czy na studiach uczymy się, że parametr ma być liczbą. Wbija się to do głów tak mocno, że pomyślenie o parametrze w populacji w innych kategoriach jest trudne. Dobrze. To może wobec tego wyobraźmy sobie, że parametr nie jest jedną konkretną liczbą, tylko zmienia się, np. w czasie. Ludzie w XXI wieku są średnio wyżsi niż ludzie w XI w. Nie wiem, do końca czy to prawda, bo nie ryję w ziemi w poszukiwaniu średniowiecznych szkieletów, ale coś tam słyszałam, że byli krótsi. W każdym razie chodzi o zmienność wartości parametru μ w czasie. Dziś jest tak, kiedyś było inaczej. Skoro tak, to w takim wypadku μ będzie zmienną losową. Niekoniecznie czas jest tym czynnikiem modyfikującym wartość μ. Bywa, że przedział liczbowy (lub zbiór) jest lepszym opisem parametru. Trzeba byłoby tylko podać prawdopodobieństwa kolejnych wartości μ.
W ten sposób płynnie przeszłam od rozumienia parametru μ jako stałej liczby do pojmowania parametru μ jako zmiennej losowej.
Można? Można. Skąd wziąć taki rozkład? O tym później. Gdzie przydaje takie pojęcie parametru w kategoriach zmiennej losowej, a więc zbioru liczb z odpowiadającymi im szansami pojawienia się? ... W statystyce bayesowskiej (i paru innych miejscach też).

Tym krótkim i cichym postem, bez szumnego tytułu, zapowiadam wejście mojego bloga w kosmiczny pas postów o statystyce bayesowskiej. Robi się ona modna od lat jakoś 90-tych w naukach społecznych, choć pierwszy artykuł w psychologii o statystyce bayesowskiej jest z 1963 roku. Niniejszy post jest cichy, bo cichość ta oddaje mój brak ekscytacji metodami bayesowskimi: jak każda szkoła myśli statystycznej, bayesianizm ma swoje założenia i ograniczenia, plusy i minusy, które przystępnie opiszę w kolejnych postach.
A zatem - wstęga przecięta! :)

wtorek, 24 października 2017

Moc testu

Dokonując wnioskowania statystycznego, badacz może pomylić się na dwa uzupełniające się sposoby: (1) może stwierdzić, że efekt eksperymentalny (leczenia, manipulacji, ogólnie: związek między zmiennymi) istnieje, kiedy w rzeczywistości go nie ma, np. istnieje związek domknięcia poznawczego z samooceną; (2) badacz może nie wykryć efektu eksperymentalnego (leczenia, manipulacji, ogólnie: związku między cechami psychologicznymi), podczas gdy w populacji ten efekt lub związek istnieje. Przykładowo: może uznać, że nie ma związku palenia z zapadalnością na nowotwór płuc (to na szczęście inne wieloletnie badania dowodzą). Te dwa błędy są w zasadzie komplementarne i mają swoje odpowiednie nazwy. Podsumowując, jeśli mamy dwie hipotezy: zerową H0 i alternatywną H1, to decyzje odnośnie ich statusu
logicznego (‘prawdziwa’, ‘fałszywa’) mogą prowadzić do dwóch rodzajów błędu we wnioskowaniu badacza. Badacz może stwierdzić, że hipoteza zerowa H 0 jest fałszywa (a w rzeczywistości jest ona prawdziwa), podjąć decyzję o jej odrzuceniu na korzyść hipotezy alternatywnej H1, która to jest nieprawdziwa. Badacz może również uznać, że hipoteza zerowa H0 jest prawdziwa, podczas gdy w rzeczywistości jest ona fałszywa (za to prawdziwą jest hipoteza alternatywna H1).
Trzeba odróżnić dwie rzeczy: decyzję badacza odnośnie rzeczywistości i stan rzeczywisty rzeczy. Czasami wydaje się nam, że istnieje coś, czego nie ma i nazywamy to np. złudzeniem wzrokowym (sylwetka oprawcy w ciemnościach pokoju lub urojenia paranoiczne). Z kolei przy pomijaniu stronnym obserwuje się, że pacjent nie dostrzega jednej ze stron, mimo tego, że ona przecież istnieje.

Błąd I-go rodzaju, zapisywany grecką literą α, to błąd polegający na odrzuceniu prawdziwej hipotezy zerowej, uznaniu jej za fałszywą i w konsekwencji przyjęciu hipotezy alternatywnej (nieprawdziwej).
Błąd II-go rodzaju, zapisywany jako β, to błąd, który polega na przyjęciu fałszywej hipotezy zerowej, co powoduje zignorowanie hipotezy alternatywej, kiedy to właśnie ona jest w rzeczywistości tą prawdziwą (np. ‘’nie ma związku między paleniem papierosów a ryzykiem nowotworu płuc”).
Tab. 1. Błędy I i II rodzaju (LJK).


Jeśli hipoteza zerowa jest hipotezą o braku różnic lub związku, to badacz popełniający błąd II rodzaju stwierdza, że pomiędzy dwoma cechami psychologicznymi nie ma współzależności, a tak naprawdę one istnieją. Dobrze to ilustruje przykład medyczny. Ustalmy tutaj takie dwie hipotezy:

hipoteza zerowa: brak choroby versus hipoteza alternatywna: obecność choroby.

Badacz popełniający błąd I-go rodzaju stwiedziłby, że pacjent jest chory i zatrzymałby go w szpitalu. Błąd II-go rodzaju polegałby na stwierdzeniu, że chory pacjent jest zdrowy i pozbawienie pacjenta opieki.

Kolizja oznaczeń. Często słyszę, że ‘’poziom istotności to błąd pierwszego rodzaju’‘. Jest to całkowite poplątanie z pomieszaniem, choć przyczynili się do tego sami autorzy tych pojęć (R.A. Fisher oraz J.S. Neyman). α co innego oznacza w podejściu Fishera, a co innego w podejściu Neymana. Rozpatrywanie błędów I, α, oraz II rodzaju, β, jest elementem szkoły Neymana-Pearsona, w której statystyk zestawiał dwie konkurujące hipotezy i przeprowadzał badanie mające na celu wybrać którąś z nich. Natomiast, w szkole Fishera była tylko jedna hipoteza: hipoteza zerowa, dlatego on nie rozważał błędów II-go rodzaju (i jak się później okaże: mocy testu). Dla Fishera, α to poziom istotności (significance level). W książce pisze on tak: ’zwyczajowo i z wygodną dla badacza dobrze byłoby przyjąć 5 procent jako poziom istotności. W tym sensie, że badacz ignorowałby wszystkie te wyniki, które nie przekroczą tego progu (Design of Experiments, s.13)’. Dalej zachęca, aby ignorować wyniki mające prawdopodobieństwo wyższe niż 1 na 20 (s.13). Neyman również zaadoptował oznaczenie α oraz regułę 1-na-20, ale interpretacja tej α w szkole Neymana-Pearsona jest zupełnie inna niż w szkole Fishera. Tutaj, eksperyment (czy ogólnie: badanie) jest teoretycznie wykonywany nieskończenie wiele razy (mimo tego, że badacz raz robi eksperyment). Za każdym razem podejmowana jest decyzja dotycząca prawdziwości hipotezy zerowej bądź alternatywnej.
α i β są odsetkami błędnych decyzji. Ponieważ to są dwie różne szkoły statystyczne, uznanie, że poziom istotności α jest tożsamy z błędem I-go rodzaju α jest samo w sobie błędem. Ten sam znaczek α, a dwie różne interpretacje.

Poziom błędu I-go rodzaju. Zwyczajowo przyjmuje się, że poziom błędu I-go rodzaju wynosi 0.05 (lub: 5%). Jest to zwyczaj, który nie ma swojego naukowego dowodu, zresztą tak jak każda reguła kciuka. Można spotkać badania, gdzie poziom błędu I-go rodzaju ma być niższy i wynosić 0.01%. Możliwe jest również podwyższenie tego błędu do 10% - to jest kwestia oceny badacza w danej dziedzinie nauki. Test, który ma tendencję do nieodrzucania hipotezy zerowej i w związku z tym, jego rzeczywisty poziom błędu I-go rodzaju nie przewyższa ustalonego przez badacza (nominalnego, np. 5%) jest testem konserwatywnym. Żeby popełniać mało pomyłek polegających na odrzuceniu prawdziwej hipotezy zerowej, trzeba mieć w ogóle niechęć do odrzucacania jakichkolwiek hipotez. Ponieważ hipotezy zerowe mówią zwykle o istnieniu jakiegoś efektu, a konserwatywny jest słowem o etymologii łacińskiej (conservare znaczy przechowywać, zachowywać) i ma znaczenie zachowawczy (‘lepiej nic nie zmieniać’), więc test, który ma tendencję do nieodrzucania hipotezy o zerowym efekcie, jest testem konserwatywnym. Test, który ma rzeczywisty poziom alfa wyższy niż 5%, czyli mimo tego, że teoretycznie powinien popełniać nie więcej niż 5% pomyłek w rzeczywistości popełnia ich więcej, bo częściej odrzuca hipotezę zerową na korzyść alternatywnej, zwany jest testem liberalnym (antykonserwatywnym).

Poziom błędu II rodzaju. Zwykle żąda się, aby błąd II-go rodzaju w teście statystycznym pozostawał na poziomie 20%. Oznacza to pomyłkowe orzeczenie zdrowia u co piątego pacjenta (nawiązując do medycznej ilustracji pojęcia). Rysunek 1 przedstawia rozkłady statystyk testowych (nie: cech 1 ). Czarnym kolorem jest zaznaczony rozkład statystyki testowej gdy hipoteza zerowa H 0 jest prawdziwa. Zielonym kolorem jest zaznaczony rozkład zgodny z hipotezą alternatywną H1. Różowy punkt na dole to wartość krytycznej statystyki testowej - wartości statystyki testowej większe od niej spowodują odrzucenie hipotezy zerowej. Chcielibyśmy, aby w sumie ich prawdopodobieństwa nie przekroczyły pewnego pułapu, czyli nie przekroczyły poziomu błędu I-go rodzaju. Stąd też, niebieskie pole pod czarną krzywą na prawo od różowego punktu odpowiada błędowi I rodzaju, α i wedle naszego życzenia, chcielibyśmy aby jego powierzchnia wynosiła α = 0.05.

Rys. 1. Poziom błędu I i II  rodzaju (LJK).
Zielona krzywa na prawo od różowego punktu opisuje prawdopodobieństwa wartości tych statystyk testowych, które są mniejsze od niego. Tutaj też chcielibyśmy, aby sumaryczne prawdopodobieństwo nie przekraczało progu. Próg ten odpowiada prawdopodobieństwo popełnienia błędu II-go rodzaju, β.
Zgodnie z regułą kciuka, chcielibyśmy, aby czerwone pole wynosiło 20%.

Rzeczywisty a nominalny poziom błędu II-go rodzaju. Sprawdźmy symulacyjnie za pomocą programu R, jaki jest rzeczywisty poziom błędu II rodzaju dla testu t-Studenta, porównującego dwie grupy (klik), który ma zbadać takie hipotezę:
H0 : μ1 − μ2 = 0
przeciwko jawnie określonej hipotezie alternatywnej
H1 : μ1 − μ2 = 0.1

Opis symulacji. Badanie wykonujemy w następujący sposób: generujemy dwie próby z rozkładu normalnego o ustalonej liczebności. U nas będzie to 30 w każdej z grup. Pierwsza z nich będzie miała średnią μ1 równą zero i wariancją σ2 = 1 (zatem cecha w tej grupie ma rozkład normalny, standardowy), druga będzie miała średnią μ2 równą 0.1 i wariancją σ2 = 1. Stąd na pewno wiemy, że hipoteza zerowa jest nieprawdziwa a hipoteza alternatywna - prawdziwa (0 = 0.1). Sprawdzamy, czy p-wartość będzie mniejsza od 0.05, czyli czy testowi uda się odrzucić (błędną) hipotezę zerową. Jeśli tak, to test nie popełnia błędu II-go rodzaju, jeśli nie - test popełnia błąd II-go rodzaju.
Tutaj trudno jest badać rzeczywisty poziom błędu I-go rodzaju, ponieważ z góry ustaliliśmy, że hipoteza zerowa jest fałszywa (a błąd I-go bada sytuację, gdy hipoteza zerowa jest prawdziwa). Całą tę procedurę - od wygenerowania nowych prób do sprawdzenia decyzji testu - powtarzamy co najmniej kilkaset razy (np. tysiąc razy). Ręcznie zajęłoby to wieki, na szczęście są od tego komputery i ich moce obliczeniowe.
set.seed(20062017)
errII<-sum(replicate(1000,t.test(rnorm(30,0,1), rnorm(30,0.1,1))$p.value)>0.05)
paste("błąd II-go rodzaju wynosi ", errII/1000, sep="")
Błąd II-go rodzaju wynosi 93,5%. Jest to wartość o wiele większa niż zakładane 20%. Zatem dla testu  t-Studenta dwóch 30-elementowych grup niezależnych, gdzie cecha (w jednej i w drugiej grupie) ma rozkład normalny o tej samej wariancji σ1 = σ2 = 1 z tą różnicą międzygrupową, że średnia w pierwszej grupie μ 1 wynosi 0, a średnia w drugiej grupie μ2 wynosi 0.1, błąd II-go rodzaju wynosi około 93%. Oznacza to, że jeśli różnice w średnich między dwoma grupami są takie małe, to dla prób o liczności 30 elementów, test t-Studenta ma problem z wykryciem tej różnicy (będziemy później o tym mówić, że moc tego testu w tych specyficznych warunkach jest słaba, niska).

Moc testu statystycznego. Dzięki symulacjom dowiedzieliśmy się, że rzeczywisty błąd II-go rodzaju dla testu t-Studenta, gdzie obie grupy mają po 30 obserwacji a średnie w dwóch grupach różnią o 0.1, wynosi 93.5%. Oznacza to,
że 6% przypadków test jest zdolny prawidłowo odrzucić fałszywą hipotezę zerową i przyjąć hipotezę alternatywną, ponieważ to ona jest prawdziwa. Zazwyczaj mówi się wtedy, że moc takiego testu wynosi 6% (ponieważ 100% − 93.6% ≈ 6%).
Do oceny zdolności testu do nie-popełnienia błędu II-go rodzaju posługujemy się pojęciem mocy testu statystycznego. Oblicza się z prostego wzoru:
moc = 1 − β gdzie β to błąd II-go rodzaju.
Moc nie jest liczbą odwrotną do β (liczbą odwrotną do liczby a nazywamy liczbę a 1 ), ani przeciwną (liczbą przeciwną do liczby a nazywamy liczbę −a). Po prostu nie ma nazwy na związek liczb a i b,które sumują się do jedynki, a + b = 1.
Moc testu to prawdopodobieństwo odrzucenia fałszywej hipotezy zerowej, gdyby eksperyment wykonywano wiele razy (long-run probability, w interpretacji częstościowej).

Ogólnie można rozumieć moc testu statystycznego jako zdolność tego testu do prawidłowego odrzucenia błędnej hipotezy zerowej i przyjęcia prawdziwej hipotezy alternatywnej. Oczekiwanie tego, aby błąd II-go rodzaju wynosił 20%, pociąga za sobą moc testu na poziomie 80% (ponieważ 1 − 20% = 80%).

Poniższy rysunek przedstawia relacje między błędem I - go rodzaju (niebieskie pole), II-go rodzaju (czerwone pole) a mocą (pomarańczowe pole). Skoro moc to jest jeden minus błąd drugiego rodzaju, to czerwone pole i pomarańczowe pole powinny składać się na pole pod krzywą po prawej stronie.

Rys. 2. Relacje między błędem I, II rodzaju oraz mocą (LJK).


O mocy testu statystycznego można myśleć tylko i wyłącznie w warunkach gdy jest jasno określona hipoteza alternatywna - bo to na jej podstawie jest określany błąd II-go rodzaju. Bez jasno zdefiniowanej postaci hipotezy alternatywnej (np. μ 1 − μ 2 = 0.5) nie ma sensu mówić o błędzie II-go rodzaju, ani o mocy testu statystycznego. Powyższe przykłady są dość specyficzne, bo bezpośrednio podają postać hipotezy alternatywnej, ale badacze zwykle radzą sobie za pomocą wielkości efektu (effect size), która to opisuje wielkość zjawiska w populacji, np. d Cohena albo r Pearsona. Przykłady zostały tak dobrane, że
wielkość efektu jest równa hipotezie alternatywnej.

Ile potrzeba obserwacji, aby ten błąd spadł do 20%? Weźmy liczebność obserwacji n 1 = n 2 = 1571 w obu grupach i dla takich sprawdźmy błąd II-go rodzaju (a zarazem moc testu).
set.seed(20062017)
errII<-sum(replicate(1000, t.test(rnorm(1571,0,1), rnorm(1571,0.1,1))$p.value)>0.05)
print(paste("Błąd II-go rodzaju, beta, wynosi",errII/1000), sep="")
## [1] "Błąd II-go rodzaju, beta, wynosi 0.178"
print(paste("Moc wynosi 1-beta =",1-errII/1000), sep="")
## [1] "Moc wynosi 1-beta = 0.822"

Wychodzi na to, że dopiero, gdy badacz przebada 2 · 1571 osób badanych, może być spokojny o to, że moc testu statystycznego wyniesie 80% a test będzie zdolny wykryć różnicę między średnimi w populacji równą 0.1.

Dobrze, ale skąd wzięłam akurat tę liczbę: 1571? Czy są jakieś sposoby wyznaczania ilości osób badanych? Odpowiedź brzmi: tak - dzięki wielkości efektu. Ustalając przed rozpoczęciem zbierania danych, moc wybranego testu statystycznego (β = 80%), poziom błędu I-go rodzaju (α = 0.05) oraz wielkość efektu, da się zaplanować liczbę obserwacji. Akurat w moim przykładzie, gdzie wariancje w obu grupach były identyczne i równe 1, wartość wielkość efektu dla dwóch grup, d-Cohena, uwzględniająca wariancję w obu grupach, jest tożsama z formułą zawartą w hipotezie alternatywnej μ1 − μ2 = 0.1. Zwykle jednak
wygodniej jest odwoływać się do wielkości efektu niż bezpośrednio do postaci hipotezy alternatywnej. Aby test był w stanie rzetelnie wykryć mały efekt, należy przebadać 2 · 1571 osób (czyli łącznie 3142.). Więcej o wielkości efektu Klik

Moc, błąd I-go rodzaju, wielkość efektu i liczebność próby są ze sobą związane w taki sposób, że wystarczy znać wartości dowolnych trzech z nich, aby wyliczyć wartość czwartej. Jeśli wiemy, że a = 1, b = 2, c = 3 oraz że a + b + c + d = 10 łatwo wyliczyć wartość d, podstawiając w tym równaniu wartości poszczególnych danych 1 + 2 + 3 + d = 10. Stąd d = 10 − 6 i d = 4.

Analiza mocy post-hoc.
Obliczanie mocy po wykonaniu badań (post-hoc). Analiza mocy przydaje się do dwóch rzeczy: planowanie wielkości próby oraz do meta-analiz (które nie
są tu omawiane). Można też zastanawiać się jaką moc będą miały testy przy oczekiwanej różnicy między zmiennymi, związku między nimi (ogólnie: przy znanej lub spodziewanej wielkości efektu). Jeśli badamy moc przed zebraniem danych, to wówczas taka analiza mocy jest prospektywną analizą mocy. Wówczas ma ona sens - badacz dowiaduje się, jakiej wielkości próby potrzebuje lub jaką moc będą miały jego testy. Część badaczy natomiast oblicza moc testu po wykonaniu analiz, mając dane: ilość obserwacji, które udało się zebrać oraz otrzymaną wielkość efektu (w próbie). W ten sposób obliczają moc testu post
hoc, czyli wykonują retrospektywną analizę mocy. Interpretacja takich wyników nastręcza trudności, co w konsekwencji prowadzi do pytania o sens retroanalizy. Dlaczego? Jeśli do wyznaczenia poziomu mocy korzystamy z wielkości efektu uzyskanej z próby, to zakładamy, że wielkość efektu w próbie jest tą
7wielkością efektu, która występuje w populacji, co samo w sobie jest kontrowersyjne, ponieważ prowadzi do udowadniania czegoś, co chcemy udowodnić. Niech posłuży ten przykład. Badacz chciałby dowiedzieć się jakiej mocy będzie jego test, jeśli pobierze dwie próby o tej samej liczebności 30 oraz będzie spodziewał się różnicy między grupami równej 0.1
(wielkość efektu będzie tu również równa 0.5).
set.seed(5072017)
proba1<-rnorm(30,0,1) #dla 1072017 są takie same
proba2<-rnorm(30, 0.5,1)
power.t.test(n=30,delta=0.5, sd=1) #moc wynosi 0.48
Okazuje się, że moc jego testu wynosi zaledwie 48%.
Drugi badacz, który również dokonuje porównań międzygrupowych najpierw przeprowadza badanie, potem wykonuje analizę testem t-Studenta, bada różnicę między średnimi w grupach a następnie oblicza moc testu.
t.test(proba1, proba2)
(ds=abs(mean(proba1)-mean(proba2))) #różnica między średnimi w próbach
power.t.test(n=30,delta=ds) #moc = 0.8
Jego moc testu jest wysoka, wynosi 80%.
Z tego punktu widzenia, trochę bezsensowna jest analiza mocy post-hoc na podstawie wielkości efektu z próby, ale to jest to, co robi obecny SPSS.

Zależność między błędami.
Często mówi się o tym, że błędy α i β są ze sobą związane - zmieniając jeden, zmieniamy też i drugi. Zależność tę można wykazać analitycznie (tj. za pomocą formuł matematycznych), można też zilustrować dwoma skrajnymi przykładami: wówczas gdy badacz minimalizuje jeden z nich. Poniższe dwa przykłady pokazują działanie testu jednostronnego, aby uniknąć zaciemnienia rysunków.
Konsekwencje minimalizacji błędu I-go rodzaju alfa = 0. Jeśli chcemy, aby poziom błędu I rodzaju był równy 0, to automatycznie maksymalizujemy błąd II-go rodzaju. Jak to należy rozumieć? Aby nie popełniać błędu I rodzaju, czyli uniknąć odrzucenia prawdziwej hipotezy zerowej, trzeba na wszelki wypadek za każdym razem przyjmować, że hipoteza zerowa jest prawdziwa. Wprawdzie będziemy się mylić i uznawać brak efektu za prawdę, ale przynajmniej nie pomylimy się i nie stwierdzimy efektu w sytuacji, gdzie go nie ma.

Przykład prawniczy. Mamy 100 podejrzanych o popełnienie przestępstwa. Hipoteza zerowa brzmi: osoba jest niewinna (brak winy). 
Hipoteza alternatywna: osoba jest winna (wina). 
Błąd I-go rodzaju oznaczałby uznanie osoby niewinnej za przestępcę (błędne odrzucenie hipotezy zerowej o niewinności). Aby nie popełnić błędu I-go rodzaju w 100 przypadkach należy uznać, że wszyscy są niewinni. Przyjmując hipotezę zerową jako prawdziwą we wszystkich tych przypadkach, wyzerujemy błąd I-go rodzaju. Osoby naprawdę niewinne nie otrzymują kary. Natomiast wypuszczamy na wolność również przestępców. Błąd I-go rodzaju jest zminimalizowany (do zera), ale za to błąd II-go rodzaju ma najwyższą wartość (jest równy 1).  

Konsekwencje minimalizacji błędu II-go rodzaju beta = 0. W przykładzie prawniczym błąd II-go rodzaju oznacza błędne odrzucenie prawdziwej hipotezy alternatywnej (dana osoba jest przestępcą) i przyjęcie fałszywej hipotezy zerowej (dana osoba jest niewinna). Chcemy w żadnym ze 100 przypadków nie popełnić tego błędu. Zatem uznajemy, że wszyscy są winni. Przestępcy słusznie siedzą za kratkami, ale osoby niewinne również wędrują do więzienia. Błąd II-go rodzaju jest równy zero, ale zmaksymalizowaliśmy błąd I-go rodzaju. Chcielibyśmy zminimalizować błąd I-go i błąd II-go rodzaju. Jednocześnie zdajemy sobie sprawę z tego, że wyzerowanie go spowoduje zmaksymalizowanie błędu I-go rodzaju (patrz sekcja 1.2.3). Jaki byłby odpowiedni kompromis między poziom błędu I-go a II-go rodzaju? Propozycja 20% dla błędu II-go rodzaju wydaje się być sensowna. Oczekuje się, dany test dla ustalonej hipotezy alternatywnej popełnia błąd II-gow 1 z 5 przypadków.
Interpretacja moc = 0.5 Jak zinterpretować wartość mocy równą 0.5? Jeśli wiemy, że moc = 0.5, to zakładając, że hipoteza alternatywna jest prawdziwa, błąd II-go rodzaju wynosi β = 1 − moc = 1 − 0.5 = 0.5. Oznacza to, że w połowie przypadków nie stwierdzamy obecności związku (różnicy). Nie, nie jest to dobra wiadomość.

Ile osób mam przebadać? To jest pytanie, na które każdy badacz chciałby znać odpowiedź, bo nawet na chłopski rozum wychodzi, że im więcej, tym lepiej, ale to myślenie ma swoje ograniczenia, np. niektóre zjawiska są bardzo, bardzo rzadkie albo kosztowne.
To zależy od szkoły: Fisher powiada, że aby uzyskać istotny statystycznie wynik, im więcej, tym lepiej. Dla Neymana: skorzystaj z wielkości efektu (najpierw zaplanuj ją!), w podejściu bayesowskim wielkość próby nie jest aż tak ważna - 'dobadanie' próby powoduje takiego problemu jak z p-wartością.