środa, 23 maja 2018

Analiza wariancji


Tematem posta będzie analiza wariancji ANOVA w jej najprostszym wariancie - dla trzech grup, którą można przy odrobinie zmotywowanej wyobraźni rozszerzyć do k grup (k znaczy ileś ). Skoro jeszcze jesteśmy na wstępie i nie przeszliśmy do soczystego miąższu postu, to będzie najlepsze miejsce na taki dysklamacz (właśnie wymyśliłam to słowo, chodzi mi oczywiście o disclaimer, co po polsku rozumie się jako: ‘wyłączenie odpowiedzialności’, ale to zbyt wąskie pojęcie): Czytałam wiele podręczników do statystyki, zarówno polskich jak i angielskich i w wielu z nich, zwłaszcza dla psychologów, różne metody są przedstawione na idiotycznych, dziecinnych przykładach. Ja z kolei wolałabym pokazać, jak to działa w praktyce. A ponieważ mam bazę z naszych badań nad adaptacją kwestionariusza MFQ, to nie zawaham się jej użyć.

Wkrótce, po opracowaniu wersji PDF (którą umieszczę za kilka dni, do 1.06.2018 powinno się ukazać) omówione zostaną jeszcze dwa tematy: jeden to niespełnienie założeń i co wtedy? (I co wtedy, co wtedy! O rety!!) oraz dwa przypadki, gdy nie ma zgodności między testem F a testami post-hoc. Ktoś, kto już ma doświadczenia z ANOVA, wie, że czasami wychodzi, że różnice między średnimi są istotne statystycznie, ale testy post-hoc nie wykrywają ich.

Naukę o analizie wariancji (ANalysis Of Variance, ANOVA) można rozpocząć od pomyślenia o niej jako o rozszerzeniu testu t-Studenta (jeśli się go zna) na więcej niż dozwolone przez ten test dwie grupy, albo po prostu jako metodę, która pozwala zbadać, czy w trzech (lub więcej) grupach średnie są równe. Ja ograniczę się do trzech grup, trochę z powodów historycznych, a trochę dla ułatwienia.

Historia ANOVA. R.A. Fisher To będzie bardzo krótkie przedstawienie. Prawie sto lat temu, w 1919 r. tj. w roku, Fisher dostał pracę w Rothamsted, gdzie zajmował się zbożem. Nie, nie uprawiał zboże, ale statystykę matematyczną. Jego zadaniem było zbadać skuteczność nawozu. Pole podzielono na trzy części, w każdej z nich zastosowano inną dawkę i porównano zbiory. (Prawdę mówiąc, to zrobił trochę więcej niż to, choć w rzeczywistości miał tylko trzy dawki nawozu, więc sedno sprawy zgadza się).


W naszych badaniach też mieliśmy trzy grupy, bo trzy typy partii politycznych: prawicowa, centrowa i lewicowa. Jest to oczywiście quasi-eksperyment (dlatego, że ludzie nie są losowo przydzielani do tych grup, tylko sami z siebie mają jakieś preferencje). Osoby te badano pod kątem wrażliwości na czyjeś cierpienie i krzywdę, a mierzono to skalą Opieka/Krzywda z kwestionariusza MFQ. Chodziło o to, aby zbadać, czy są różnice pod względem w tych trzech grupach. Teoria MFT mówi, czego się spodziewać, trzeba jednak to sprawdzić statystycznie.

Mamy trzy, k=3, grupy, przy czym osoba może zadeklarować się albo do jednej grupy, albo do drugiej, albo do trzeciej grupy. Osoby te zbadano kwestionariuszem MFQ i okazało się, że średnie tych trzech grup przedstawiają się następująco:

Rys. 1. Średni poziom zmiennej Opieka/Krzywda w trzech grupach wyznaczonych przez orientację polityczną  (LJK).

Podział próby na grupy jest dokonany przez inną zmienną niż ta, dla której liczymy średnie. Musi mieć ona zdolność do szatkowania zbioru nad wyraźnie rozgraniczone podzbiory i do takiego celu przydają się zmienne mierzone na skali nominalnej lub kategorialnej. Dzięki temu można obserwacje  przyporządkować do różnych grup. O takiej zmiennej zwykle myśli się jako zmiennej niezależnej, a nazywa się ją czynnikiem. Wartości tej zmiennej są nazywane poziomami czynnika. Trzeba sprawdzić, czy jeśli obserwacje zostaną przydzielone do trzech grup, to podział (w zasadzie to przydział) ten wyjaśni zmienność w stopniu większym niż wpakowanie wszystkich do jednego wora. Sprawdzenie to następuje poprzez obliczenie statystyki testowej F i odpowiadającej jej p-wartości.

Statystyka testowa
Pozwolę sobie na bardzo uproszczony wzór, dla ułatwienia pozbawiając go wielu matematycznych symboli:



Z tego wzoru wynikać ma, że interesuje nas stosunek zmienności wyjaśnionej przez wprowadzenie czynnika (podziału) na trzy grupy do niewyjaśnionej zmienności (gdy obserwacje są wszystkie w jednym worku). Im wyższa wartość statystyki F, tym lepiej dla obecności czynnika.
Test F testuje hipotezę zerową postaci H012 =... = μk, gdzie k oznacza ileś grup, na przykład k=3, przeciwko hipotezie alternatywnej H1 :∼ H0 (czyt. ’nieprawda, że H0). Jeśli zebrane dane są zgodne z hipotezą zerową, czyli średnie cechy w grupach są jednak równe, to statystyka testowa F ma rozkład F Snedecora z k−1 oraz k·(n−1) stopniami swobody, co zapisujemy F ∼ F (df1, df2 ). df1 i df2 to stopnie swobody, gdzie df1 = k−1, a df2 = k·(n − 1). k oznacza liczbę poziomów czynnika. W moim przykładzie jest to k=3, a n to liczba obserwacji.
Wychodzi na to, że statystyka testowa F ma rozkład o prawie tej samej nazwie F - może się pomylić. Jerzy Snedecor to pan pochodzący z Memphis, miasta Elvisa, który pracował razem z Fisherem. Od jego nazwiska pochodzi nazwa rozkładu.

Założenia. Zasady użytkowania testu F, czyli założenia testu F.
Mamy więc jedną zmienną niezależną X, zwaną czynnikiem, której poziomy wyznaczają podział zbioru obserwacji na grupy i jedną zmienną zależną Y. Ta zmienna zależna Y to cecha psychologiczna, której średnie chcemy badać. Dobry przykład jest taki: czy zastosowane, różne techniki terapeutyczne mają wpływ na dobrostan pacjent. Porównujemy to oczywiście, zgodnie ze sztuką, do grupy kontrolnej. Jakie warunki muszą spełniać te zmienne X oraz Y, aby móc zastosować test F?

• Pierwsze założenie odnosi się do tego, czy grupy mogą się pokrywać, czyli czy jedna obserwacja może należeć do dwóch grup naraz. Niektórzy idą bardzo daleko i uważają, że podział musi wyczerpywać całą populację. O co w tym chodzi? Odpowiem na dwóch przykładach. Pierwszy realizuje ideę wyczerpywania zbioru wszystkich możliwości w populacji: to jest podział z naszych badań. Poglądy prawicowe, centrowi i lewicowe to są trzy orientacje polityczne, nie ma innych. Drugi przykład: pracownicy służby medycznej, strażacy i robotnicy budowlani: ten przykład nie wyczerpuje wszystkich możliwości podziału populacji - obok pracowników służby medycznej, strażaków i robotników budowlanych są jeszcze piekarze, sprzedawcy, maklerzy, rolnicy, naukowcy, nauczyciele i inni.
Założenie o tym, aby poziomy czynnika, czyli to, co dzieli próbę, wyczerpywały całą populację jest bardzo mocne i nie musi być spełnione (raczej bywa to niemożliwe). Najważniejsze jest to, aby: obserwacja nie należała do dwóch grup naraz - można ją przyporządkować do jednego poziomu (i basta!).
• Obserwacje te muszą być niezależne od siebie - to mają różne obserwacje, nieskorelowane ze sobą. Jeśli np. Wasze obserwacje to są wyniki kolejnych pomiarów, to należy zrezygnować z jednokierunkowej, jednoczynnikowej ANOVA i zastosować ANOVA dla powtarzanych pomiarów (tego jeszcze na blogu nie mam).
• Zmienna zależna Y musi być mierzona co najmniej na skali interwałowej - to jest spowodowane tym, że mamy liczyć średnie artymetyczne, więc cyfry musimy potraktować jako liczby, aby móc je zsumować i podzielić przez liczebność.
Ostatnio jednak odchodzi się od wykonywania ANOVA, gdy zmienna jest typowo kategorialna na rzecz innych technik. Najlepiej, i najłatwiej wówczas interpretować, gdy zmienna jest typową zmienną ciągłą, mierzoną na skali ilorazowej, taką jak czas, wzrost. Wówczas średnia jest naprawdę średnią.
• Rozkład zmiennej zależy jest rozkładem normalnym. I to jest ta sama historia, co przy teście Studenta.
• Homogeniczność wariancji (inaczej: jednorodność wariancji, σ2) - czyli równość wariancji we wszystkich grupach, co można wyrazić takim równaniem: σ12 = σ22=...σk2 . Moim zdaniem, formułowanie to jest czasami mylącym skrótem myślowym, który należy rozumieć tak, że wariancja wyników w pierwszej grupie musi być taka sama jak wariancja wyników w drugiej grupie i wariancja wyników w k-tej grupie. Równość rozumieć można jako jednorodność, a latynizując to mamy homogeniczność.
Tak, jak serek homogenizowany to serek jednorodny, czyli jednorodny w swoim istnieniu. Homogenizacja zapobiega rozwarstwianiu się substancji i gromadzeniu się tłuszczu na powierzchni. Gdyby kakao dało się zhomogenizować, to nie tworzyłby się kożuch i nie mielibyśmy na co narzekać. Spełniając założenia testu możemy być pewni, że rezultaty jakie daje test statystyczny są wiarygodne. Oczywiście, powstaje pytanie, co dzieje się, jeśli jakieś założenie nie jest spełnione? Jest o tym mowa niżej, w punkcie Niespełnienie założeń.

Jeśli badacz ma takie zmienne, jakie wymagają założenia testu ANOVA to matematycznie wszystko sprowadza się do sprawdzenia, czy rozkład zmiennej zależnej w trzech grupach różnią się tylko średnimi μ, ale nie wariancją albo kształtem rozkładu. Obrazuje to poniższy rysunek:

Rys. 2. Rozkłady zmiennej w  trzech grupach przesunięte względem siebie o średnią (LJK).

Mamy trzy grupy, dla których kształt rozkładu zmiennej zależnej, Y , jest taki sam (normalny). Trzy linie: niebieska, żółta i czerwona tworzą ten sam dzwon. Wariancja też jest taka sama (σ12 = 1,σ22 = 1,σ32 = 1), ale różnią się tylko przesunięciem, czyli wartościami oczekiwanymi μ. Dla pierwszej grupy μ1 = 0, dla drugiej μ2 = 1 a dla trzeciej μ3 = 2. Test F jest zaprojektowany dla wykrycia tej różnicy. Przy odpowiedniej liczebności próby, moc tego testu będzie wynosić 80%.


Wnioski końcowe.
ANOVA to bardzo podstawowa technika - po prostu porównujemy wartości oczekiwane trzech lub więcej populacji, pod warunkiem, że kształty rozkładów tej samej cechy są jednakowe w każdej grupie (co to oznacza, spójrz na Rys.2). Czasem jednak zadajemy proste pytanie i chcemy prostą odpowiedź, czy średnie są równe, czy różne. Czy któraś z metod terapii działa? Czy wszyscy mamy taką samą wrażliwość na krzywdę, niezależnie od podziału na preferencje polityczne?

Przy okazji, warto zauważyć, że test F dla dwóch grup sprowadza się do testu t-Studenta, ponieważ zachodzi wówczas taka równość F = t2. Ale nie ma sensu przeprowadzać jednoczynnikowej ANOVA dla dwóch grup, skoro jest test t-Studenta.

Wykonanie ANOVA w SPSS Krok po kroku wykonanie analizy ANOVA w SPSS-ie. To idzie to tak: po kolei musimy kliknąć Analiza → P orównaj średnie → Jednokierunkowa AN OV A Pokaże się okienko dialogowe, w którym musimy wskazać, która zmienna ze zbioru danych jest czynnikiem, a która jest zmienną zależną.

Takie skrótowy, jakby na sterydach, opis wykonania analizy ANOVA w SPSS-ie musi wystarczyć, bo po prostu chciałabym się skoncentrować na tej statystycznej stronie, a nie na technicznej. W Internecie jest po prostu zylion stron i filmików pokazujących przeprowadzenie ANOVA w SPSS, że nie ma sensu tworzyć kolejny byt.

Zapis wyników - jak zapisujemy w raporcie, pracy lub artykule?
Taka najprostsza formatka dla raportowania rezultatów ANOVA znajduje się poniżej.

Średnie dla zmiennej Opieka/Krzywda wynoszą odpowiednio: M = 4,00; SD = 1,10. W Polsce znaczek rozdzielający całości od części dziesiętnych to przecinek(!) Wyniki dokonane analizy wariancji ANOVA okazały się być istotne statystycznie F (df1 , df2) = wstaw-wartość-statystyki-F, wstaw-p-wartość, wstaw-wielkość efektu. Test F okazał się istotny statystycznie (albo test nie jest istotny statystycznie).

Dobrze jest podać, jakie wyniki wyszły w próbie - średnią M i odchylenie standardowe SD zmiennej zależnej w każdej grupie. Potem podajemy wyniki testu, p-wartość, wielkość efektu. Nie jest to specjalnie wyrafinowane. Wiecej informacji można oczywiście znaleźć w naszej biblii standardów redaktorskich APA (American Psychological Association).


A teraz jedziemy dalej - są jeszcze dwa tematy do omówienia. Pierwszy to testowanie wstępne. Chodzi tu o to, że jeśli wymogiem stosowalności ANOVA jest na przykład normalność cechy, to trzeba sprawdzić, czy tak jest i jak to robimy. Drugi to: co zrobić, jeśli test F okaże się być istotny statystycznie? Przecież z samego faktu, że “średnie są różne” nie wynika, która z nich.

Ad. 1. Testowanie wstępne (Preliminary testing).
W dwóch głównych założeniach testu F mieszczą się: normalność oraz homogeniczność (jednorodność) wariancji we wszystkich grupach, to najlepiej być przekonanym z teorii, że rozkład cechy powinien być normalny. Inaczej trzeba się o tym przekonać, można to zrobić dwojako: obejrzeć ‘zoczyć’ dane - przyjrzeć się im, popatrzeć na rozkład wyników wykres kwantylowy, wykryć obserwacje odstające (outliery). Można też zastosować testy statystyczne. Niektórzy (i wśród nich są niektórzy, którzy uczą) rekomendują, aby przed przeprowadzeniem testu F przeprowadzić testowanie normalność rozkładu cechy oraz testowanie równości wariancji. O dwóch testach normalności pisałam TUTAJ. Obok testów normalności, dostępne są testy równości wariancji: Levene’a i Bartletta. Czy można stosować takie dwukrokowe testowanie? Niekoniecznie, bo takie testowanie wstępne jest problematyczne. Mam tutaj na myśli dokładnie przeprowadzanie innych testów statystycznych niż docelowy test F. Okazuje się, że jeśli robisz dwukrokowe testowanie, jedno dla sprawdzenia założeń, drugie to to główne (równość średnich), to m.in. narażasz się na mniejszą moc (power, tutaj) albo podwyżasz prawdopodobieństwo popełnienie błędu I-go rodzaju (czyli, że będziemy uważać, że różnic w średnich nie ma, podczas gdy w rzeczywistości one są). Jak może wyglądać dwukrokowa procedura? Na przykład tak: test Shapiro-Wilka+test Bartletta+test F albo test Levene’a + test F. Na polskich uczelniach jeszcze jest wykładane właśnie takie zalecenie, ale za naszą zachodnią miedzą odradza się sprawdzanie założeń metodami testowania (‘odradza’ od ‘odradzić’, discourage, a nie ‘odrodzić’, revive). To skąd wiedzieć, że założenia są spełnione? Najlepiej z teorii, ale w naszej działce raczej nie posługujemy się aż dokładnymi miarami jak kształt rozkładu wybranej cechy. Dość tego, że wiemy, że rozkład inteligencji jest normalny (choć bywa to kwestionowane). Ważne jest oglądanie własnych danych na własne oczy, czyli ‘Z-oczanie’ próby, do czego zachęcam nie tylko ja, ale też pozostali poważni i poważani statystycy (żyjący i umarli np. John Tukey). Najlepiej obejrzeć dane, a w razie poważnych wątpliwości uciec się np. do bootstrapu czy zrezygnować z danej techniki statystycznej (łatwo mi powiedzieć, nie?). Są reguły kciuka, które pozwalają zdecydować, co zrobić (o tym jest w punkcie pt. Niespełnienie założeń, dużo niżej, na samym końcu).

Ad. 2. Co zrobić dalej, jeśli wynik testu F jest istotny statystycznie?
Zaczniemy od zgoła innej sytuacji: gdy wynik testu F jednak nie jest istotny statystycznie, czyli p-wartość wynosi więcej niż przyjęty poziom istotności α równy zwyczajowo 0.05. Obrazowo rzecz ujmując, nieistotny statystycznie wynik testu F oznacza taką sytucję:

Rys. 3. Sytuacja spełniająca hipotezę równości trzech średnich (LJK).

W takim wypadku idziemy do domu. Natomiast trzeba byłoby zrobić coś dalej, jeśli - przechodząc już do tytułu podpunktu - rezultatem analiz jest istotny statystycznie wynik testu F. Jest to wynik statystyki testowej, której towarzyszy p-wartość mniejsza niż przyjęty poziom istotności α = 0.05, np. p-wartość wynosi 0.013 oznacza istotność statystyczną. Ale jakby to mogło wyglądać? Średnie z gatunku ‘każda z innej parafii’:

Rys. 4. Sytuacja hipotezy alternatywnej - wszystkie średnie różne od siebie (LJK).

Albo dwie średnie są sobie równe, ale trzecia jest inna (trzy różne scenariusze).

Rys. 5. Sytuacja hipotezy alternatywnej - jedna średnia różna od pozostałych (LJK).

Akurat na powyższych rysunkach ta średnia, która powoduje odrzucenie hipotezy zerowej, jest zawsze mniejsza niż pozostałe dwie. Łatwo można przełożyć to na sytuację, w której jedna średnia jest wyższa od dwóch pozostałych. Badacz nie może jednak na podstawie rysunku stwierdzić, która z powyższych możliwości ma miejsce, więc ucieka się do formalnych testów statystycznych, testów post-hoc. Wiedząc już, że równość między średnimi nie zachodzi, trzeba znaleźć wzorzec średnich. O co chodzi? Jeśli równość μ1 = μ 2 = μ3 nie jest spełniona, to gdzie wstawić znaczek nierówności ? Czy jest μ1 μ2, czy zachodzi μ1 μ3 , a może nierówność znajduje się między drugą grupą a trzecią μ2 μ3 ? Trzeba było ‘grzebnąć’ dalej i dowiedzieć się. Służy do tego cała bateria testów post-hoc. Post-hoc, czyli ‘po tym’. (‘Ad hoc’ znaczy ‘doraźnie’). ‘Po tym’ czyli po czym? Po dokonaniu głównego testu F. Test post-hoc jest wykonywany po otrzymaniu istotnego statystycznie wyniku testu F.

Przykładowe testy post-hoc:
• NIR - największej istotnej różnicy
• Bonferroniego
• Sidaka
• Scheffego
• Gamesa-Howella
• i inne ...

Nie podam całej charakterystyki tych testów, bo omówienie różnic i podobieństw wykracza poza ramy posta. Dość, że wiadomo, że takie są i że są wykonywane po uzyskaniu istotnego statystycznie wyniku testu F w celu sprawdzenia, która różnica między dwoma średnimi jest istotna statystycznie.

A teraz nagły zwrot akcji - to nie jest tak, że testy post-hoc możemy wykonywać tylko wówczas, gdy ANOVA okaże się być istotna statystycznie. ANOVA i testy post-hoc w zasadzie funkcjonują niezależnie. Po prostu w naszej praktyce tak się utarło, że po istotnym statystycznie teście F przeprowadzamy testy post-hoc.

P.s. Różne rodzaje słowa wariancja.
Analiza wariancji i wariancja, albo może wariacja? Zwłaszcza na początku te słowa mylą się, chociażby ze względu na podobne brzmienie. Zacznę od końca listy. "Wariacja" to sposób losowania elementów zbioru, może być z powtórzeniami, albo bez, jednak w statystyce to pojęcie nie znajduje zastosowania. "Wariancja" ("n" w środku) to inaczej "zmienność". To parametr opisujący, jak obserwacje rozkładają się wokół średniej. Analiza wariancji to wyżej opisana metoda statystyczna, ANOVA. Służy do zbadania, czy średni poziom wybranej cechy jest równy lub różny w grupach. Od strony technicznej ta metoda ma wiele wspólnego z badaniem zmienności tej cechy, stąd też nazwa: analiza wariancji.

Coś więcej tutaj jeszcze będzie ;-)

poniedziałek, 2 kwietnia 2018

Prima Aprilis 2018

Cześć, dzień dobry, witajcie!

Z okazji nieco już nieświeżego pierwszego kwietnia (Prima Aprilis) wygrzebałam dla Was kilka czerstwych dowcipów o statystyce - do poczytania, zanim zaczniecie uczyć się i aby wzbudzić motywację ;-)


1. Z podręczników do statystyki wynika, że 30 to nieskończoność.

2. Statystyka odgrywa ważną rolę w genetyce. Na przykład dowodzi, że liczba potomstwa jest cechą dziedziczną. Jeśli twój rodzic nie miał dzieci, to są szanse na to, że Ty też nie będziesz.

3. Statystykowi urodziły się bliźniaki. Zadzwonił do księdza, który od razu chciał umówić dzień chrztu - 'Przynieś je do kościoła w niedzielę, to je ochrzczę'. 'Nie' - odpowiada statystyk - 'do ochrzczenia przyniosę jednego z nich, a drugi będzie grupą kontrolną'.

4. Jak wielu statystyków jest potrzebnych do wykręcenia żarówki? Między 5 a 7, p< 0.005.

5. Średnio rzecz ujmując, każdy z nas ma po jednej piersi i jednym jądrze.

środa, 21 lutego 2018

EFA i PCA

Opis próby czy testowanie hipotez to nie są jedyne zadania rozwiązywane za pomocą narzędzi statystycznych. Dzięki nim duży zbiór cech można spróbować sprowadzić do mniejszego. Można również pokusić się o sprawdzenie, czy istnieje zestaw ukrytych cech, który generuje otrzymany zbiór danych (zwykle: odpowiedzi w kwestionariuszu). Redukcja da-
nych oraz odkrywanie struktury zmiennych to dwie kolejne obszary zastosowań statystyki. Poniższy materiał zawiera wprowadzenie do analizy czynnikowej oraz rozszerzenie materiału o analizie składowych głównych (wprowadzenie do PCA znajduje się tutaj pca).

Zanim przejdziemy do głównego tematu, chciałam nawiązać do kilka pojęć, które będą potrzebne do omówienia trudniejszych zagadnień. Oto ich lista:
• zmienność
• kombinacja liniowa
• macierz korelacji i jej dekompozycja według wartości własnych


Zmienność.
Zmienność można rozumieć tak jak to słowo brzmi - chodzi o zróżnicowanie wartości, które może przyjąć zmienna losowa - różnimy się między sobą na wielu, wielu wymiarach, nie tylko wzrostem i wagą, ale całym zbiorem zjawisk psychicznych. W tym materiale będę pisać zmienne losowe, mając na myśli typowo psychologiczne pojęcia: albo po prostu cechy, albo - bardziej metodologicznie namacalnie - itemy, czyli pozycje testowe. Zmienne losowe mogą być też stałe - to znaczy przyjmować te same wartości dla różnych obserwacji, w myśl zasady - każdemu po równo (lewa część poniższego rysunku). Oczywiście, taka cecha, która ma stałą wartość niezależnie od osoby badanej jest nieinteresująca i zarazem mało informatywna - nie niesie w sobie za wiele informacji. Taki item także jest nieinteresujący, jeśli wszyscy odpowiedzą tak samo. Dodatkowo, może również prowadzić do kłopotów w analizach.

Rys. Stałość i zmienność zmiennych losowych (LJK)

Zmienność zmiennej X można opisywać za pomocą różnych wskaźników (zwanych statystykami, zwłaszcza gdy mają pożądane właściwości) np. rozstęp, czyli różnica między największą a najmniejszą wartością albo rozstęp międzykwartylowy. Spośród nich wszystkich najbardziej popularną jest wariancja, var(X). O innych pisałam tu:klik.

W tym miejscu, chciałabym napisać o dwóch pojęciach: zmienności wspólnej i swoistej, mimo że jeszcze nie wprowadziłam pojęcia ’czynnik’, dlatego proszę Czytelnika o cierpliwość.
Mamy zbiór danych. W zbiorze danych są zarówno obserwacje (zwykle w wierszach) i zmienne (zwykle w kolumnach). Zmienność danej zmiennej X wyrażona przez wariancję var(X) można rozłożyć na zmienność wspólną i zmienność swoistą. Zmienność wspólna jest to ta część, która jest wyjaśniona przez (ukryte) czynniki.

Zmienność swoista jest właściwa tylko danej zmiennej. Zapisując to równaniem:
wariancja zmiennej X = wariancja wspólna + wariancja swoista
Matematycznie powyższy zapis przełożę na:
varX = h2i + u2i
gdzie h2i i - wariancja wspólna (zwana też ’zasobami wspólnymi’, communalities) wyjaśniona przez czynniki ukryte, ui - wariancja swoista charakterystyczna tylko dla tej konkretnej zmiennej w zebranej bazie obserwacji.

Kombinacja liniowa.
Kombinacja liniowa ma ścisłą definicją w języku matematycznym, natomiast ja chciałabym wprowadzić pojęcie kombinacji liniowej przez podanie przykładu. Liceum MMXL wprowadziło ocenę osiągnięć ucznia na podstawie trzech typów ocen cząstkowych: wyniki w naukach przyrodniczo-technicznych (matematyka, fizyka, chemia), wyniki w naukach humanistycznych (język polski, język angielski, historia) oraz wyniki sportowe.

Zbiorcza ocena Osiągniecia szkolne liczona jest w następujący sposób:
OS = 6 · Wyniki w naukach przyrodniczo − technicznych +
5 · Wyniki w naukach humanistycznych + 4 · Wyniki Sportowe
Osiągnięcia Szkolne są zatem sumą poszczególnych ocen cząstkowych z odpowiednimi wagami - najbardziej liczą się nauki ścisłe, najmniej punktów uczeń zdobywa za w-f. Przemnożenie zmiennych przez liczby oraz zsumowanie daje jedną zmienną, OS. Można zatem powiedzieć, że Osiągnięcia Szkolne są kombinacją liniową trzech typów ocen: Wyników w naukach przyrodniczo-technicznych, humanistycznych i sportowych. Kombinacją - ponieważ kombinują, czyli łączą trzy wskaźniki i robi się jeden, Osiągnięcia Szkolne. Na dodatek, żadna z cząstkowych ocen nie jest podnoszona do kwadratu czy pierwiastkowana - jest jedynie przemnożona przez konkretną liczbę (stąd jest to kombinacja liniowa, a nie np. kwadratowa).

Macierz korelacji i jej dekompozycja według wartości własnych, które są wielkościami wariancji czynnika. Teraz powyższe zdanie nie ma większego sensu, więc zacznijmy od początku: zmienność jednej zmiennej opisywana jest za pomocą wariancji, var(X). Dalej, współzmienność dwóch zmiennych X oraz Y można przedstawić za pomocą korelacji, cor(X, Y). Jeśli mamy więcej niż dwie zmienne, współzmienność wszystkich możliwych par zmiennych możemy przedstawić w postaci tablicy, o której profesjonalnie mówi się macierz. To właśnie macierz korelacji stanowi centrum zainteresowania zarówno analizy czynnikowej, jak i analizy składowych głównych. Poznajmy trochę nowe pojęcie.
Dla trzech zmiennych X1, X2, X3 macierz korelacji wygląda następująco:



Wartości w powyższej macierzy zaznaczone zielonym kolorem znajdują się na głównej przekątnej macierzy. Każda macierz ma główną przekątną. Część macierzy jest względem niej symetryczna, tj. wartości pod główną przekątną są odbite nad główną przekątną (ona zachowuje się jak lustro). Jedną z macierzy symetrycznych jest macierz korelacji, bo przecież korelacja X1 i X2 jest taka sama jak korelacja X2 i X1 - kolejność nie ma znaczenia.
W macierzy korelacji na głównej przekątnej figurują wariancje poszczególnych zmierzonych zmiennnych:
var(X1), var(X2), var(X3)
Tak wygląda pełna macierz korelacji. Gdyby zamiast wariancji zmiennych, na przekątnej znalazłby się tylko wariancje wspólne hi2 (patrz wyżej), to taka macierz ze zmienioną główną przekątną byłaby zredukowaną macierzą korelacji. Dlaczego o tym piszę? Bo pełną macierzą korelacji zajmuje się analiza składowych głównych, a zredukowaną macierzą korelacji zajmuje się analiza czynnikowa - to jest podstawowa różnica między tymi dwoma technikami statystycznymi. Ma to ogromne konsekwencje w interpretacji wyników i dlatego nie wolno tego mieszać.

Jeszcze chwilę popatrzymy na macierze.
Dla n zmiennych X1 , X2 , ... , Xn , gdzie n jest dowolną liczbą, np. 563. Macierz korelacji jest odpowiednio większa:



Macierz jednostkowa - to macierz, która ma przekątnej (głównej) jedynki, a w pozostałych miejscach zera:



Zmienne latentne
Co to są zmienne latentne (zmienne ukryte, a tutaj: czynniki)? Najprościej rzecz ujmując, są to zmienne których nie da się bezpośrednio zaobserwować. Możemy badać czas reakcji, który jest pewnym wskaźnikiem stanów czy cech psychicznych. Możemy sprawdzać, czy dana osoba jest towarzyska, nie-małomówna, ale nie wyjmiemy termometru, żeby zbadać jej ekstrawersję. My możemy najczęściej badać przejawy ukrytych cech - inteligencji, cech osobowości, itp. Aby odkryć te ukryte zmienne należy zająć się dwoma matematycznymi obiektami związanymi z macierzami.
Są to: wartości własne oraz wektory własne - występują one parami: każdej wartości własnej przyporządkowany jest wektor własny. W zasadzie, to najbardziej interesujące są wartości własne - z jednej strony można o nich myśleć, jako liczbach, które charakteryzują macierz: są jakby jej liniami papilarnymi. Ma to przełożenie na praktykę, bo wartość własna jest równa wariancji czynnika. Z kolei nam zależy na czynnikach o jak największych wartościach własnych, bo wówczas czynniki te zawierają jak najwięcej wariancji z oryginalnego zbioru danych.

EFA i PCA
Analiz dokonuje się nie tylko po to, aby opisywać próbę, ale także, aby wykryć strukturę danych (odkryć procesy stojące za danymi) lub zredukować je do mniejszego rozmiaru. EFA (Exploratory Factor Analysis) jest przykładem modelu wspólnego czynnika, zakładającego, że za zbiorem zmierzonych zmiennych kryją się wyjaśniające ich zmienność czynniki wspólne i czynniki specyficzne (swoiste) - patrz wyżej. Czynniki wspólne są nieobserwowalnymi zmiennymi, które mogą mieć wpływ na więcej niż jedną zmienną obserwowalną X. Czynnik specyficzny (swoisty, unikalny, unique) jest właściwy tylko dla danej zmiennej X. Posługując się terminem ’kombinacje liniowe’ - każda zmierzona zmienna jest liniową kombinacją jednego lub więcej wspólnych czynników i jednego unikalnego (specyficznego) czynnika. I w drugą stronę, czynnik można przedstawić w postaci kombinacji liniowej oryginalnych zmiennych obserwowalnych i spojrzeć na niego z nieco bardziej ogólnego punktu widzenia, a także nadać abstrakcyjną nazwę.
Natomiast PCA jest metodą redukcją danych bez rozdzielania na wariancję wspólną i swoistą. Dla przykładu: zbiór dziesięciu oryginalnych zmiennych można sprowadzić do zbioru czterech nowych zmiennych, zachowując możliwie najwięcej informacji (czyli jak największą zmienność oryginalnych zmiennych, bo w gruncie rzeczy to jest ta ’informacja’). Z tego względu, celem PCA jest przedstawić oryginalne zmienne obserwowalne za pomocą liniowych kombinacji składowych, tak jakby spakować je do mniejszych zmiennych. Analiza czynnikowa oraz redukcja danych są stosowane gdy zmienne obserwowane traktujemy jako ciągłe i gdy oczekujemy ciągłych zmiennych ukrytych (to ustalasz Ty, drogi badaczu).
Poniżej znajduje się ogólny opis obu technik wraz z towarzyszącym zbiorem różnych statystyk, wspomagających badacza.
Podczas realizacji zadania EFA czy PCA, często posiłkujemy się różnymi regułami kciuka, które pomagają odpowiedzieć na pytania, przed którymi stoi badacz: jak określić liczbę czynników, ile zmiennych należy wybrać do analiz, jak ocenić wyniki etc. Mimo wszystko, reguły kciuka pozostają heurystycznymi regułami - w większości przypadków działają, ale nigdy nie jesteśmy pewni, czy nasz przypadek jest we właściwej kategorii. A ponieważ nie są udowodnionymi matematycznie zasadami, to zdania są podzielone i można spotkać różne opinie. O niektórych regułach kciuka napisałam. Dodatkowo, nie napisałam również o wszystkich możliwych statystykach wykorzystywanych w analizie - powodem takiej decyzji jest to, że jest ich bardzo dużo, a mi zależało na przed stawieniu sedna problemu EFA i PCA, zamiast tworzeniu poradnika parametrów.

Różnica między PCA a EFA
Podstawowa różnica między EFA a PCA tkwi (dosłownie) w przedmiocie analiz. PCA ’trawi’ pełną macierz korelacji, z kolei EFA zmaga się ze zredukowaną macierzą korelacji - zredukowaną o wariancję swoistą poszczególnych zmiennych obserwowalnych. EFA szuka struktury ukrytych zmiennych nieobciążonych wariancją swoistą, a PCA jest metodą redukcji danych do mniejszego rozmiaru bez rozróżnienia na rodzaje wariancji. Różnica znajduje odbicie w nomenklaturze - EFA tworzy czynniki (ukryte), a PCA - składowe (główne).

Różnice przedstawione matematycznie
PCA - Principal Components Analysis Analiza Składowych Głównych - oryginalne zmienne obserwowalne w
bazie można przedstawić w postaci kombinacji liniowych składowych:
Z = A · G
A - macierz ładunków
G - macierz składowych głównych
FA - Factor analysis Analiza czynnikowa - oryginalne zmienne obserwowalne w bazie można przedstawić w
postaci kombinacji liniowych czynników ukrytych oraz specyficznych:
Z = A · F + B · U
A - macierz ładunków
F - macierz czynników wspólnych
B - macierz ładunków specyficznych
U - macierz czynników specyficznych
Nawet jeśli te powyższe równania niewiele mówią, to z samego porównania prawych stron tych równań, widać że w pierwszym przypadku zmienność zmiennych obserwowalnych Z jest przedstawiona jako przemnożenie dwóch bytów A oraz G, a w drugim przypadku jest jeszcze coś dodanego - chodzi o to, że zmienność Z rozłożono na część wspólną i część specyficzną, tak że przedmiotem analiz stała się zredukowana macierz korelacji (to jest w dużym uproszczeniu).

Zmienne w modelu
Kluczową dla analizy czynnikowej jest decyzja o tym, które zmienne obserwowalne z bazy włączyć do modelu - to na przykład są itemy w kwestionariuszu. Odpowiedź na pytanie, jakie zmienne powinny wejść do analiz, ma daleko idące konsekwencje. Może się zdarzyć, że w wyniku wybrania nieoptymalnego zbioru zmiennych otrzymamy wyniki, delikatnie rzecz ujmując, trudne do zinterpretowania. Chodzi o stabilność algorytmów, dzięki którym otrzymujemy ’cyferki’ - źle się zachowują, jeśli mamy zmienne, które nie wnoszą żadnej informacji, np. wartości takiego itemu są te same: wszyscy odpowiedzieli nie wiem. Zaciemniać analizy mogą między innymi te zmienne (itemy), które niosą małą ilość informacji lub nie korelują między sobą. Dobrze byłoby, aby na jeden ukryty czynnik przypadało 3 lub 4 zmienne obserwowalne (albo itemy).

Statystyką wspierającą podjęcie decyzji dotyczącej zmiennych w modelu jest ZZW, Zasób Zmienności Wspólnej lub krócej: zasoby wspólne. Jest to ilość wariancji danej zmiennej obserwowalnej X, która może zostać wyjaśniona przez wybraną przez użytkowaną lub sugerowaną przez teorię liczbę czynników. Ze względu na to, że PCA operuje pełną macierzą wariancji-kowariancji, początkowy (przed uzyskiwaniem/ekstrahowaniem składowych) zasób zmienności wspólnej wynosi 1. Za to EFA korzysta ze zredukowanej macierzy korelacji i statystyki ZZW (podczas analizy czynnikowej) dla każdej zmiennej będą różne od 1. Początkowy ZZW danej zmiennej (itemu; pytania w kwestionariuszu) przed wyodrębnieniem oznacza ilość wariancji tej zmiennej wyjaśnionej przez wszystkie czynniki (albo składowe, jeśli PCA). ZZW po wyodrębnieniu oznacza ilość wariancji wyjaśnionej przez czynniki, które ostatecznie wzięły udział w danym rozwiązaniu.

Wielkość próby - Nie ma jednoznacznych wskazań. Co gorsza, nie ma też zbieżnych zdań na ten temat. W przypadku, gdy zmienne posiadają duże zasoby wspólne (ZZW, więcej: wyżej), to wystarczy około 100 elementów. Przy małych zasobach wspólnych nawet 200 czy 300 nie wystarczy. Obok wielkości próby istotnym elementem jest jakość tej próby - próba niezbyt homogeniczna (jednorodna) w badaniu może również spowodować problemy. Najlepiej jest badać różne osoby (nie tylko studentów pierwszego roku psychologii).

Ilość czynników
Aby określić liczbę czynników do dyspozycji dwa sposoby. Po pierwsze: teoria, która pozwala spodziewać się, ile czynników ukrytych występuje, np. model Wielkiej Piątki zaskakująco zakłada pięć czynników. Drugim sposobem jest wykorzystać dostępne wskaźniki, które pozwolą podjąć decyzję. Podstawowym narzędziem jest wykres osypiska (ang. scree plot), który prezentuje uszeregowane wartości własne od największej do najmniejszej. Wykres ten wypłaszcza się od pewnej wartości - przyjmuje się, że jest to punkt odcięcia liczby czynników.
Inne kryterium - kryterium Kaizera - pozwala wskazać ilość czynników na podstawie wartości własnych. Ta reguła kciuka mówi, że liczba czynników zależy od liczby wartości własne większych od jednego (1).
Poniżej znajduje się wykres osypiska (przykładowy).

Rys. Wykres osypiska dla EFA i dla PCA (LJK).

To są w zasadzie dwa nałożone na siebie wykresy osypiska - jeden, ten z czarnymi kropkami, to wykres osypiska dla analizy składowych głównych (PCA). Drugi, z kropkami o pustym środku, to wykres osypiska dla analizy czynnikowej. Dlaczego one się nie pokrywają? Tak jak już pisałam, pierwsza technika, PCA, operuje na pełnej macierzy korelacji między zmiennymi. Druga technika, FA, bazuje na zredukowanej macierzy korelacji. Stąd też obliczenia w obu technikach będą różne

Ekstrakcja czynnika
Algorytmy zaimplementowane w programie statystycznym pozwalają na wyodrębnianie (ekstrakcję) czynników za pomocą kilku metod. Są to np.: metoda największej wiarygodności, która zakłada wielowymiarowy rozkład normalny zmiennych obserwowalnych X. Cóż, po pierwsze - większość zmiennych nie ma takiego rozkładu, a po drugie - normalność rozkładu poszczególnych zmiennych nie gwarantuje normalności wspólnego rozkładu: To, że każdy z osobna item ma rozkład normalny, nie znaczy jeszcze, że wszystkie w kupie mają wielowymiarowy rozkład normalny (to nie jest oczywiste).
Metodą, która radzi sobie z powyższym problemem, jest metoda osi głównych (principal axis) - ta metoda nie wymaga normalności rozkładu, więc jest ’bezpieczniejsza’. Mimo tego, dobrze byłoby przejrzeć zmienne pod kątem występowania wartości odstających, tzw. outlierów. Zawsze przed analizami zrób tzw. data screening, pooglądaj te dane.

Ładunki czynników.
Skoro każda zmienna obserwowalna jest kombinacją liniową czynników wspólnych, to można ją przedstawić w taki sposób:
X = a · F1 + b · F2 + ... + k · Fk
gdzie F1 , F2 , ... , Fk symbolizują ukryte czynniki, a X to zmienna obserwowalna. Liczby a, b, ... k, przez które przemnażane są czynniki to są właśnie ładunki czynnikowe (factor loadings). Pokazują one, jak bardzo zmienna X ’ładuje’ dany czynnik. Im wyższa wartość, tym bardziej dana zmienna ma swój udział w czynniku. W praktyce, interesują nas te ładunki, które są powyżej 0.5 (to jest kolejna reguła kciuka). Skoro jest to reguła kciuka, to nie ma co się dziwić, że niektórzy przyjmą 0.3 za wartość progową dla ładunków.

Rotacja
Rotacja rozwiązania, czyli obracanie układu współrzędnych nowych zmiennych (czynników lub składowych) tak, aby można było łatwiej zinterpretować wyniki. Między innymi zależy nam na tym, aby jedna zmienna obserwowalna X nie ładowała więcej niż jednego czynnika na raz. Takie crossloadings zmiennej X z dwoma lub więcej czynnikami są problematyczne, np. jeśli X ładuje wysoko zarówno czynnik A i czynnik B, wówczas trudno taką zmienną poprawnie zinterpretować.

Rotacje dzielą się na ortogonalne (np. varimax) i nieortogonalne (skośne - np. oblimin). Ortogonalne nie pozwalają na to, aby czynniki były skorelowane ze sobą, natomiast nieortogonalne dopuszczają taką możliwość. Jeśli wykorzystamy rotacje nieortogonalne, to macierz ładunków czynnikowych rozłoży się na dwie części: macierz modelową (pattern matrix) oraz macierz struktury (structure matrix). Aby odczytać ładunki w takim przypadku, należy wykorzystać macierz modelową (pattern matrix).
Dopuszczenie skorelowania (czyli nieortogonalności) czynników ukrytych jest czasem dobrym rozwiązaniem z tego względu, że rzadko ukryte cechy psychologiczne, które są odpowiedzialne za strukturę otrzymanych danych, są zupełnie niezależne od siebie. Przykład (zupełnie losowy) - niech zmiennymi ukrytymi będą lęk i konserwatyzm. Mimo, że to są odrębne konstrukty psychiczne, nie można twierdzić, że są one całkowicie niezależne od siebie, dlatego warto byłoby dopuścić ich skorelowanie.

Ładunki krzyżowe
Idealnie jest, jeśli dany item ładuje tylko jeden, podstawowy dla siebie czynnik. Oznacza to wtedy, że item ten bada tylko jedną cechę, ale jest to sytuacja tylko idealna. Często jest tak, że dwa (i więcej) czynników wyraża się przez jeden item, np. pytanie o krzywdę wyrządzoną drugiej osobie może być zrozumiane jako pytanie o krzywdę dziecku. Dlatego żąda się, aby ładunki krzyżowe, czyli te ładunki, które dotyczą pozostałych czynników, a nie tego podstawowego, pozostały jak najmniejsze. I kolejna reguła kciuka jest taka, żeby ładunki wynosiły mniej niż |0.3| (chodzi o wartość bezwzględną, wszystko co leży na lewo i na prawo od zera w odległości do 0.3 jest uznawane za dopuszczalne).

Ocena analiz
Ocena danych pod katem analizy polega na ocenie kilku parametrów z których wymienię jedynie: wyznacznik macierzy korelacji oraz test sferyczności Bartletta i Kryterium KMO. Wyznacznik macierzy to kolejny, obok wartości własnych, atrybut macierzy. Dzięki niemu wiadomo, czy dany zbiór zmiennych obserwowalnych można sprowadzić do mniejszego rozmiaru. Jeśli wyznacznik macierzy jest równy 1 oznacza to, że zmienne są słabo skorelowane ze sobą i zmienić wymiaru zmiennych nie da się. Test sferyczności Bartletta 1 jest testem, który sprawdza hipotezę o tym, że wyznacznik macierzy jest równy 1.
Gdyby tak było, to macierz korelacji miałaby same jedynki na przekątnej, które oznaczałyby że jest to macierz jednostkową (patrz wyżej).
Miara Kaiser-Meyer-Olkin (miara KMO) - kolejna miara adekwatności próby, w zasadzie macierzy korelacji, sprawdzająca czy dane mogą być użyte w analizie. Pomijając równania, zadowolimy się wartościami referencyjnymi: najlepsze wartości to te bliskie 1. Minimalna wartość tej miary, uważana za dopuszczalną wynosi 0.5

Konfirmacyjna czy Eksploracyjna?
Rozróżnienie między tymi dwoma typami analizy czynnikowej (lub PCA) tak naprawdę sprowadza się do intencji badacza - czy jego celem badacza sprawdzenie struktury danych (eksploracja) czy też potwierdzenie struktury badacza (konfirmacja)? W praktyce wygląda to tak, że jeśli badacz nie ma wcześniej przyjętych założeń co do postaci danych, to po prostu podąża za wynikami analizy, np. wykres osypiska pokazuje, że istnieją trzy czynniki, zatem rzeczony badacz ’wymusza’ ekstrakcję trzech czynników i później zastanawia się czy ma to uzasadnienie teoretyczne. Może on testować, czy rozwiązanie z mniejszą lub większą liczbą czynników będzie lepsze. Jeśli badacz ma założoną pewną strukturę danych i do dyspozycji była teoria przepowiadająca z góry określoną liczbę czynników, np. tak jak w teorii MFT 5 czynników, to badacz ustawia w programie ekstrakcję 5 czynników i może to uznać, za próbę potwierdzenia swojego modelu.
Tak, ale to, co napisałam powyżej, to trochę takie akrobacje umysłowe. Użycie EFA do potwierdzenia struktury czynnikowej nie jest bezspornie przyjętą metodą potwierdzania modelu czy hipotez. Raczej używa się do tego równań strukturalnych SEM (chociaż one też mogą być wykorzystywane do eksploracji) - równania te pozwalają badać stopień rozbieżności między danymi a postulowanym przez badacza modelem, który został z góry, przed badaniem opracowany.

PODSUMOWANIE



wtorek, 2 stycznia 2018

Dystrybuanta rozkładu prawdopodobieństwa.

Zaczynamy zajęcia ze statystyki, prowadzący lub prowadząca przedstawia podstawy rachunku prawdopodobieństwa, zdarzenie elementarne, losowe i przechodzimy do zagadnienia przedstawienia jakoś szans pojawienia się wyników zmiennej losowej - rzutu monetą, kostką, okiem i beretem. I widzimy taki jakiś wzorek:
F(t) = P( -∞< t) 
i koniec. Język matematyczny to bardzo ładny i zwięzły język, którym można wiele myśli wyrazić i wiele idei przekonać. Wiele nie znaczy: wszystko i dlatego mogę pisać tego bloga. W tym poście przedstawię pojęcie matematyczne - dystrybuantę - które służą do opisu szans wystąpienia możliwych wartości zmiennej losowej. Jakiejś zmiennej losowej.


Prawdopodobieństwo trzeba jakoś przedstawić. Można to zrobić w postaci: (a) funkcji prawdopodobieństwa, (b) gęstości, (c) zbiorczo: w postaci skumulowanej, tj. pokazać, jakie jest prawdopodobieństwo spotkania obserwacji do wybranego poziomu, np. jakie jest odsetek dzieci, który osiągnęły wzrost do danego, od najmniejszego możliwego.
Wychodzi na to, że nie wystarczy podać odsetka dzieci, które osiągnęły dany wzrost, tylko wszystkie mniejsze też. Trochę to nieintuicyjne na pierwszy rzut oka, bo na pytanie ile masz centymetrów wzrostu, odpowiadamy konkretnie: "Mam 172 cm", a nie "Do 172", ale uwierzcie mi, że to ma sens przy korzystaniu ze statystyki. W tym miejscu chodzi o to, aby rozmówcy zadać pytanie: 'jaka jest szansa, że Twój wzrost wynosi do 172 cm'. To na razie załatwia sprawę skumulowania. Ale dystrybuanta to nie synonim na skumulowane prawdaopodobieństwo, choć mają wiele wspólnego.Dalej okaże się, co jest różne.



Aby przekształcić rozkład prawdopodobieństwa (podany w powyższej postaci) do dystrybuanty należy w kolejno dodawać do siebie wartości tego prawdopodobieństwa. Na pierwszym miejscu jest liczba oczek, na drugim miejscu skumulowane prawdopodobieństwo uzyskania liczby oczek do podanej:



W przypadku rozkładów dyskretnych (rozkład dyskretny?klik), takich jak rzut kostką (monetą również) punkty, których następuje dodanie prawdopodobieństwa, nazywamy punktami skoku. Więc punktami skokowymi (skoku) są wszystkie
możliwości wyrzutu oczek.

Rys. Skumulowany rozkład zmiennej o tytule Rzut kostką (LJK).

Na powyższym rysunku wygląda to tak, jakby wykres miał wartości jedynie w czarnych punktach a poza nimi nic nie było. Tak może być tylko i wyłącznie gdy rozmawiamy o skumulowanym prawdopodobieństwie w potocznym tego słowa znaczeniu, gdzie nie ma sensu rozmawiać o tym, ile ono wynosi w punkcie 3.5, bo nie można wyrzucić trzy-i-pół oczka. Okazuje się, że różnica między skumulowanym prawdopodobieństwie a dystrybuantą jest taka, że dystrybuanta muruje dziury w wykresie skumulowanego prawdopodobieństwa: zobaczcie sami (niżej).

Rys. Dystrybuanta rozkładu zmiennej o tytule Rzut kostką (LJK).


Dystrybuanta jako pojęcie matematyczne to nieco szersza sprawa niż skumulowane prawdopodobieństwo. Żąda się bowiem, aby dystrybuanta, oznacza zwykle: F (x), była określona dla wszystkich liczb rzeczywistych, czyli dla wszystkch x ∈ R, nawet jeśli cecha nie pokrywa wszystkich liczb rzeczywistych (np. nie można wyrzucić trzy i pół oczka, nikt nie ma ujemnej samooceny).

Z tej przyczyny powstaje pozorny problem - co z takimi wartościami dystrybuanty, których cecha nie przyjmuje? Nie ma problemu dla wartości wyższych niż maksymalny poziom cechy - dla nich skumulowane prawdopodobieństwo będzie równe 1. Ponadto, nawet jeśli cecha nie przyjmuje jakiejś wartości, to może mieć wartości z jakiegoś mniejszego zakresu, np, P (X < 3.5) = P (X < 3) z tego powodu, że cecha nie przyjmuje
wartości z przedziału (3, 3.5) - ale przyjmuje wartości do 3 - w związku zachowujemy się tak, jakby pytano o liczbę oczek do trzech, zamiast trzy i pół. Wygląda na to, że prawdopodobieństwo przyjęcia wartości z przedziału od ponad 3 do 3.5 jest równe zero;P (3 < X < 3.5) = 0. Stawiamy zerowe prawdopodobieństwo tam, gdzie cecha nie przyjmuje takiej wartości.
Dodatkowo, zgodnie z intuicją skoro żadne prawdopodobieństwo nie jest ujemne, to cokolwiek dodawane do całości kumulacji wywoła powiększenie tej sumy - nigdy jej nie zmniejszy. Innymi słowami, kumulacja można pozostawać na stałym poziomie, ale nigdy nie może się zmniejszać. W ten sposób otrzymaliśmy trzy własności dystrybuanty - zapiszemy je formalnie.

Kryteria dystrybuanty - która funkcja jest dystrybuantą, a która nie jest?
Aby funkcja była dystrybuantą musi spełniać poniższe trzy kryteria:

1. dla x biegnących do minus ∞ F (x) = 0 oraz dla x biegnących do ∞ F (x) = 1, czyli:

2. prawostronnie ciągła
3. niemalejąca - czyli nie ma ujemnych prawdopodobieństw

To są formalne warunki dystrybuanty. Najciekawsze jest to, że jeśli narysujemy dowolną funkcję, lecz spełniającą powyższe kryteria to na pewno opisuje rozkład jakiejś zmiennej. Nie wiadomo, jaka i czy jest odkryta, ale już wiemy, że będzie to rozkład.

Dystrybuanta teoretyczna a empiryczna.
W matematycznym depozycie teoretycznym znajdują się idealne rozkłady - między innymi normalny modelujący, wykładniczy, jednostajny i inne.

Dystrybuanta teoretyczna to dystrybuanta wynikająca z teorii matematycznej, można ją potraktować jako dystrybuantę cechy w (niedostępnej) populacji. Dystrybuanta empiryczna to dystrybuanta uzyskana na podstawie próby.
Niech x będzie dowolnym wynikiem zmiennej (cechy) - możliwym bądź nie. Po prostu: obserwacją. Wartość gdzie n to liczebność próby.

Wzór gwiazdka *


Na przykład: symbol Fˆ5(3) [ef z daszkiem] oznacza ile elementów jest mniejszych lub równych 3 w pięcioelementowej próbce.


Dystrybuanta a gęstość.
Porównajmy teraz dwa widoki: dystrybuantę rozkładu standardowego normalnego N(0, 1) oraz gęstość rozkładu standardowego normalnego N(0, 1): 

Rys. Dystrybuanta (po lewej) a gęstość (po prawej) rozkładu normalnego standardowego (LJK).
 Należy pamiętać, że obie te krzywe opisują rozkład tej samej cechy. Ktoś, kto umie czytać dystrybuantę i gęstość potrafi poradzić sobie z odpowiedzią na dowolne pytanie o rozkład posługując się jedną i drugą zmienną.


Przykład.
Rzucaliśmy osiem razy kostką do gry - więc n = 8. Otrzymaliśmy takie wyniki: 3, 5, 2, 3, 2, 1, 4, 3. Ani razu szóstki, jedna jedynka, trzy trójki, jedna czwórka i jedna piątka. Najpierw policzymy dystrybuantę dla tej sytuacji, to będzie dystrybuanta empiryczna. Korzystam ze wzoru oznaczonego gwiazdką (skrolnij wyżej).
 

Jak narysować dystrybuantę w tej sytuacji? Możemy mieć dystrybuantę empiryczną i teoretyczną. Wiemy, że skoro teoretycznie wszystkie wyniki są jednakowo prawdopodobne, to otrzymalibyśmy dystrybuanta teoretyczna. Z kolei dystrybuanta empiryczna odpowiada konkretnej sytuacji z zadania.

Rys. Dystrybuanta empiryczna i teoretyczna dla rzutu kostką (LJK).

Widać, że się różnią. Mają różne 'progi'. Wyniki to z tego, że dystrybuanta teoretyczna odpowiada sytuacji idealnej, wszystkie rzuty są jednakowo prawdopodobne, stąd te punkty skoku są takie same. Po prawej mamy dystrybuantę empiryczną, która pokazuje, co się zdarzyło. A że bywa różnie, i mimo tego, że szanse na jakiekolwiek wynik są równe, to i tak w konkretnej sytuacji otrzymujemy różne wyniki.

Uwaga.
W matematyce istnieje coś takiego jak 'dystrybucja' (nie, nie dóbr jak w ekonomii) i nie ma to nic wspólnego z 'dystrybuantą'.

piątek, 29 grudnia 2017

Sprawa Kołmogorov-Smirnov vs. Anderson-Darling

Poznamy teraz dwa testy badające, czy rozkład empiryczny jest pożądanym rozkładem. Oba te testy należą do tej samej grupy - pracują na dystrybuantach empirycznych. A dokładniej - mierzą stopień rozbieżności, między dystrybuantą empiryczną a teoretyczną. Oba jednak robią to na dwa różne sposoby.

TEST KOŁMOGOROVA-SMIRNOFFA

Zacznijmy od przykładu, a najlepsze przykłady to te życiowe. Mamy chłopców i dziewczynki - pytamy o to, w jakim momencie życiowym różnica między wzrostem chłopców a dziewczynek jest największa. W zasadzie to nawet mniej nas interesuje sam moment życiowy, jak ta maksymalna możliwa różnica.


Rys. Dystrybuanty skumulowane dla chłopców i dziewczynek (LJK).


Kołmogorova Smirnoffa właśnie bada największą odległość między krzywymi - ta różnica wynosi 0.6 (w moim przykładzie).

Badanie odległości między wykresami
W teście Kołmogorowa-Smirnoffa tak naprawdę chodzi o zbadanie odległości między dwoma wykresami funkcji: jedną jest rozkład cechy w naszej próbie, drugą jest rozkład teoretyczny, od którego podobieństwo pytamy test. Ale na moment zapomnijmy od rozkładach, testach i dystrybuantach i wróćmy do liceum lub technikum.

Przykład. Mamy dwie funkcje: jedna (liniowa)
y1 = f1(x) = x 
To jest tzw. tożsamość (identity): jedynce odpowiada jedynka, 1/2 odpowiada 1/2, pi odpowiada pi, dwójce dwójka, a zombi zombi itd.
Druga funkcja jest kwadratowa
y2 = f2(x) = x2
Dowolnej liczbie x przyporządkowuje jej kwadrat x2, np. 1/2 odpowiada 1/2 do kwadratu, czyli 1/4. 1/3 odpowiada 1/9, a 1/4 odpowiada 1/16. Zajmijmy się tylko liczbami od zera do jednego, czyli ułamkami - zaraz się okaże, dlaczego takie ograniczenie.

Pytanie o odległość między tymi funkcjami jest w zasadzie pytaniem o maksymalną różnicę między wartościami obu funkcji y1 oraz y2, jaka tylko może się zdarzyć.

Zróbmy to najpierw po kolei.
Dla x = 0 wartość pierwszej funkcji wynosi: f1(0) = 0 a wartość drugiej funkcji: f2(0) = 02=0, więc tu nie ma różnicy 0 − 0 = 0.
Dla x = 1/2 mamy w pierwszej funkcji f1(1/2) = 1/2, a w drugiej f2(1/2) = 1/4, więc różnica między nimi wynosi 1/2-1/4=1/4.
Dla x = 1/3 mamy w pierwszej funkcji f1(1/3) = 1/3, a w drugiej f2(1/3) = 1/9, więc różnica między nimi wynosi 1/3-1/9=2/9
I tak dalej, i tak dalej, i tak nieskończenie wiele razy, bo tyle jest liczb w przedziale od zera do jednego.
Gdybyśmy przejrzeli wszystkie punkty z przedziału od zera do jednego w końcu znaleźlibyśmy taki ułamek x, dla którego różnica między obiema funkcjami byłaby największa. Ale po co robić to ręcznie, skoro jest rachunek różniczkowy - istnieją matematyczne sposoby zamiast ręcznego szukania ułamek po ułamku :-).

Jeśli ktoś z liceum/technikum pamięta pochodną i jakieś porównywanie do zera, to właśnie w tym momencie zostało to wykorzystane, a my zobaczmy efekty:

Rys. Istota testu K-S, różnica między krzywymi (LJK).

Maksymalna odległość między tymi dwoma funkcjami f1(x) oraz f2(x) znajduje się dla x = 1/2 i wynosi 1/2 . Niby to samo 1/2, ale różne znaczenia. Czy to jest dużo czy mało? ‘To zależy’. Test K-S właśnie bada, czy maksymalna różnica między krzywymi (dokładniej te krzywe tu mają piękną nazwę: dystrybuantami) jest duża.
Akurat w przypadku dystrybuant można spodziewać się pewnego rodzaju wzorca takich różnic i jedne są uznawane za duże, a inne różnice za małe - dlatego to jest test statystyczny (może sprawdzić czy mamy do czynienia z typową różnicą, czy z ekstremalną <- to tak bardzo skrótowo).

Tak, jak już wspomniałam istotą testu K-S jest maksymalna różnica między dwie funkcjami reprezentującymi rozkład cechy i widać to w postaci analitycznej (czyli we wzorze) statystyki testowej:
T = sup |Fn(x) − F(x)|
gdzie T - statystyka testowa, sup oznacza, że chodzi o możliwie największą wartość różnicy między dwoma zwierzakami: Fn(x) to dystrybuanta empiryczna a F(x) - to dystrybuanta teoretyczna. Te pionowe kreski oznaczają wartość bezwzględną - interesuje nas wartość różnicy, a nie jej znak - wszystko jedno, czy minus 10 czy plus 10 stopni na dworze, mi i tak jest zimno :-)

TEST ANDERSONA-DARLINGA

Drugi test, który pomaga zbadać czy rozkład empiryczny jest rozkładem normalnym i który również w jakiś sposób wykorzystuje dystrybuanty empiryczne, to test Andersona-Darlinga. W zasadzie omówię nieco prostszą wersję testu Andersona-Darlinga, noszą kolejną nazwę pochodzącą od nazwisk twórców, tj. test Cramera-von Misesa. Zrobię to dlatego, że oba te testy: AD oraz CVM różnią się bardzo, bardzo niewiele, główna idea między nimi jest taka sama, przy czym łatwiej objaśnić CVM.
Wróćmy na chwilę do przykładu z funkcjami f1(x) (czyli liniowa) oraz f2(x) (czyli kwadratowa). Test K-S badał maksymalną różnicę między nimi. Kiedy tak patrzymy na rysunek, to przychodzi do głowy pytanie, dlaczego szukać maksymalnej różnicę - może lepiej byłoby scalić wszystkie różnice w jedną? Popatrzeć na pole między jedną a drugą krzywą?

Rys. Istota testu A-D - pole zostawione między dwiema krzywymi (LJK).

Jak obliczyć to pole zieleni? Na papierze rysujemy przerywaną linią kwadrat i rysujemy jego przekątną (zielona linia). Umieszczamy w kwadracie okrąg. Wycinamy z papieru wzdłuż przekątnej i przerywanych linii trójkąt. A potem wycinamy kawałek koła i mamy pole. Tak to mniej-więcej wygląda. Na szczęście
matematycy opracowali narzędzia, które pozwalają liczyć pole między dwoma krzywymi, bo to jest to, co w zasadzie robimy, bez wycinanek. Jeśli ktoś pamięta z edukacji szkolnej (zależnie kto, do jakiej chodził, zgodnie z reformą, ja chodziłam do prastarego liceum), do liczenia pól przydawały się całki i to jest to, co stanowi podstawę statystyki testowej w teście CVM.

gdzie T - statystyka testowa, Fn(x) to dystrybuanta empiryczna a F(x) to dystrybuanta teoretyczna. Tak, ja wiem, że to jest całka, ale powyższy wzór da radę rozumieć praktycznie następująco - oblicz pole, jakie znajduje się między wykresem jednej dystrybuanty, teoretycznej F(x) a wykresem drugiej dystrybuanty empirycznej Fn. "Oblicz powierzchnię błony jak tworzy się na dwóch dystrybuantach" - takie porównanie przychodzi mi do głowy.

Ściśle rzecz ujmując, test Andersona-Darlinga mniej więcej wygląda podobnie, poza tym wprowadza pewne ulepszenie do testu CVM - nadaje wagi tym różnicom. Dlatego też uprzedzam, że powyżej jest statystyka testowa dla CVM, dla AD nie chciałam podać, aby już nie mieszać sprawy z wagami.
Można powiedzieć, że test Andersona-Darlinga to taki upgrade testu Cramera-von-Misesa

Różnica między testem A-D a K-S
Różnicę między testem Andersona-Darlinga a testem Kołmogorova-Smirnoffa dobrze obrazuje różnica między dwie charakterystykami jeziora Loch Ness (niżej).

Rys. Jezioro Loch Ness jako ilustracja do różnicy między KS-AD (LJK).

Test Andersona Darlinga podaje powierzchnię jeziora (56.4km2) natomiast może też interesować nas maksymalna szerokość. Maksymalna szerokość Loch Ness to 1.5km (szerokość podajemy w zwykłych kilometrach, a powierzchnię w kilometrach kwadratowych). Jeden i drugi sposób daje pogląd na jezioro, i oba również tracą informację (pytanie o szerokość pomija powierzchnię jeziora; pytanie o powierzchnię jeziora pomija jego głębokość). Czerwona kreska oznacza maksymalną szerokość jeziora (oczywiście w tym ułożeniu, względem południków).

Jak to wykonać w SPSS-ie?
W SPSS-ie są dostępne tylko Kołmogorov-Smirnoff (oraz nieomówiony powyżej Shapiro-Wilk). W zasadzie to jest K-S z poprawką Lillieforsa i należy po kolei przeplikać:
Analiza→ Opis Częstości → Eksploruj 
a potem należy zaznaczyć okienko z poleceniem ‘Testy normalności wraz z wykresami’. I poszukać tabelki między wykresami (tak, ona może być w gąszczu wykresów).

czwartek, 28 grudnia 2017

Wesołego - Sylwestra i Szczęśliwego Nowego Roku!

Drodzy Czytelnicy mojego bloga, ... blożka w zasadzie, bo niektóre są strasznie obfite w treści, a ten w sumie nieduży :-)

Fot. LJK.


Z okazji Nowego Roku, który zdarzy się już w najbliższy poniedziałek, składam Wam najserdeczniejsze życzenia noworoczne. A żeby nie było, że tylko w Nowy Rok, to też i w pozostałe 365 dni również - zdrowia, szczęścia i ogólnie, żeby Wam się statystycznie lepiej wiodło niż w poprzednim. I czekolady! - Lili.

A powyżej to moja bombka choinkowa i przednia elewacja aparatu fotograficznego. Hej!


Ps. Jeśli zdarza mi się nie odpowiedzieć na wiadomość przez formularz, to trzeba wysłać drugi, przypominający :( Za wszelkie pominięcia przeproszę :-)

niedziela, 26 listopada 2017

Parametr μ jako stała (liczba) lub jako zmienna (losowa).

Zabiegi statystyczne służą do tego, aby móc na podstawie dobrze dobranej próby wnioskować o parametrach w populacji. Parametrach - czyli co? Zwykle uczymy się, że parametr to pewna stała liczba, której nie znamy i poznać dokładnie nie możemy, bo całej populacji nie przebadamy. A, i że oznacza się je greckimi  literami, np μ. Z tym drugim nie ma co dyskutować, skoro chcemy upamiętnić gracki alfabet, to niech będzie. Lepszy grecki alfabet niż chińskie znaczki. Natomiast myślenie o parametrze w kategoriach populacji to scheda po Ronaldzie A. Fisherze - genialnym matematyku i statystyku XX w., niemniej jednak był to tylko człowiek, który miał swoje przyzwyczajenia myślowe - postrzeganie parametru jako charakterystyce populacji jest jedną z nich. Z jednej strony można właśnie tak myśleć o parametrze: jako czymś, co charakteryzuje populację, np. średni poziom wzrostu wszystkich Polaków. Z drugiej strony łatwiej ogarnąć dalsze techniki statystyczne, gdy myśli się o parametrze jako o czymś, co bardziej charakteryzuje jakiś rozkład cechy niż samą populację. Dlaczego? Przecież wprawdzie badamy populację, ale dokładniej to celem badań jest rozkład cechy. To rozkład ma parametr (np. wykładniczy) lub parametry (normalny: średnia i wariancja), a nie sama populacja - populacja ma wiele cech, wzrost, przeżywalność, poziom depresji. Przy założeniu, że wzrost ma rozkład normalny to jest sens pytać o jego parametr μ (i średnią z próby wykorzystać jako przybliżenie tego μ). Niby jest to niewielka sprawa, ale w pierwszym przypadku parametr ‘fruwa’ w powietrzu jako charakterystyka populacji, a w drugim jest przytwierdzony do rozkładu cechy.

Tak czy siak, w szkole czy na studiach uczymy się, że parametr ma być liczbą. Wbija się to do głów tak mocno, że pomyślenie o parametrze w populacji w innych kategoriach jest trudne. Dobrze. To może wobec tego wyobraźmy sobie, że parametr nie jest jedną konkretną liczbą, tylko zmienia się, np. w czasie. Ludzie w XXI wieku są średnio wyżsi niż ludzie w XI w. Nie wiem, do końca czy to prawda, bo nie ryję w ziemi w poszukiwaniu średniowiecznych szkieletów, ale coś tam słyszałam, że byli krótsi. W każdym razie chodzi o zmienność wartości parametru μ w czasie. Dziś jest tak, kiedyś było inaczej. Skoro tak, to w takim wypadku μ będzie zmienną losową. Niekoniecznie czas jest tym czynnikiem modyfikującym wartość μ. Bywa, że przedział liczbowy (lub zbiór) jest lepszym opisem parametru. Trzeba byłoby tylko podać prawdopodobieństwa kolejnych wartości μ.
W ten sposób płynnie przeszłam od rozumienia parametru μ jako stałej liczby do pojmowania parametru μ jako zmiennej losowej.
Można? Można. Skąd wziąć taki rozkład? O tym później. Gdzie przydaje takie pojęcie parametru w kategoriach zmiennej losowej, a więc zbioru liczb z odpowiadającymi im szansami pojawienia się? ... W statystyce bayesowskiej (i paru innych miejscach też).

Tym krótkim i cichym postem, bez szumnego tytułu, zapowiadam wejście mojego bloga w kosmiczny pas postów o statystyce bayesowskiej. Robi się ona modna od lat jakoś 90-tych w naukach społecznych, choć pierwszy artykuł w psychologii o statystyce bayesowskiej jest z 1963 roku. Niniejszy post jest cichy, bo cichość ta oddaje mój brak ekscytacji metodami bayesowskimi: jak każda szkoła myśli statystycznej, bayesianizm ma swoje założenia i ograniczenia, plusy i minusy, które przystępnie opiszę w kolejnych postach.
A zatem - wstęga przecięta! :)