Rozkład normalny

SPIS TREŚCI:

WYKRES
Kiedy zaczynasz swoją przygodę z rozkładem normalnym, to pierwsze co zobaczysz na wykresie to wybrzuszająca się ku górze linia. Dość często na rysunkach przyjmuje ona kształt dzwonu, stąd rozkład normalny bywa nazywany rozkładem dzwonowym (the bell curve). To bywa mylące, podziałka na osi poziomej daje się sterować tak, że kształt dzwonu będzie bardzo rozciągnięty, niemalże spłaszczony, albo mocno wyciągnięty, niemalże iglicowy. W obu przypadkach trudno będzie dostrzec dzwon. Zobaczysz to na jednym z niżej umieszczonych rysunków.

Wybrzuszenie znajduje się w szczególnym miejscu, czy górka, oznacza, że średnia znajduje się na samym szczycie krzywej. Matematyk powie, że maksymalizuje funkcję rozkładu. Niestety, nie powie, że średnia ma największe prawdopodobieństwo wystąpienia z pewnego matematycznego powodu. Otóż, w matematyce umówiliśmy się, że jeśli mamy rozkłady ciągłe, rysowane bez odrywania ręki od kartki, to wówczas nie można policzyć prawdopodobieństwa pojedynczej liczby. Nazywamy je wówczas gęstościami. Za to możemy powiedzieć, że prawdopodobieństwo koncentruje się wokół średniej. Taki wykres nazywamy gęstością KLIK

Na wyrysowanie tej krzywej jest konkretny przepis, zwany wzorem funkcji. Ta funkcja jest nieco bardziej skomplikowana niż te, które widujemy w szkole, ale jeśli ktoś miał w rozszerzeniu liczbę e, to będzie mu łatwiej. Liczba e to specjalna liczba, podobnie jak pi nie ma okresu. Pierwsze trzy cyfry to 2,71. Reszta jest przedmiotem odkryć matematyków.

Więc jeśli zobaczysz taki wzory e2 albo f(x) = ex, to będziesz wiedzieć, że w pierwszym przypadku 2,71 podniesiono do kwadratu, zaś w drugim mamy funkcję, która każdemu x przyporządkowuje potęgę liczby e, f(1) = e (więc, f(1) to po prostu 2,17), f(2) = e2, itd.

Po tym małym galopie przez lekcję z matematyki, jesteśmy gotowi zobaczyć wzór na gęstość rozkładu normalnego. Wprawdzie nigdzie się go nie używa manualnie, ponieważ mamy komputery, które wszystko liczą, ale warto choć raz w życiu oddać się kontemplacji. Wzór wygląda tak:

Jest nieco bogatszy w symbole niż poprzednio omawiane przykłady, ale działa zupełnie tak samo. Iksy są argumentami, igreki są wartościami funkcji, ale wprost ich nie napisano. Dobrze pamiętać, że teraz iksy to wartości cechy, zaś wartości funkcji to po prostu ta gęstość. Ponieważ nie możemy sobie podstawić pojedynczej wartości cechy do wzoru, aby policzyć szansę jej wystąpienia, to, co robi się, to liczy się szanse na wybrany zakres wartości. To jest to, co mówi ortodoksyjna matematyka.

Powyższy wzór jest wzorem na gęstość pewnego szczególnego rozkładu normalnego, tzw. standardowego rozkładu normalnego. Zapisuje się go: N(0,1). W ten sposób osoba komunikuje, że szczyt jej wykresu znajduje się w zerze na osi poziomej, zaś symetrycznie w punktach -1 i 1 na tej samej osi poziomej znajdują się punkty, wymuszające charakterystyczne zachowanie tej krzywej.

Otóż, gdybyśmy puścili lawinę ze szczytu, czy to z jego lewej, czy z prawej strony, wówczas około -1 i 1 zaczęłaby ona wyhamowywać. To oczywiście dla psychologa jest ciekawostka, natomiast dla matematyka i fizyka nazywa się punktem przegięcia krzywej. Wszyscy razem nazwą to miejsce odchyleniem standardowym. Praktycznie rzecz biorąc, od tych dwóch punktów prawdopodobieństwo obserwacji leżących dalej od szczytu zaczyna drastycznie spadać. To właśnie zjawisko będzie odpowiedzialne za to, dlaczego reguła 3 sigma wygląda, jak wygląda.

JEDEN WZÓR, WIELE WYKRESÓW
Skoro ten rozkład standardowy normalny szczególny przypadek, to pewnie jest reszta nie-szczególnych przypadków. I w ten sposób dowiadujemy się, że tak naprawdę rozkład normalny tworzy rodzinę rozkładów normalnych, to znaczy takich krzywych, które posiadają pewne wspólne właściwości, choć umieszczone na wykresie mogą się od siebie różnić.

Coś podobnego było w liceum, bo był tzw. ogólny wzór na daną funkcję. Na przykład ogólny wzór na funkcję liniową jest f(x) = a*x+b, której wykresem jest prosta, gdzie a i b to liczby stałe. Jak się podstawiło pod a i b jakieś liczby, to otrzymywało się konkretną funkcję. I tak f(x) = x+1 to funkcja liniowa, podobnie jak f(x) = 5x+2 albo f(x) = -3*x+1. I z rozkładami normalnymi jest taka sama sytuacja. Jeden wzór jako parasol i nieskończona liczba konkretnych funkcji.


WŁASNOŚCI ROZKŁADU NORMALNEGO

1. SYMETRYCZNOŚĆ – technicznie rzecz biorąc, lewa strona rozkładu jest taka sama jak prawa. To oznacza, że częstość występowania obserwacji powyżej średniej jest taka sama, jak poniżej średniej. Sytuacja, jak dzieje się po jednej stronie rozkładu odpowiada sytuacji, jaka dzieje się po drugiej stronie. Rozkład normalny niezbyt dobrze opisuje sytuacje, w których jest więcej osób po jednej stronie średniej niż po drugiej.

2. JEDNOMODALNOŚĆ – jest jedna wartość dominująca (inna nazwa: unimodalny), jedna górka, która jest górką globalną, góruje – jak to mają górki – nad całym rozkładem. To gwarantuje, że jest jeden peleton, jedna grupa trzymająca władzę, zaś outsiderów jest coraz mniej. Rozkład normalny niezbyt dobrze opisuje sytuacje, gdy zjawisko ma dwie grupy.

3. ZEROWA SKOŚNOŚĆ – skośność rozkładu normalnego wynosi okrągłe zero a zerowa skośność oznacza symetryczność rozkładu. Patrz punkt pierwszy.

4. ZEROWA KURTOZA (eksces wynosi 0) – kurtoza odpowiada na pytanie o występowanie wartości odstających.
Ale... czy rozkład normalny może mieć wartości odstające? Odpowiedź jest twierdząca. Wróćmy na chwilę do rysunku gęstości. Zobaczcie, ta krzywa nigdzie nie dotyka poziomej linii OX. Skoro jej nie dotyka, to oznacza to, że żadna wartość cechy nie ma zerowej szansy na pojawienie się, więc teoretycznie każda wartość, nawet najbardziej oddalona od średniej, może wystąpić, tylko te szanse nie są równe. Można powiedzieć, że rozkład normalny jest ekskluzywny, ponieważ nie daje równych szans. Zasady ekskluzywności znajdują się w części dotyczącej reguły trzech sigma.

Rozkład normalny w statystyce klasycznej jest tym, do którego porównuje się rozkłady, które pokażą się w badaniu (innymi słowami rozkłady empiryczne sprawdza się pod kątem normalności), dlatego to właśnie jego kurtoza jest tym wzornikiem. Zerowa kurtoza to nie jest brak obserwacji odstających.


Czy mogą pojawić się obserwacje odstające (outliery)?

W każdej społeczności są zwykli ludzie, są ci bardziej popularni, których nazwalibyśmy węzłami społecznymi, oraz ci mniej popularni outsiderzy i totalne freaki. Freaki, czyli wartości odstające mają prawo pojawić się w rozkładzie normalny – niezbyt często i im dalej od klubu, tym rzadziej, ale ważne jest to, że mają. Żadna wartość nie jest wyeliminowana. Skoro sukienka ducha nie sięga osi poziomej OX, to znaczy, że nikt nie ma zerowych szans na wystąpienie. Myślę, że problem wynika z przedstawiania wykresu normalnego na zajęcia i podręcznikach. Często te dalsze od szczytu części krzywej leżą płasko, że powstaje złudzenie, że pokrywają się z zerem.


Reguła trzech sigma

Rozkład normalny nie jest rozkładem równych szans a reguła, która mówi, kto należy do klubu, nazywa się regułą trzech sigma. W rozkładzie normalnym zachodzi taka właściwość: wprawdzie każda z obserwacji ma jakąś szansę wystąpienia, ale niektóre znajdują się w przedziale który bardzo często zdarza się, a inne niestety są outlierami. Co to znaczy? To znaczy, że obserwacje powyżej wartości równej średnia + 3*odchylenie standardowe (np. dla μ= 0 i σ=1 to jest powyżej 3) mają nikłe szanse wystąpienia (co nie znaczy, że zerowe). Zdecydowana większość obserwacji biega wokół średniej w odległości nie większej niż trzy odchylenia standardowe.

PRZYKŁAD — Średni wzrost dorosłego człowieka to mu = 177,8, a odchylenie standardowe wynosi 7,62 cm. Wówczas μ + 3*σ = 177 +3*7,62 = 199,86 cm. mu – 3*sigma=154,14. Zatem 99% ludzi dorosłych siedzi w przedziale [154,14; 199,86] i bardzo trudno znaleźć kogoś wypadającego poza ten przedział. Co nie znaczy, że nie ma ich w ogóle. Najniższy i najwyższy zanotowany wzrost dorosłego człowieka na świecie wynoszą odpowiednio: 73 cm i 272 cm.

DZIAŁANIE REGUŁY – Wróćmy na wykres gęstości rozkładu normalnego. Wiemy już, że mamy dwie liczby: mu i sigma. Wykorzystamy je do wyjaśnienia działania tej reguły.

Umówmy się, że w mu wbijamy patyk o długości sigma i jak na piasku będziemy zataczać kręgi. Najpierw o promieniu patyka, czyli sigma. To jest pierwszy krąg. W jego obrębie znajdują się obserwacje, które zgarniają 68% szans wystąpienia. Następnie bierze się kij dwa razy dłuższy i zataczamy kolejny krąg. Wówczas mamy obserwacje, które zagarniają 95 % szans i regułę dwa sigma. A potem kij trzy razy dłuższy i zatoczywszy trzeci krąg, zgarniamy obserwacje o łącznie 99% szansach wystąpienia. To przejście między drugim a trzecim kręgiem jest mało spektakularne, z 95% na 99%. Tworzą one klub o nazwie trzech sigma. Reszta to już obserwacje, które mają małą szansę na pojawienie się, tacy outsiderzy.

Ta reguła działa tylko dla rozkładu normalnego. Rozkład normalny jest jednym z wielu znanych rozkładów, lecz jedynym dla którego reguła trzech sigma działa.

KWANTYLE RZĘDU 2,5 ORAZ 97,5
Skupmy się na miejscach, które są na styku drugiego i trzeciego kręgu. Te szczególne miejsca to kwantyle rzędu 2,5% i 97,5%. Rozkład normalny ma oczywiście wszystkie inne kwantyle, ale te akurat są wykorzystywane do budowy 95% przedziału ufności dla średniej. Co do wartości są one równe, różnią się znakami. Pomiędzy nimi znajduje się 95% całej masy rozkładu. Warto pamiętać, że do przedziału ufności używamy kwantyli rozkładu normalnego, to sugerujemy, że dane zjawisko ma rozkład normalny. Więcej tu:KLIK (link prowadzi do posta o przedziale ufności dla średniej).


Imiona rozkładu normalnego

Rozkład normalny można nazwać jeszcze inaczej niż tylko rozkładem dzwonowym. Można nazwać go również od nazwisk odkrywców/twórców. Aby uhonorować wszystkich nazywając go rozkładem Moivre’a-Gaussa-Laplace’a. Każdy z tych siedemnastowiecznych i osiemnastowiecznych uczonych miał udział w odkrywaniu tego rozkładu. Nazwę rozkład normalny używamy mniej więcej sto lat i tylko dlatego, aby uniknąć sporów o palmę pierwszeństwa w odkryciu.


Czy rozkład normalny jest powszechny?

W powszechności rozkładu normalnego dzisiaj jest więcej legendy niż prawdy. Prawdą było pod koniec XIX wieku, kiedy mierzono i ważono wszystko, co się dało w obrębie ludzkiego ciała. Ciekawe, że większość z antropometrycznych badań bierze na warsztat rzeczy, które same w sobie składają się z wielu elementów.

Weźmy wzrost człowieka. To, jaki wzrost osiągnie człowiek, jest decydowane przez zarówno geny, jak i środowisko. Genetyczny wkład obojga rodziców, odżywianie, choroby w dzieciństwie, wypadki – wszystko to razem powoduje, że ktoś może narzekać na bycie gidią. Nie ma jednego czynnika decydującego o wzroście. Tak samo jak o długości palców, wadze itp. Takie zjawiska, które złożone są różnych puzzli, mają tendencję do wykazywania rozkładu normalnego w populacji, a za takie zabrano się w XIX wieku.
Przy okazji to jest główna myśl centralnego twierdzenia granicznego
CTG: jeśli badane przez Ciebie zjawisko jest sumą pomniejszych, bardziej elementarnych, to uzyskasz obraz krzywej Gaussa.

Dzisiaj już wiemy, że rozkład normalny nie jest tak często spotykany, jakby wskazywała jego nazwa. jak jednorożce. Jego właściwości powodują, że nie istnieje takie zjawisko, do którego rozkład normalny pasowałby jak ulał. Ten rozkład jest rozkładem teoretycznym, modeluje zjawiska w rzeczywistości na tyle dobrze, że można często machnąć ręką na miejsca, w których odchodzi farba.


Dlaczego chcemy, aby zmienna miała rozkład normalny?

Psychologia stoi na statystyce klasycznej, zaś w statystyce klasycznej są dostępne testy, które powstawały w czasie, kiedy jeszcze nie było pomysłów, że mogą istnieć inne rozkłady. Te metody to np. test t-Studenta albo analiza wariancji. W psychologii często wykorzystujemy porównania między dwiema lub więcej grupami typu ANOVA. Są to nieco starsze metody, u których podstaw leżą założenia o normalności rozkładu zmiennej zależnej, czyli tej cechy. Wobec tego, wielu badaczy dokonuje operacji na swoich danych i transformuje dane tak, aby miały rozkład normalny. To założenie jest ogólnie bardzo mocne i to, co one potrzebują, to tak naprawdę normalności nieco gdzie indziej – potrzebujemy, aby rozkład średnich był normalny. Nam dość często będzie wystarczać to, żeby rozkład cechy był w miarę symetryczny i nie miał zbyt ciężkich ogonów.


Jak sprawdzić, czy zmienna ma rozkład normalny?

Są dwie drogi – poprzez naoczne sprawdzenie, czyli eksplorację danych oraz poprzez formalne testowanie testami statystycznymi. Albo można wybrać obydwie drogi. To nie jest tak, że jak wybierzesz jeden test, to nie możesz zajrzeć do statystyk opisowych.
Na eksplorację danych składają się statystyki opisowe, czyli liczby, oraz wizualizacja danych, czyli grafika. Formalne testowanie to wybór testów istotności statystycznej.

Statystyki opisowe
Aby cecha miała rozkład normalny musi mieć jego własności – jednomodalność, symetryczność (brak skośności), odpowiednia kurtozę. Sprawdź więc skośność i kurtozę - wiemy, że rozkład normalny ma zerową skośność i kurtozę. Oczywiście musimy przygotować się na jakąś losowość danych i wykazać elastycznością, więc musimy dopuścić jakieś niezerowe wartości skośności. Reguły kciuka pozwalają machnąć ręką na pewien zakres jednych i drugich i uznać, że otrzymane wartości są podobne do teoretycznych właściwości rozkładu normalnego. Jak już widzieliśmy, skośność i kurtoza rozkładu normalnego wynosi zero. Jedną z popularniejszych reguł kciuka odnośnie skośności jest ta, która mówi, że skośność w próbie, które znajduje się między -1 a 1 to jest skośność, która nie powinna nas martwić. Dla kurtozy ten przedział wynosi między -2 a 2.

Wizualizacja danych
WYKRES SKRZYNKOWY – Ten wykres podsumowuje pięć charakterystyk zmiennej: mediana, zaznaczona czarną linią. Dolna i górna krawędź to pierwszy i trzeci kwartyl. Bok prostokąta to rozstęp międzykwartylowy. Wpływa on na długość antenek wystających z prostokąta zwanych wąsami. Wyznaczają one zakres takich wartości, które jeszcze mieszczą się w przedziale typowych wartości. To, co nie znajdzie się wewnątrz wąsów, będzie oznaczone jakąś figurą geometryczną (zależnie od programu). Więcej o wykresie skrzynkowym: TUTAJ

Zmienna, której szansami rządzi rozkład gaussowski ma odpowiedni wygląd boksplota. Spójrzmy na poniższy rysunek. Po lewej stronie znajduje się typowy wykres skrzynkowy zmiennej, która pochodzi z rozkładu normalnego. Po prawej stronie – takiej, która nie pochodzi z tego rozkładu. Boxplot zmiennej z rozkładu normalnego jest symetryczny, może mieć outliery, ale nie może ich być zbyt dużo. Boxplot po prawej stronie jest zupełnie inny. Wygląda jakby spływał po ścianie zostawiając po sobie outliery.

WYKRES KWANTYLOWY – Na wykresie kwantylowym zaznaczone są punkty, których współrzędne oznaczają teoretyczne kwantyle rozkładu normalnego oraz empiryczne kwantyle rozkładu badanej cechy.

W idealnej sytuacji, jeśli badany przez Ciebie rozkład jest rozkładem gaussowskim, to powinien pokazać się prosty sznurek z punktów ułożony na przekątnej rysunku. To dlatego, że empiryczne kwantyle zgadzają się w pełni z teoretycznymi. We wszystkich innych wystarczy, że mniej więcej znajdzie się na przekątnej. Po lewej stronie mamy zmienną z rozkładu normalnego. Po prawej stronie – zmienną z rozkładu innego niż normalny.

Testy normalności
Jest pięć popularnych testów istotności statystycznej dla testowania normalności rozkładu. W SPSS-ie są dwa z nich. Dobrym testem jest test Shapiro – Wilka (w skrócie: S-W). Został bezpośrednio zaprojektowany do testowania hipotezy o normalności rozkładu. Test Shapiro-Wilka jest oparty na kwantylach – sprawdza, jak dobrze kwantyle rozkładu badanej cechy pokrywają się z kwantylami rozkładu normalnego. Coś podobnego robimy, oglądając wykres kwantylowy.

Znany jest też test Kołmogorowa-Smirnova (K-S). Wykorzystuje się do badania czy rozkład wynikający z próby jest rozkładem wynikającym z teorii, a nie zawsze teoria musi postulować normalność. Ze względu na to, że jest zaprojektowany na wiele innych sytuacji niż testowanie o normalności rozkładu, to w gruncie rzeczy test K-S dla zbadania rozkładu normalnego to test Lilieforsa. Trzecim stosunkowo często wykorzystywanym testem normalności jest test Andersona-Darlinga. W zasadzie, powinien znaleźć się na drugim miejscu – przed testem K-S, ze względu na to, że jest od niego mocniejszy (w kontekście popełniania błędu I – go rodzaju). Niektórzy uważają go za równie dobry jak test Shapiro-Wilka, również w małych próbach.

Który z tych testów wybrać? W Internecie i podręcznikach znajdzie się sposób wyboru oparty na liczebnościach. Jedne źródła mówią, że SW jest do 2000 obserwacji, a od 2000 jest KS, albo jeszcze inaczej. Reguły kciuka mówią, dla jakich liczebności próby wybierać albo jeden, albo drugi test. Skoro test S-W ma na celu testowanie normalności, to warto wykorzystywać go dla mniejszych prób (od 15 do 50).

Te reguły liczebnościowe wywodzą się z doświadczenia, nie z dowodów matematycznych, co osłabia ich kategoryczność. Moja rada jest taka: po pierwsze, możesz użyć kilku testów. Obejrzenie wartości statystyk testowych, zwłaszcza, gdy ma się doświadczenie, pozwala przyjrzeć się temu, co mówią dane. Po drugie wiesz na czym opierają się te testy, co mierzą. Test K-S lepiej sprawuje się przy dużo większych próbach (rzędu setek albo i tysięcy elementów).

DIY: Sprawdź sobie, czy Twoja zmienna jest normalna? (W SPSS-ie)
Wchodzimy kolejny w Analiza-> Opis Statystyczny -> Eksploracja.

To oczywiście tylko jeden ze sposobów sprawdzania.




Dalej otwiera się menu z poleceniami. Wybieramy zmienną do diagnostyki normalności i przenosimy ją w okienko z nazwą Zmienne zależne. Następnie klikamy w przycisk Wykresy.
Pojawia się trzyczęściowe okienko. Środkowa część zawiera checkbox z napisem "Wykresy normalności z testami". Jakie to testy? Nie wiadomo w tym momencie, ale zaznaczamy i klikamy Ok.






PRZYDAŁ SIĘ TEN ARTYKUŁ? LUBISZ TEN BLOG? A MOŻE CHCESZ COŚ ZROBIĆ DLA MNIE? :) Właśnie prowadzę badania nad adaptacją pewnego psychologicznego kwestionariusza. Zbieram odpowiedzi od osób badanych. Ale, nie, nie chcę prosić Cię o wykonanie analiz :) Chcę poprosić Cię o wzięcie udziału i wypełnienie zestawu 49 pytań, które przygotowałam (wraz z moją współpracowniczką, Amelią). Kwestionariusz FoMO dotyczy zjawiska Lęku przed Odłączenie (Fear of missing out, FoMO), czyli lęku przed tym, że inni w tym momencie przeżywają lepsze chwile niż Ty. Skutkuje to byciem przyklejonym do smartfona, skrolowaniem Fejsbuka, sprawdzaniem Messengera, co chwilę, a dalej - poważniejszym problemami niż suchość oczu. Kwestionariusz psychologiczny musi być porządnie przebadanym narzędziem i liczę na to, żę gdy zbiorę i opracuję dane właśnie taki powstanie ze wszystkimi pożądanymi właściwościami, trafnościami, rzetelnościami i innymi homologacjami. TO CO? POMOŻESZ MI? LINK znajdziesz tutaj: KLIK

2 komentarze:

Seb pisze...

Hej, super artykuł, pomaga ogarnąć to, co wykładowcy zdarzyło się pominąć na zajęciach ;)
Ale dzień liczby pi do poprawy :D

Lilianna Jarmakowska-Kostrzanowska pisze...

Faktycznie :-) Pewnie myślałam o marcu jako o trzecim miesiącu i tak wyszło, że trzeciego. Dzięki!