MAJ 2025| LJK | ~2 395 słów |~ 16 454 znaków|
Kurtoza to pojedyncza liczba, statystyka opisowa, która opisuje zmniejszoną (gdy jej wartość jest ujemna) i zwiększoną (gdy jej wartość jest dodatnia) obecność obserwacji odstających w porównaniu z rozkładem normalnym. Wbrew powszechnej opinii, kurtoza nie jest miarą spłaszczenia, ani koncentracji - jest informacją tylko o tym, co dzieje się w ogonach rozkładu. W praktyce tę statystykę opisową nazywamy "kurtozą", ale ściśle rzecz biorąc jest tzw. "ekces kurtozy".
1️⃣ Kurtoza, należąca do statystyk opisowych, to pojedyncza liczba mówiąca o obecności obserwacji odstających. Wbrew nazwie kurtos = spłaszczenie, nie mówi o spłaszczeniu lub wysmukleniu wykresu rozkładu. Nie jest również kuzynką miar rozproszenia (kurtoza nie ma nic wspólnego z wariancją). Przeczytaj o tym tu: KLIK.
2️⃣ Kurtoza jest jedyną statystyką opisową, o której nie da się opowiedzieć bez nawiązania do jakiegoś innego rozkładu niż ten w badanej próbie, w tym przypadku do: rozkładu normalnego. To dlatego, że kurtoza porównuje nasz zbiór obserwacji (a ściślej: badaną w tym zbiorze zmienną) właśnie z tym rozkładem. Przypomnijmy kilka podstawowych faktów o tym rozkładzie.
ROZKŁAD NORMALNY jest powszechnie znanym rozkładem opisującym wiele zjawisk, o których możemy pomyśleć: wzrost, waga, długość palca wskazującego, dużo spośród cechy osobowości, inteligencja (która jest ilustracją tego rozkładu, po którą sięga się najczęściej).
Jak każdy rozkład, rozkład normalny przedstawia wzorzec występowania wartości jakiejś cechy - które z nich pojawiają się częściej, a które rzadziej. Gdy cecha ma rozkład normalny, to najczęściej obserwujemy wartości bliskie średniej arytmetycznej, a te różne od średniej arytmetycznej, są coraz rzadsze aż do bardzo, bardzo rzadkich - tak rzadkich, że są uznane za obserwacje odstające (ang. outliers). Można powiedzieć, że tak opisany wzorzec pojawiania się wartości cechy jest zgodny ze zdrowym rozsądkiem - z tym, czego spodziewalibyśmy się po cechach występujących w przyrodzie. To, co typowe, przeciętne - najczęściej pojawia się. A to, co odbiega od normy - rzadziej. Im bardziej odbiega, tym jest rzadsze. Nie dziwi więc fakt, że synonimem słowa "nietypowy" jest "rzadki".
Należy pamiętać, że nie ma jednej definicji obserwacji odstających, za takie uważa się te, które leżą powyżej drugiego odchylenia standardowego, > 2 · SD. W rozkładzie normalnym teoretycznie każda wartość ma jakąś szansę na pojawienie się, tyle tylko, że czasami jest ona bardzo mała.
Powyższe informacje można wyrazić w języku anatomii wykresu rozkładu. W rozkładzie normalnym szczyt wykresu rozkładu jest jedną górą, która znajduje się nad średnią μ, a jego ramiona opadają jednakowo po obu stronach szczytu aż stają się ogonami rozkładu, które ciągle zbliżając się niej, ale nigdy nie dotykają osi OX. Fakt, że krzywa Gaussa nigdy nie dotyka osi OX oznacza, że jest nieskończenie wiele obserwacji odstających. Jeśli obecność obserwacji odstających jest zaznaczona poprzez grubość ogona, to w przypadku rozkładu normalnego grubość maleje w miarę oddalania się wartości od średniej. To o ten specyficzny wzorzec opadania krzywej, który wyznacza częstość pojawiania się obserwacji odstających, chodzi w kurtozie.
INŻYNIERIA KURTOZY: CO BADA KURTOZA? — Podobnie jak odchylenie standardowe czy współczynnik skośności, kurtoza również jest oparta na potędze różnic między obserwacjami od średniej. To scheda po minionych czasach, kiedy zmienność postrzegano jako stopień tego, jak bardzo obserwacje różnią się od typowej obserwacji, a typowość mierzono za pomocą średniej arytmetycznej. Miarą zmienności była różnica obserwacji od średniej, tzw. odchylenie, odchyłka albo błąd. Dysponując tylko taką ideą, nic dziwnego, że poszczególne cechy charakterystyczne rozkładu badano właśnie za pomocą potęg tych odchyleń. W przypadku kurtozy jest to czwarta potęga (·)4.
Wyobraźmy sobie, że mamy prosty zbiór danych: 1, 2, 3, 4 i 10. Jego wartości umieściłam na osi liczbowej. Trójkąt oznacza średnią artymetyczną, a strzałki biegnące na lewo i na prawo - owe odchylenia, o których mowa powyżej.
Aby obliczyć kurtozę, najpierw od każdej wartości należy odjąć obliczoną średnią, a następnie rezultat tej różnicy podnieść nie do kwadratu (jak przy wariancji), nie do trzeciej potęgi (jak przy skośności), ale do czwartej - jakby kwadrat do kwadratu. Kurtoza w tym przykładzie wynosi -1.78.
Podnoszenie do czwartej potęgi zwielokrotnia odchylenie obserwacji od średniej arytmetycznej. Dla ostatniej obserwacji o wartości 10, czwarta potęga różnicy wynosi ona 1 296. Pojawia się pytanie, czy dla takiego zbioru danych ta obserwacja odstająca jest czymś nadzwyczajnym? Oczywiście w porównaniu do obserwacji odstających w rozkładzie normalnym. Niestety, kurtoza nie jest aż tak specyficznym narzędziem, żeby nam powiedzieć, czy dana obserwacja odstająca jest niezgodna z rozkładem normalnym, ale jest w stanie nam powiedzieć, czy ogół obserwacji odstających zachowuje się tak, jak powinien, gdyby pochodziły z rozkładu normalnego. Sygnałem jest znak plus lub minus samej wartości kurtozy.
Kurtoza to liczba, która przyjmuje wartości ujemne, dodatnie oraz zerową. Znakowi kurtozy: plusowi oraz minusowi a także zerowej wartości odpowiadają charakterystyczne formy rozkładów.
Na pewno znasz rysunek przedstawiający trzy różne kształty rozkładów według kurtozy. Pojawił się nawet na tym blogu (zob. po prawej). Na tym rysunku kurtoza jest miarą zarówno smukłości, jak i spłaszczenia ogonów. Smukły rozkład ma grubsze ogony. Spłaszczony - cięższe. Niestety, ten rysunek jest błędny. Rysunek powtarza błąd, o którym jest mowa w całym tym poście. Prawidłowy rysunek powinien wyglądać zupełnie inaczej, zobaczymy go za kilka akapitów. Najpierw omówmy poszczególne typy rozkładów wyznaczone według znaku kurtozy.
⬛ MEZOKURTYCZNY | Rozkład mezokurtyczny to rozkład, którego kurtoza wynosi zero, 0. Sztandarowym przykładem takiego rozkładu jest rozkład normalny. To, jak wygląda rozkład normalny, widać chociażby powyżej. Porozmawiajmy zatem o szczegółach opadania tej krzywej.
Przyjemnie byłoby zwizualizować sobie ten szczególny sposób występowania obserwacji w rozkładzie normalnym. Powiększmy prawy ogon tego rozkładu i spróbujmy opisać szanse, porównując je do wydarzeń dziejących się raz na jakiś czas. Wartości cechy, które znajdują się trzy odchylenia standardowe od średniej są tak rzadkie, że gdybyśmy przełożyli to na język wydarzeń, występowałyby raz w roku. Wartości, które są cztery odchylenia standardowe dalej od średniej, trafiałyby się raz na 43 lata. Z kolei te, które są w szóstym odchyleniu standardowym 6σ, to wydarzenia dziejące się dwa razy w historii ludzkości!
Sposób opadania jest bardzo precyzyjny, ale czy nie istnieją rozkłady, które są nie-normalne i zarazem mają ogony zbliżone do tych ogonów? Przekonamy się już wkrótce.
🟦 LEPTOKURTYCZNY — Rozkład leptokurtyczny posiada więcej obserwacji odstających w porównaniu z rozkładem normalnym o tej samej średniej i odchyleniu standardowym. Ogony leptokurtycznego rozkładu zmiennej są grubsze niż ogony rozkładu normalnego. Wartość kurtozy jest dodatnia, wynosi np. 1.5 albo 3.14.
Na rysunku zaznaczono niebieskim kolorem dwie grubsze kreski. Leżą one tylko w tej części wykresu, który bada kurtoza. Ponieważ nie bada ona tego, co dzieje się w środku rozkładu, to w tym miejscu widzisz szarą, falowaną kreskę - na znak, że może zdarzyć się tam dowolny kształt.
👌 Gdyby rozkład inteligencji był leptokurtyczny, wówczas obserwowalibyśmy więcej osób o znacznie obniżonym i znacznie podwyższonym ilorazie inteligencji niż teraz, gdy rozkład inteligencji uważa się za normalny ze średnią μ = 100 i odchyleniem standardowym σ = 15.
⛔Jak nie mówimy o leptokurtycznym rozkładzie? Są to zdania postaci: "Dodatnia kurtoza wskazuje, że obserwacje są skupione wokół średniej" - o skupieniu obserwacji wokół średniej mówi miara rozproszenia zwana wariancją. O rozłączności kurtozy z wariancją przeczytasz niżej (KLIK).
🟪 PLATYKURTYCZNY — rozkład platykurtyczny posiada mniej obserwacji odstających niż rozkład normalny. Ogony platykurtycznego rozkładu zmiennej są cieńsze niż ogony rozkładu normalnego dlatego na rysunku zaznaczono fioletowym kolorem dwie cieńsze kreski). Wartość kurtozy jest ujemna, wynosi np. -1.5 albo -3.14.
👌 Gdyby rozkład inteligencji był platykurtyczny, wówczas obserwowalibyśmy mniej osób o znacznie obniżonym i znacznie podwyższonym ilorazie inteligencji (tj. odstających) niż teraz.
⛔Jak nie mówimy o rozkładzie platykurtycznym? Stare interpretacje brzmiały np. "Ujemna kurtoza mówi o tym, że obserwacje są rozproszone wokół średniej". O stopniu skupienia obserwacji wokół średniej mówi przecież wariancja. Więcej na ten rozdzielności wariancji i kurtozy przeczytasz niżej (KLIK).
Tak naprawdę rysunek zestawiający różne rodzaje wykresów w zależności od znaku kurtozy powinien wyglądać tak:
Jest on zdecydowanie mniej atrakcyjny - nie wiadomo, co dzieje się w środku, dlatego na górce rozkładu normalnego namalowano falowaną linię. Ma to związek z tym, co widzi kurtoza, a na co jest ślepa. Kurtoza koncentruje się tylko na ogonach rozkładu, więc to, co dzieje się w środku nie jest w ogóle przez nią widziane. Tam może być góra, mogą być dwie góry, może być wyższa lub niższa góra - nieważne. Kurtoza nie jest miarą kształtu centrum rozkładu, a tego co dzieje się na końcach.
KURTOZA NARZĘDZIEM DIAGNOSTYKI NORMALNOŚCI — Jak już wiemy, rozkłady często porównujemy do jednego zajmującego szczególne miejsce w różnych naukach, a mianowicie do rozkładu normalnego. Do tzw. diagnostyki normalności mamy kilka narzędzi. Dzielą się na graficzne, jak np. wykres pudełkowy, i na liczbowe. Jak można domyślić się, kurtoza jako statystyka opisowa należy do tych drugich. Wiadomo, że kurtoza rozkładu normalnego wynosi zero. Jest to jednak wartość teoretyczna, którą otrzymalibyśmy, gdybyśmy policzyli kurtozę dla wszystkich osób z populacji. Próba z kolei to jedynie wycinek populacji. Ponieważ kurtoza w populacji i kurtoza w próbie zwykle to dwie różne rzeczy, dla rozróżnienia o którym poziomie organizacji jednostek mówimy, stosuje się różne oznaczenia.
Dla oznaczenia kurtozy w populacji stosujemy grecką literę gamma γ z indeksem dolnym dwa, γ2. Gdy chodzi o kurtozę w próbie często po prostu piszemy słownie kurtoza lub skrótem kurt.
Staramy się, aby próba była dobrym odzwierciedleniem populacji, jednak musimy liczyć się z odstępstwami i stąd ciężko oczekiwać, aby kurtoza obliczona w próbie nawet dla rozkładu normalnego również wynosiła zero. Jak ocenić, czy kurtoza w próbie to dobra kurtoza? Musimy wykazać się pewną dozą elastyczności i nauczyć machać ręką na niezerowe wartości kurtozy. Z pomocą przychodzi reguła.
Ogólnie przyjmuje się, że jeśli otrzymasz wartość kurtozy, która znajdzie się w przedziale od -2 do +2, to wówczas możesz bezpiecznie założyć, że Twój rozkład jest pod względem kurtozy zbliżony do rozkładu normalnego.
W przykładzie wartość kurtozy wyniosła -1.78. Ten wynik mieści się w przedziale [-2,2], co pozwala przypuszczać, że rozkład hipotetycznej cechy, który stoi za obserwacjami, może być normalny. A czyliczebność próby n = 5 może mieć wpływ na to?
WIELKOŚĆ PRÓBY A WARTOŚĆ KURTOZY W PRÓBIE - wielkość próby zawsze gra rolę. Przecież to ważne, czy informacja pochodzi od 10 osób czy od 100 albo od 1 000. Dlatego też ten przedział wartości kurtozy, który pozwala odetchnąć z ulgą i uznać, ze przynajmniej pod względem tej statystyki, badany rozkład zmiennej jest zbliżony do normalnego, powinien w miarę wzrastania próby, kurczyć się i zwężać. Jeśli Twoja próba liczy 2 230 osób a wartość kurtozy wynosi 1.99, to pomimo tego, że jest to wartość poniżej 2, jest ona zbyt wysoka. "Skąd mam wiedzieć, czy ta wartość jest dobra w stosunku do wielkości próby" - pewnie spytasz. Racja. Trudno to tak na sucho ocenić, wymaga to symulacji komputerowych, ale w tak dużej próbie, kurtoza powinna być raczej blisko zero, a nie plątać się gdzieś przy dwójce.
EKSCES KURTOZY — Gdyby policzyć te wszystkie sumy i całki, które tworzą wzór na kurtozę, okazałoby się, że w przypadku rozkładu normalnego wynosi ona nie zero a trzy, 3. Dziwne, prawda? Wiadomo, że kurtoza rozkładu normalnego wynosi zero - niezależnie od średniej i odchylenia standardowego. Gdzie leży problem?
Rozwiązanie zagadki tkwi w nazewnictwie. Prawdziwą kurtozę, tę która bezpośrednio wychodzi z obliczeń, nazywa się kurtozą, natomiast w praktyce posługujemy się przesuniętą wartością kurtozy o trzy, tzw. ekscesem kurtozy. To eksces kurtozy rozkładu normalnego wynosi 0, ponieważ 3 - 3 = 0. Zawsze, gdy chcesz policzyć prawdziwą, najsurowszą formę kurtozy, dodaj trzy do otrzymanego wyniku. Dlaczego tak zrobiono? Powodem takich przekształceń jest ułatwienie porównań z rozkładem normalnym.
W powyższym przykładzie ze zbiorem 1, 2, 3, 4 i 10, gdzie kurtoza wynosi -1.21 tak naprawdę mam do czynienia z ekscesem kurtozy. Surowa kurtoza wynosi -1.21 + 3, a więc 1.78.
CZY MEZOKURTYCZNY OZNACZA NORMALNY? — Rozkład normalny tak często pada jako przykład rozkładu mezokurtycznego, że można odnieść wrażenie, że to pojęcie odnosi się tylko do tego dokładnie rozkładu. Rozkład normalny jest mezokurtyczny, ale czy każdy mezokurtyczny jest normalny? Innymi słowy, czy zerowa wartość kurtozy jednoznacznie identyfikuje normalność? Okazuje się, że wcale nie.
Sposób opadania ogonów rozkładu normalnego jest bardzo precyzyjny (KLIK). I można byłoby pomyśleć, że jest tylko jeden rozkład, który ma właśnie takie ogony - rozkład normalny. Jednak istnieją inne rozkłady, których kurtoza jest również zerowa, a które nie są rozkładem normalnym. Przykładem rozkładu mezokurtycznego i zarazem nie-normalnego jest poniższy rozkład będący miksem dwóch rozkładów. To znaczy, że szanse pojawiania się wartości opisuje trochę jeden, trochę drugi rozkład. Profesjonalnie nazywa się to mieszaniną (ang. mixture) rozkładów. W tym przypadku są to dwa rozkłady gamma, z których jeden jest symetrycznie odbity po drugiej stronie tak, że razem tworzą taki trochę dziwny rozkład. Dziwny, ale teoretycznie możliwy - i tyle nam wystarczy.
Kurtoza tej mieszaniny wynosi zero, lecz trudno powiedzieć, że jest ona rozkładem normalnym - centrum tego rozkładu jest zupełnie inne niż krzywa rozkładu normalnego, zupełnie tak jakby wziąć dzwon Gaussa i rozłupać na pół.
ETYMOLOGIA NAZWY — Powiedzieliśmy, że nazwa kurtoza jest nietrafna, teraz wyjaśnimy dlaczego.
Etymologia nazwy kurtozy zdradza na co zwracano uwagę podczas tworzenia tej miary. Greckie kyrtos znaczy tyle, co "curved, arching" - zakrzywienie i zwraca uwagę ku szczytowi rozkładu, ku jego smukłości lub płaskości. Co zresztą znajduje odzwierciedlenie w opisach kurtoz jako miary smukłości i spłaszczenia. Twórca kurtozy, Karl Pearson, Karl-przez-K-a-nie-C Pearson - to ten pan po lewej stronie, którego możecie kojarzyć ze współczynnikiem korelacji r-Pearsona (nomen omen 😉), pracował nad różnymi sposobami pomiaru nie-normalności i w ten sposób zwrócił uwagę na kolejne potęgi odchyleń od średniej. Ale Pearson jeszcze nie postrzegał kurtozy jako miary ciężkości ogonów. To zmieniło się dopiero później, po dokładnym sprawdzeniu, co naprawdę mierzy podana przez niego formuła. Tak po prostu nieszczęśliwie złożyło się, że w przypadku najpopularniejszych rozkładów te o grubych ogonach są jednocześnie smukłe, a te które mają cienkie ogony - są spłaszczone.
Ironią losu, wbrew nazwie, gdy kurtoza na dobre zadomowiła się w przyborach statystycznych, okazało się, że jednak nie jest miarą smukłości rozkładu, a jedynie grubości ogonów (w stosunku do grubości ogonów rozkładu normalnego). Na przestrzeni dekad interpretacja kurtozy przeszła przemianę od miary smukłości, poprzez miarę smukłości i ogonów aż do współczesnej formy jako tylko miary grubości ogonów.
KURTOZA I WARIANCJA — "Kurtoza to miara skupienia wyników wokół średniej" albo "kurtoza to miara tego, jak wyniki rozpraszają się wokół średniej" albo "kurtoza to miara koncentracji wyników" - na pewno słyszałaś te lub podobne sformułowania wiążące kurtozę z miarą rozproszenia wyników (wokół średniej) jaką jest wariancja.
Skąd bierze się to pomieszanie? Stara informacja o tym, że kurtoza jest miarą smukłości, spłaszczenia i koncentracji rozkładu, której jeszcze towarzyszy wspomnienie o mierze koncentracji pociąga za sobą kolejny błąd - pomieszanie pojęć kurtozy i wariancji. Skoro jedno i drugie mówi o skupieniu obserwacji wokół średniej, to przecież muszą być pokrewne, jeśli nie tożsame. No, przecież to logiczne.
Aby pokazać, że to nieprawda, że kurtoza i wariancja to różne rzeczy, należy znaleźć - po pierwsze - dwa rozkłady o różnej wariancji, ale tych samych wartościach kurtozy i po drugie dwa rozkłady o tej samej wariancji, ale różnych wartościach kurtozy.
Łatwo pokazać, że kurtoza i wariancja to nie to samo wskazując dwa rozkłady normalne różniące się odchyleniem standardowym. Pierwszy rozkład jest rozkładem standardowym normalnym, którego wariancja wynosi 1. Drugi rozkład jest również normalny, ale którego wariancja wynosi 2 (i którego odchylenie standardowe σ to pierwiastek z dwóch). Wiemy, że kurtoza rozkładu normalnego niezależnie od średniej i stopnia rozproszenia zawsze wynosi zero. Tymczasem jak widać na rysunku - parametr opisujący rozproszenie jest różny.
🏁 PODSUMOWANIE | Kilka informacji o kurtozie do zapamiętania:
➡️ Kurtoza to pojedyncza liczba, statystyka opisowa, która opisuje zmniejszoną (gdy jej wartość jest ujemna) i zwiększoną (gdy jej wartość jest dodatnia) obecność obserwacji odstających w porównaniu z rozkładem normalnym.
➡️ Znak wartości kurtozy wyznacza, czy rozkład jest mezo-, lepto-, czy platykurtyczne.
➡️ Od pewnego czasu wiadomo, że kurtoza jest miarą tylko grubości ogonów - nie jest miarą ani spłaszczenia, ani koncentracji. Dlaczego? Bo mogą pojawiać się leptokurtyczne rozkłady, które są spłaszczone w centrum i platykurtyczne, które są smukłe.
➡️ Mezokurtyczny niekoniecznie oznacza normalny. Są nie-normalne, których kurtoza również wynosi zero.
➡️ Kurtoza służy do oceny normalności rozkładu. Istnieje przedział akceptowalnych wartości kurtozy w próbie, dzięki któremu wiemy, że przynajmniej pod kątem grubości ogonów, rozkład jest zbliżony do normalnego.
➡️ Złe rozumienie słowa "koncentracja" w dawnej definicji kurtozy prowadzi do kolejnego błędu: scalenia kurtozy z wariancją (miarą rozproszenia wyników). Kurtoza nie mierzy stopnia skupienia wartości wokół średniej.
Quiz - Kurtoza
Jeśli masz ochotę stanąć w szranki z kurtozą, rozwiąż mój quiz:
2 komentarze:
...to jest najlepiej wytłumaczona Kurtoza,
jaką kiedykolwiek spotkałem w necie ;-D
Ciekawie wytłumaczone. Nie mogę jednak dojść, skąd w przykładzie bierze się 1/12?
Pozdrawiam,
P. Kazior
Prześlij komentarz