Prosto o skośności

LIPIEC 2025 | LJK | ~2 483 słów |~ 17 348 znaków

Skośność (asymetria) to pewna własność rozkładu cechy, która mówi o tym, czy istnieje równowaga między obserwacjami wyższymi od średniej a od niej niższymi. Jedną z miar skośności jest współczynnik skośności, który podaje stopień asymetrii względem wybranej statystyki - najczęściej średniej. Oprócz tego, zadaniem współczynnika skośności jest diagnoza normalności rozkładu badanej zmiennej.


SPIS TREŚCI:

Wprowadzenie: co to jest, oznaczenie i estymator

1️⃣ Współczynnik skośności należy do grupy statystyk opisowych - pojedynczych liczbą opisujących pewien aspekt rozkładu (czyli tego, jak często zdarzają się wyniki badanej cechy, np. samooceny, narcyzmu, czasu reakcji, wieku, etc.). Jaki to aspekt? W rozkładzie może wiele się zdarzyć, np. tak, że więcej osób ma niższe wyniki od średniej albo wyższe wyniki od średniej. Może być też tak, że jest równowaga między osobami o wynikach niższych i wyższych. To właśnie to pokazuje ta statystyka.

2️⃣ Skośność to cecha kształtu rozkładu, a współczynnik skośności to liczba mierzącą skośność (według pewnych kryteriów, o jakich dowiesz się niżej). W takim razie, jaki symbol jest stosowany do oznaczenia skośności? Niestety, inaczej niż w przypadku średniej czy odchylenia standardowego, współczynnik skośności nie ma jednego ustalonego oznaczenia zgodnego ze stylem redakcyjnym obowiązującym w psychologii APA. Nieraz pisze się po prostu słownie: skośność = 3.14 albo skew = 3.14.

Sprawy nie polepsza fakt, że mamy do czynienia ze skośnością rozkładu badanej cechy zarówno w próbie, jak i w populacji, dlatego tak naprawdę dla oznaczenia tego aspektu rozkładu potrzebujemy nie jednego, a dwóch oznaczeń. O ile na próbkowy współczynnik skośności nie ma konkretnego symbolu, to na ten teoretyczny, populacyjny już mamy i zgodnie z tradycją stosowania greckich oznaczeń jest to litera /gamma/ z indeksem dolnym 1, a więc γ1.

3️⃣ Skoro już jesteśmy przy tematyce próby i populacji, trzeba pamiętać, że współczynnik skośności w próbie jest oszacowaniem współczynnika skośności w populacji. Innymi słowy, chcemy dowiedzieć się, jaka jest skośność w populacji. Niestety, nie możemy jej w pełni zbadać, dlatego pobieramy próbę i na jej podstawie estymujemy wartość współczynnika skośności. Dzięki temu możemy powiedzieć, że współczynnik skośności w próbie np. skośność = 3.14 jest estymatorem teoretycznego współczynnika skośności γ1 w populacji. O estymatorach możesz poczytać tutaj: KLIK.


Skośność i części wykresu rozkładu

Do tej pory omówiliśmy już kilka rodzin statystyk opisowych, czyli pojedynczych liczb informujących o różnych cechach charakterystycznych rozkładu. Są to miary tendencji centralnej, które charakteryzują typową obserwację w próbie, np. średnia, oraz miary dyspersji, np. rozstęp albo odchylenie standardowe, które opisują zmienność wyników. Teraz przyszedł czas na kolejną miarę, a omawiając ją wygodnie posługiwać się wykresem rozkładu i charakterystycznymi określeniami na jego części. W poście o rozkładzie zmiennej losowej jest mowa o: szczycie, który mówi o tym, gdzie jest największa szansa, ramionach (gdzie szansa jest umiarkowana) i ogonach (który pokazuje obserwacje odstające):

Skośność dotyczy relacji między ramionami rozkładu, ale współczynnik skośności mierzy stopień nierówności między nimi.


Rozkład symetryczny i jego nie-skośność

W rozkładach jednomodalnych (tzn. na rysunku mających jeden garb) i symetrycznych (jednakowo opadające ramiona) szczyt rozkładu leży tuż nad średnią. Te rozkłady są symetryczne, ponieważ szanse pojawienia się niższych wartości niż średnia są takie same, jak i wyższych. Taki jest np. rozkład normalny, ale nie tylko - do bardziej znanych rozkładów symetrycznych należy rozkład t-Studenta o ogonach grubszych niż rozkład normalny i smuklejszym wierzchołku. 

Prosty sposób na badanie symetryczności rozkładu polega na złożeniu kartki na pół wzdłuż pomarańczowej linii.

Co oznacza symetryczność rozkładu? Popatrzmy na pomarańczową linię na rysunku - jest to średnia tego rozkładu. Nad tą wartością znajduje się szczyt, zaś po jego obu stronach opadają symetrycznie rozłożone ramiona. Taki kształt rozkładu pokazuje, że osób o umiarkowanie wyższych wynikach od średniej i umiarkowanie od niej niższych jest tyle samo. Jednostek odstających dużo poniżej średniej jest tyle samo, ile jednostek odstającej powyżej średniej.

Przykładem rozkładu symetrycznego jest rozkład inteligencji w populacji. Za średni poziom przyjmuje się wartość μ = 100. Symetryczność rozkładu inteligencji polega na tym, że osób o umiarkowanie wyższych wynikach od średniej i umiarkowanie od niej niższych jest tyle samo - podobnie jak osób niepełnosprawnych intelektualnie oraz geniuszy.

SYMETRIA WZGLĘDEM ...? | Teraz mogłoby paść pytanie o to, czy rozkład mógłby być symetryczny względem czegoś innego. Skośność, o której mówimy, jest współczynnikiem, który bada symetrię względem średniej arytmetycznej, a tak się składa, że jednocześnie jest to środek ciężkości rozkładu. Prawdopodobnie można byłoby sobie wyobrazić jakąś inną oś symetrii, np. względem pierwszego kwartyla albo względem mediany. Szkopuł w tym, że dana miara statystyczna musi mieć wartość użytkową - symetria względem średniej przynosi informację o tym, czy jest zachowany balans między występowaniem obserwacji niższych i wyższych od niej. Pozostałe pomysły musiałyby mieć równie dobry powód do zaistnienia.


Rozkłady asymetryczne

Nie wszystkie rozkłady są symetryczne. Jeśli w strukturze szans jest jakieś zaburzenie po jednej lub po drugiej stronie średniej, na przykład mamy więcej osób o wyższych wynikach niż o niższych, wówczas rozkład przestaje być symetryczny i zaczyna być asymetryczny. Właśnie tę informację przekazuje współczynnik skośności. Lewo- lub prawostronna skośność wskazuje kierunek dłuższego opadania ramienia.

ROZKŁAD PRAWOSTRONNIE SKOŚNY | Rozkład prawostronnie skośny to rozkład, którego prawy ogon rozkładu jest dłuższy. Jeśli tak jest, to znaczy, że szczyt został po lewej stronie. Wszystko razem oznacza większą ilość obserwacji mniejszych od średniej. Wartość współczynnika skośności jest wyższa od zera, więc taką skośność nazywamy dodatnią.

PRZYKŁAD | Rozkład zmiennej Liczba Urojeń jest rozkładem prawostronnie skośnym w populacji zdrowej. Ogon rozkładu ciągnie się w prawą stronę, a przeważają osoby o liczbie urojeń niższej niż średnia (uwaga: to nie są wyniki konkretnych badań, a jedynie  mnemotechniczna ilustracja zagadnienia).

SKOŚNOŚĆ NA BOKSPLOCIE | można wykryć również oglądając wykres skrzynkowy (ang. boxplot). Jeśli rozkład jest prawostronnie skośny, to ten wykres może mieć taki wykres:

ROZKŁAD LEWOSTRONNIE SKOŚNY | Rozkład jest lewostronnie skośny, gdy w próbie przeważają obserwacje o wartościach wyższych niż średnia, a lewy ogon rozkładu jest wydłużony. Ze względu na to, że wartość współczynnika skośności w takim przypadku jest mniejsza od zera, to taką skośność nazywamy ujemną.

PRZYKŁAD | Rozkład wyników w skali Samooceny mierzonej kwestionariuszem Rosenberga (składającym się z dziesięciu pytań) jest rozkładem lewostronnie skośnym. W próbie przeważają osoby o podwyższonych wynikach samooceny. Taką informację znalazłam w podręczniku pt. Psychologia Społeczna pod redakcją Bogdana Wojciszke (2012) - na zdjęciu po prawej stronie.

SKOŚNOŚĆ NA BOKSPLOCIE | Jeśli Twoja cecha jest lewostronnie skośna, wówczas wykres skrzynkowy przyjmie taką postać:


Relacja między miarami tendencji centralnej a skośność

Jest taka reguła kciuka, która opowiada o relacji między miarami tendencji centralnej (średnią i medianą), gdy rozkład jest asymetryczny.

W ROZKŁADZIE PRAWOSTRONNIE SKOŚNYM | (gdzie mamy więcej obniżonych wyników od średniej) średnia leży na prawo od mediany (czyli jest większa niż mediana) i między miarami tendencji centralnej zachodzi taka relacja: moda < mediana < średnia. Z tego układu nierówności wynika, że najwyższa jest średnia, a najniższa - moda. Ktoś mógłby powiedzieć, że przecież moda jest położona najwyżej, więc to ona ma najwyższą wartość. Wcale nie. Przypomnij sobie, że na osi pionowej OY znajdują się częstości występowania, a nie same wartości cechy. Te leżą na osi poziomej OX. Na tym wykresie widzimy, że najczęściej występującą wartością jest ta, nad którą znajduje się szczyt - czyli moda. Z trzech miar tendencji centralnej, najrzadziej występującą jest średnia, ale ma ona najwyższą wartość.

W ROZKŁADZIE LEWOSTRONNIE SKOŚNYM | (gdzie mamy więcej podwyższonych wyników od średniej) średnia leży na lewo od mediany (czyli jest niższa niż mediana) i między miarami tendencji centralnej zachodzi taka relacja: średnia < mediana < moda. Z tego układu nierówności wynika, że najwyższa jest moda, a najniższa - średnia.

Należy pamiętać, że to jest obserwowany wzorzec w danych, ale nie zawsze ta reguła działa. Może zdarzyć się tak, że mimo prawostronnej czy lewostronnej asymetrii układ nierówności między tymi miarami tendencji centralnej będzie zaburzony. Wynika to z tego, że skośność nie jest miarą relacji między poszczególnymi statystykami opisowymi.


Współczynnik skośności w diagnostyce normalności rozkładu

SKOŚNOŚĆ I NORMALNOŚĆ | Jak już mogliśmy przekonać się, współczynnik skośności przekazuje informację o tym, co dzieje się w zebranych wynikach. Obok tego, ta miara pełni jeszcze jedną ważną funkcję – służy do diagnostyki normalności naszych danych, czyli tzw. rozkładów empirycznych. Dzięki badaniu wskaźnika skośności, możemy nabrać przekonania, że mamy do czynienia z ważnym w statystyce klasycznej rozkładem normalnym, który stanowi wymóg w wielu testach, gdzie żąda się, aby rozkład empiryczny był właśnie takim rozkładem. Licząc skośność, sprawdzamy, czy nasz rozkład jest zbliżony do rozkładu normalnego.

Punktem wyjścia jest fakt, że skośność każdego rozkładu normalnego wynosi zero, 0, ponieważ jest on symetryczny. Każdy dzwon Gaussa można złożyć na pół i lewa strona będzie zgadzała się z prawą. Tyle, że to zero to skośność teoretyczna. W praktyce bywa inaczej. Łatwo można pomyśleć, że dane w próbie też muszą mieć zerową skośność. Tymczasem trudno oczekiwać, żeby skośność w próbie była co do joty zerowa. Wszystko przez losowość danych czy błędy pomiarowe, musimy wykazać się pewną elastycznością.

BEZPIECZNY ZAKRES SKOŚNOŚCI | Jedna z reguł o dopuszczalnym zakresie współczynnika skośności, mówi, że bezpieczny zakres wartości tej statystyki opisowej wynosi [-1,1]. Jeśli obliczona przez Ciebie skośność zawiera się wewnątrz tego przedziału, to możesz uznać, że pod tym względem rozkład Twoich danych jest podobny do rozkładu normalnego.

⚠️ Uważaj! Napisałam tu ważną frazę - pod względem skośności, asymetrii. Mam tu na myśli, że skośność jest tylko jednym z wyznaczników normalności, ponieważ są rozkłady o zerowej skośności, ale wcale nie normalne. Zobaczysz to zjawisko na przykładzie omówionym nieco niżej.

- A jeśli skośność wynosi równo -1,00 albo +1,00? - pytają czasami studenci. Co zrobić gdy skośność w próbie znajduje się dokładnie w krańcu przedziału? Cóż, sprawa zaczyna się robić ciekawa. Mówię, że jest to decyzja badacza. Zresztą ten przedział dopuszczalnych wartości sam w sobie jest arbitralny - tzn. można znaleźć takie materiały, w których jest on szerszy i wynosi [-2,2]. Wynika to z tego, że nie powstał on w drodze dowodu matematycznego, a na podstawie ogólnie przyjętego konsensu wśród praktyków z danego obszaru nauki. Rozkład skośny dla jednej osoby może przez inną być uznany za jeszcze symetryczny.

Efekt podłogi i sufitu jako jedno ze źródeł skośności

Skąd bierze się skośność w danych? Gdyby przedział możliwych wyników porównać do patyka, to dane mają różne skłonności do obsiadania patyka. Wówczas mogą siedzieć symetrycznie na jego środku, ale mogą też przysiadać na krańcach. Jeśli znaczna część danych siądzie na lewym końcu patyka, to znaczy, że jest bardzo duża koncentracja na wartości minimalnej. Jeśli na prawym krańcu, to na wartości maksymalnej. Pierwszy przypadek nazywa się efektem podłogi. Drugi przypadek - efektem sufitu. Oba mogą przyczynić się do skośności w danych.

EFEKT PODŁOGI | (ang. floor effect) — pojawia się wówczas, gdy wyniki w badaniu obsiadają lewy koniec patyka. A więc mamy dużo obserwacji, które przyjęły wartość minimalną, albo prawie minimalną, a mało obserwacji, które są środka przedziału (patyka) lub z jego prawego końca (maksymalna wartość). To się zdarza, gdy badasz populację zdrową pod kątem typowo psychopatologicznych cech, np. psychopatyczności."Niżej nie poleci" - czasami mówi się, gdy smartfon spadnie na podłogę. 

EFEKT SUFITU | (ang. ceiling effect) — pojawia się wówczas, gdy wynik przekracza możliwości pomiaru narzędzia. Na przykład pacjent ma gorączkę większą niż skala na termometrze rtęciowym, czyli powyżej 43. Termometr nie jest w stanie pokazać dokładnego odczytu, ponieważ prawdziwa wartość znajduje się poza zakresem pomiaru. Choć miernik wskazuje maksymalną wartość, to jeszcze wcale nie oznacza, że nie może być wyżej, a badacz nie wie, jak bardzo wyżej – i bywa, że nie jest to największe zmartwienie.

W serialu HBO pt. "Czarnobyl" jest scena, w której jeden z bohaterów kwestionuje wskazanie dozymetru służącego do pomiaru dawki promieniowania , mówiąc, że przyrząd ma za mały zakres pomiaru, a prawdziwy wynik jest znacznie wyższy (i sytuacja jest jeszcze gorsza) 😱.

Zerowa skośność, ale asymetria w kształcie rozkładu

Wiemy, że rozkłady symetryczne mają zerową skośność. Ten fakt statystyczny można formalnie wykazać za pomocą dowodu matematycznego. Spytajmy zatem w drugą stronę - czy zerowa skośność oznacza symetryczność rozkładu? Okaże się, że odpowiedź wcale nie jest taka prosta.

Wcale nie tak rzadko rozkład ma zerową skośność, ale jego kształt bynajmniej nie jest symetryczny. Sprawdźmy to na poniższym przykładzie.

PRZYKŁAD | Sprawdźmy taki zbiór danych: {1, 2, 3, 3, 3, 3, 3, 3, 5, 5, 6 ,6 ,6 ,7 ,7 ,7 ,8 ,8}. Jego średnia wynosi x̄ = 4,78. Widzisz ją na rysunku po prawej stronie w postaci niebieskiego trójkąta. Skośność tego zbioru danych jest bardzo mała, prawie równa zero i wynosi -0.02.Tymczasem to, co widzimy na rysunku to rozkład, o którym chciałoby się powiedzieć, że jest prawostronnie skośny.

Widząc, że współczynnik skośności jest równy zero, można mieć nadzieję, że rozkład jest symetryczny, ale nie można mieć pewności.

Z czego to wynika? Z mechanizmu stojącego za obliczaniem współczynnika skośności, o czym krótko teraz porozmawiamy.


Jak to działa? Konstrukcja współczynnika skośności

Studenci kierunków nie-matematycznych nie przepadają za bardzo za wzorami, ale wzory działają jak przepisy. Jeśli chcesz wiedzieć, jak upiec ciasto, musisz podążać za wskazaniami przepisu. Z matematycznymi formułami jest podobnie. Aby zrozumieć co tak naprawdę bada dana miara statystyczna, należy prześledzić, co dzieje się z wartościami, na podstawie których powstaje. Oto przepis na współczynnik skośności:

We wzorze na współczynnik skośności jest i licznik, i mianownik. W liczniku literka xi oznacza jakąś obserwację. Znak x̄  pewnie rozpoznajesz - to średnia arytmetyczna. Mamy odejmowanie obserwacji od średnich, podnoszenie tej różnicy do trzeciej potęgi, sumowanie itd. W mianowniku kryje się wariancja, jeśli dobrze przyjrzysz się.

Nawet jeśli ten wzór Tobie nic nie mówi, warto zapamiętać następującą rzecz. Sednem współczynnika skośności są tzw. odchylenia obserwacji xi od średniej arytmetycznej x̄ - czyli to, jak bardzo obserwacje różnią się od średniej. To ten sam pomysł, który leży u podstaw odchylenia standardowego (i wariancji też). W przypadku współczynnika skośności te odchylenia podnosi się do sześcianu, czyli trzeciej potęgi, (·)3.

Należy pamiętać, że inaczej niż w przypadku podnoszenia do kwadratu (·)2, podniesienie do trzeciej potęgi (·)3 nie znosi ujemnego znaku, np. -52 = +25, ale -53 = -125. Jeśli pierwotnie obserwacja była niższa od średniej, to jej odchylenie jest  ujemne i po podniesieniu do trzeciej potęgi nadal pozostaje ujemnym.

Dlaczego o tym piszę? Dlatego, że można tak poukładać obserwacje z jednej i z drugiej strony średniej, że sumarycznie ich odległości od średniej podniesione do trzeciej potęgi wyzerują się. To po prostu taki glitch we współczynniku skośności.

🏁 PODSUMOWANIE | Kilka informacji o skośności i współczynniku skośności do zapamiętania:

➡️ Skośność (inaczej:asymetria) to własność rozkładu, która mówi o nierówności między ramionami, czyli o braku balansu między występowaniem obserwacji wyższych od średniej i obserwacji niższych od niej.
➡️ Znak współczynnika skośności mówi o tym, które z ramion jest wydłużone. Skośność wynosząca zero można oznaczać, że rozkład symetryczny, ale nie zawsze tak jest.
➡️ Współczynnik skośności służy do diagnostyki normalności. W psychologii najczęściej za bezpieczny zakres wartości to [-1,1].


Quiz

Jeśli masz ochotę sprawdzić się w wiedzy o skośności, to rozwiąż mój quiz:

4 komentarze:

ilka pisze...

Wspaniały jest ten blog. W bardzo jasny i przystepny sposób potrafi Pani wyjaśnić z pozoru skoplikowane rzeczy. Dziękuję :)

Lilianna Jarmakowska-Kostrzanowska pisze...

Bardzo cieszę się, że przydaje się :-)

Sylwia Gond pisze...

DZIĘKUJĘ! Jedyne miejsce gdzie znalazłam przystępnie wytłumaczony efekt sufitowy :) Pozdrawiam serdecznie :)

Anonimowy pisze...

Przydało się :D
Jedynie przy zależnościach dominanta (moda), średnia, mediana dałabym zapis ze znakami nierówności (czyli dla wykresu prawoskośnego moda < mediana < średnia) + przykład graficzny - łatwiej to zrozumieć niż z tekstu czytanego :D