Prosto o skośności

SPIS TREŚCI:
  • Przykład: rozkład prawostronnie skośny. Jak wygląda prawostronna skośność na boxplocie?
  • Przykład: rozkład lewostronnie skośny. Jak wygląda lewostronna skośność na boxplocie?

SKOŚNOŚĆ jest pojedynczą liczbą opisującą rozkład, czyli to, jak często zdarzają się wyniki badanej cechy, np. samooceny, narcyzmu, czasu reakcji, wieku, etc. Do tej pory omówiliśmy już kilka pojedynczych liczb informujących o różnych aspektach rozkładu. Są to miary tendencji centralnej, które charakteryzują typową obserwację w próbie, np. średnia, oraz miary stopnia rozproszenia wyników, np. rozstęp albo odchylenie standardowe. Teraz czas na taką miarę, która przekazuje informację o zupełnie innym aspekcie - o tym, czy szanse poszczególnych wartości układają się tak samo po jednej stronie średniej, jak i po drugiej.
W poście o rozkładzie zmiennej losowej jest mowa o częściach jego wykresu: szczycie, ramionach i ogonach:

W rozkładach jednomodalnych (mających jeden garb) i symetrycznych (nie-skośnych) szczyt plasuje się w średniej, np. rozkład normalny i rozkład t-Studenta. Te rozkłady są symetryczne, ponieważ szanse na pojawienie się niższych wartości niż średnia są takie same jak i wyższych. Prosty test na symetryczność polega na złożeniu kartki na pół wzdłuż pomarańczowej linii.

Rozkład jest symetryczny gdy lewa strona rysunku odbije się po prawej stronie.

Nie wszystkie rozkłady są symetryczne. Jeśli w strukturze szans jest jakieś zaburzenie po jednej lub po drugiej stronie średniej, na przykład mamy więcej osób o wyższych wynikach niż o niższych, wówczas rozkład przestaje być symetryczny. Właśnie tę informację przekazuje współczynnik skośności.

ROZKŁAD PRAWOSTRONNIE SKOŚNY — Rozkład jest prawostronnie skośny to rozkład, którego prawy ogon rozkładu jest dłuższy, co oznacza, że mamy dużo obserwacji, które przyjmują wartości mniejsze od średniej. Ze względu na to, że wartość współczynnika skośności w takim przypadku jest wyższa od zera, to taką skośność nazywamy dodatnią.

Przykład: rozkład zmiennej Liczba Urojeń jest rozkładem prawostronnie skośnym w populacji zdrowej. Ogon rozkładu ciągnie się w prawą stronę, a przeważają osoby o liczbie urojeń niższej niż średnia (uwaga: to nie są wyniki konkretnych badań, a jedynie  mnemotechniczna ilustracja zagadnienia).

Skośność można wykryć również oglądając wykres skrzynkowy (boxplot). Jeśli Twoja cecha jest prawostronnie skośna może mieć taki wykres:

ROZKŁAD LEWOSTRONNIE SKOŚNY — Rozkład jest lewostronnie skośny, gdy w próbie przeważają obserwacje o wartościach wyższych niż średnia, a lewy ogon rozkładu jest wydłużony. Ze względu na to, że wartość współczynnika skośności w takim przypadku jest mniejsza od zera, to taką skośność nazywamy ujemną.

Przykład: Rozkład wyników w skali Samooceny mierzonej kwestionariuszem Rosenberga (składającym się z dziesięciu pytań) jest rozkładem lewostronnie skośnym, tak jak ten powyżej. W próbie przeważają osoby o wyższych wynikach samooceny. (Psychologia Społeczna, red. B. Wojciszke (2012)

Jeśli Twoja cecha jest lewostronnie skośna, wówczas wykres skrzynkowy przyjmie taką postać:

RELACJA MIĘDZY ŚREDNIĄ A MEDIANĄ — Jest taka reguła kciuka w książkach ze statystyki, która opowiada o relacji  między miarami tendencji centralnej (średnią i medianą), gdy rozkład jest asymetryczny:
- jeśli rozkład jest prawostronnie skośny, to średnia leży na prawo od mediany (czyli jest większa niż mediana);
- jeśli rozkład jest lewostronnie skośny, to średnia leży na lewo od mediany (czyli jest mniejsza niż mediana) ;
Z grubsza to działa, choć nie zawsze. Skośność nie jest miarą stronności mediany względem średniej.

SKOŚNOŚĆ I NORMALNOŚĆ Jak już mogliśmy przekonać się, skośność przekazuje informację o tym, co dzieje się w zebranych wynikach. Obok tego, ta miara pełni jeszcze jedną ważną funkcję – służy do diagnostyki normalności naszych danych (tzw. rozkładów empirycznych). Rozkład normalny w statystyce klasycznej stanowi bazę dla wielu testów. Aby mogły one zadziałać, żąda się, aby rozkład empiryczny był właśnie takim rozkładem. Licząc skośność, sprawdzamy, czy nasz rozkład jest zbliżony do rozkładu normalnego.

Punktem wyjścia jest fakt, że skośność każdego rozkładu normalnego wynosi zero, 0. W związku z tym, aby nasze dane miały rozkład normalny, muszą mieć również zerową skośność. Tymczasem trudno oczekiwać, żeby skośność w próbie była co do joty zerowa. Ze względu na losowość danych czy błędy pomiarowe, musimy wykazać się pewną elastycznością.

Jedna z reguł o dopuszczalnym zakresie skośności uzyskiwanych przez badacza, mówi, że bezpieczny zakres skośności wynosi [-1,1]. Jeśli obliczona przez Ciebie skośność zawiera się wewnątrz tego przedziału, to możesz uznać, że pod tym względem rozkład Twoich danych jest podobny do rozkładu normalnego.

SKĄD BIERZE SIĘ SKOŚNOŚĆ W DANYCH? — Gdyby przedział możliwych wyników porównać do patyka, to dane mają różne skłonności do obsiadania patyka. Wówczas mogą siedzieć symetrycznie na jego środku, ale mogą też przysiadać na krańcach. Jeśli znaczna część danych siądzie na lewym końcu patyka, to znaczy, że jest bardzo duża koncentracja na wartości minimalnej. Jeśli na prawym krańcu, to na wartości maksymalnej. Pierwszy przypadek nazywa się efektem podłogi (floor effect). Drugi przypadek - efektem sufitu (ceiling effect). Oba mogą przyczynić się do skośności w danych.

EFEKT PODŁOGI (floor effect) — pojawia się wówczas, gdy wyniki w badaniu obsiadają lewy koniec patyka. A więc mamy dużo obserwacji, które przyjęły wartość minimalną, albo prawie minimalną, a mało obserwacji, które są środka przedziału (patyka) lub z jego prawego końca (maksymalna wartość). To się zdarza, gdy badasz populację zdrową pod kątem typowo psychopatologicznych cech, np. psychopatyczności.

EFEKT SUFITU (ceiling effect) — pojawia się wówczas, gdy wynik przekracza możliwości pomiaru narzędzia. Na przykład pacjent ma gorączkę większą niż skala na termometrze rtęciowym, czyli powyżej 43. Termometr nie jest w stanie pokazać dokładnego odczytu, ponieważ prawdziwa wartość znajduje się poza zakresem pomiaru. Choć miernik wskazuje maksymalną wartość, to jeszcze wcale nie oznacza, że nie może być wyżej, a badacz nie wie, jak bardzo wyżej – i bywa, że nie jest to największe zmartwienie.

W serialu Czarnobyl jest scena, w której jeden z bohaterów kwestionuje wskazanie dozymetru - służący do pomiaru dawki promieniowania - mówiąc, że przyrząd ma za mały zakres pomiaru, a prawdziwy wynik jest znacznie wyższy.

Na poniższym rysunku widać wyraźnie efekt sufitu - mogą go zaliczać zbyt łatwe testy. Jeśli w Twoim kwestionariuszu jest za dużo łatwych pozycji (itemów), to możesz po dokonaniu badań zobaczyć taki rysunek.

4 komentarze:

ilka pisze...

Wspaniały jest ten blog. W bardzo jasny i przystepny sposób potrafi Pani wyjaśnić z pozoru skoplikowane rzeczy. Dziękuję :)

Lilianna Jarmakowska-Kostrzanowska pisze...

Bardzo cieszę się, że przydaje się :-)

Sylwia Gond pisze...

DZIĘKUJĘ! Jedyne miejsce gdzie znalazłam przystępnie wytłumaczony efekt sufitowy :) Pozdrawiam serdecznie :)

Anonimowy pisze...

Przydało się :D
Jedynie przy zależnościach dominanta (moda), średnia, mediana dałabym zapis ze znakami nierówności (czyli dla wykresu prawoskośnego moda < mediana < średnia) + przykład graficzny - łatwiej to zrozumieć niż z tekstu czytanego :D