Wykres skrzynkowy boksplot

Boksplot to prostokąt z czarną belką w środku oraz na zewnątrz wystającymi antenkami, które nazywa się wąsami (whiskers) - takimi jak u kota. Jest to proste narzędzie do szybkiej oceny Twoich danych. Ponadto pomoże Ci sprawdzić, czy Twoje dane są rozkładu normalnego, czy są obserwacje odstające i może jest jakiś problem z błędami przy wpisywaniu.

SPIS TREŚCI:
  • Co to jest boxplot? Jaka jest jego budowa?
  • Boksplotowe ozdoby - kółka, gwiazdki i co one oznaczają?
  • Detekcja obserwacji odstających za pomocą boksplota
  • Warianty boksplota: pionowa vs. poziomowa
  • Warianty boksplota: sposób tworzenia wąsów
  • Czego nie może boxplot?
  • DIY: Zrób sobie boksplota w SPSS-ie

W boksplotowym prostokącie ważne są: położenie belki względem krótszych boków prostokąta, długość wąsów oraz obecność ozdób. Grubość prostokąta nie jest ważna, więc daje się sterować szerokością rysunku wklejanego do pracy. Na osi pionowej znajduje się skala Twojej zmiennej, więc jeśli jest to wzrost, to zobaczysz tam centymetry (albo metry), a jeśli używasz kwestionariuszy z pytaniami typu Likerta, to powinna być bezjednostkowa skala na przykład od zera do pięciu. Na osi poziomej znajdzie się nazwa Twojej zmiennej.
Wykres skrzynkowy opiera się na trzech kwartylach. Czarna belka prostokąta to mediana (drugi kwartyl Q2). Górna krawędź to trzeci kwartyl Q3, zwany też górnym. Dolna krawędź to pierwszy kwartyl Q1.
Kwartyle są tak wymyślonymi narzędziami statystyki opisowej, że zgodnie z teorią między pierwszym a trzecim kwartylem powinno znaleźć się 50% obserwacji. A więc między górną a dolną krawędzią prostokąta, czyli w skrzynce, jest 50% obserwacji, o których moglibyśmy powiedzieć, że to typowe obserwacje. Gdybyśmy poprzestali tylko na takim kryterium typowości, o tej drugiej połowie obserwacji musielibyśmy powiedzieć, że są nietypowe. To nieco niesprawiedliwe.

Wobec tego, wymyślono rozszerzenie skrzynki, tak aby więcej obserwacji kwalifikowało się jako te typowe. Przy czym zamiast sztucznie rozszerzać skrzynkę, to z góry i z dołu dołączy się antenki (wąsy). Pozostało wówczas pytanie - gdzie te antenki powinny kończyć się? Sztuka polega na tym, aby nie wyrugować ani za mało, ani za dużo obserwacji. I tu przydał się rozstęp międzykwartylowy IQR.

Będziemy iść w górę i w dół od dolnego i górnego kwartyla odmierzając rozstęp międzykwartylowy, IQR, odkładając go odpowiednią liczbę razy. Zgodnie ze sztuką tworzenia boxplotów, powinniśmy oddalić się od górnej krawędzi prostokąta o jeden i pół rozstępu kwartylowego - i tak samo od dolnej krawędzi. Do górnego kwartyla Q3 dodajemy 1,5 · IQR. Od dolnego kwartyla Q1 odejmujemy 1,5 · IQR. Tym sposobem mamy zakreślone miejsca, gdzie powinny kończyć się antenki, zwane wąsami.
Ponieważ mediana nie bierze udziału w rysowaniu wąsów, to może znajdować się w dowolnym miejscu wewnątrz i jej umiejscowienie sugeruje to, czy nasz rozkład jest symetryczny, skośny lewo- bądź prawostronnie.

Wybór 1,5 do odmierzania rozstępu międzykwartylowgo IQR od górnej i dolnej krawędzi prostokąta wcale nie jest przypadkowy – za tą liczbą stoi rozkład normalny, co czyni  z boksplota dobre narzędzie do oceny normalności rozkładu Twojej zmiennej.

Przelicznik 1,5 przy odmierzaniu IQR od górnego i dolnego kwartyla czyni z boksplota dobre narzędzie do oceny normalności rozkładu Twojej zmiennej - możesz wizualnie ocenić, czy częstości występowania Twoich obserwacji odzwierciedlają krzywą Gaussa. Boksplot dla zmiennej, której rozkład jest normalny, powinien wyglądać tak:
Co tu widzimy? Mediana znajduje się na środku. Wąsy powinny długość około 1,5ċIQR - jak to sprawdzić? Otóż ten rozstęp międzykwartylowy, IQR, to jest długość ciała skrzynki. Wystarczy więc wizualnie ocenić, czy mniej więcej skrzynka mieści się półtora razy na jednym i na drugim wąsie. Pozostaje pytanie, czy powinny być kółka lub gwiazdki.

KÓŁKA I GWIAZDKI — Na niektórych boksplotach znajdują się ozdoby, w postaci kółek ◦ lub gwiazdek *. Nie są to zwyczajne ozdoby, ale ważne, informacyjne elementy wykresu. Sygnalizują one, które obserwacje znalazły się poza przedziałem wyznaczonym przez wąsy. Takie obserwacje to potencjalne outliery, czyli obserwacje, których wartość różni się znacząco od pozostałych obserwacji. Oczywiście, całe sedno sprawy tkwi, jak bardzo znacząco jest owe znacząco i tutaj trzeba powiedzieć wprost, że nie mamy matematycznej definicji obserwacji odstajacej. Ani też nie mamy jednoznacznego przepisu, co z nimi zrobić. Sam fakt ich wystąpienia nie upoważnia do przyciśnięcia "Delete" w wierszu, w którym się znajdują.

Obserwacja, która znajdzie się poza czubkami wąsów, będzie oznaczona za pomocą symbolu stosowanego przez dany program statystyczny. Najczęściej jest będzie to kółko. W SPSS-ie są to właśnie kółka, ale też gwiazdki.

Część programów różnicuje między te obserwacje, które znajdują się poza wąsami boksplota, ale nie dalej niż o kolejne 1,5 odchylenia standardowego. Czyli te obserwacje, które siedzą między 1,5·IQR a 3 ·IQR to małe outliery, a te które są jeszcze poza trzykrotny rozstęp międzykwartylowy to duże outliery zaznaczone gwiazdką *.

To dlatego, że dla rozkładu normalnego, szansa na znalezienie się 1,5·IQR mniej niż 0,05. A dalej niż 3 · IQR to jeszcze mniej.

Ogólnie panuje przekonanie, że dla rozkładu normalnego nie powinno być żadnych gwiazdek. Otóż prawda jest inna - rozkład normalny ma prawo wygenerować nam kółka i gwiazdki. Przecież jest on określony dla całej osi liczb rzeczywistych: Od minus do plus nieskończoności każda liczba ma prawo wystąpić. Część z nich ma większą szansę wystąpienia, inne zaś bardzo małą, ale wszystkie – niezerową. Aby to zobaczyć, spójrz na poniższy boksplot wygenerowany dla N = 10 000 obserwacji generowanych z rozkładu standardowego normalnego. Ich szansami wystąpienia rządzi rozkład normalny z parametrami μ równym 0 oraz σ równym 1 (czyli rozkład standardowy normalny).
Jak widać, zdarzają się obserwacje odstające. SPSS podaje numer obserwacji, która wypadła poza wąsy - nie pomyl tego z wartością w zmiennej.

DETEKCJA (NIEKTÓRYCH) BŁĘDÓW — Za pomocą boksplota daje radę sprawdzić, czy nie ma błędów przy wpisywaniu wyników. Nie wszystkie omyłkowo wpisane błędy, bo na przykład te, które mieszczą się w skrzynce – takich w których wpisaliśmy za dużą albo za małą wartość. W moim przykładzie użyłam kwestionariusza Rosenberga RSES. To dość stare narzędzie - z lat '60-tych ubiegłego wieku. Służy do zbadania samooceny i składa się z dziesięciu pytań. Można uzyskać od dziesięciu do czterdziestu punktów. W moim przykładzie, badacz omyłkowo wpisał 300 zamiast możliwego 30. Dzięki boksplotowi szybko wykryje ten błąd:
WIELOMODALNOŚĆ ROZKŁADU CECHY — Boksplot to świetne narzędzie, choć ma swoje wady. Wynikają one z tego, że boksplot nie pokazuje kształtu rozkładu w takim stopniu jak histogram. To powoduje, że boksplot jest ślepy na modę. Ogólnie rzecz biorąc, moda to najczęściej występująca wartość. Ta definicja świetnie sprawdza się dla zmiennych jakościowych, natomiast zmienne ilościowe mogą mieć więcej niż jedną modę. Oznacza to, że są co najmniej dwie wartości Twojej cechy, które zdarzają się częściej niż wartości leżące w ich okolicach.

Wzrost człowieka jest dobrym przykładem takiej cechy, po której spodziewalibyśmy się więcej niż jednej mody. Mamy tutaj górkę mniej więcej w okolicach średniego wzrostu kobiet oraz drugą górkę w okolicach średniego wzrostu mężczyzn. Boksplot nie będzie widział tej dwumodalności.
W praktyce prowadzi to do tego, że dwie zmienne różniące się liczbą mód mogą mieć ten sam boksplot.

WARIANTY BOXPLOTA — Do tej pory w tym poście omawialiśmy boksplot po pierwsze: w wersji pionowej, tzn. wartości zmiennej znajdowały się na osi OY oraz po drugie: w wersji z wąsami wyznaczonymi przez rozstęp międzykwartylowy (odkładanie go półtoraza raza od górnej i dolnej krawędzi). Widywane są jednak boksploty w wersji poziomej, gdzie to na osi poziomej OX znajdują się wartości zmiennej. Pod względem budowy, nie różnią się od siebie - to tylko rotacja o 90 stopni.
Widywane są też boksploty, którym inaczej dorysowano wąsy niż poprzez rozstęp międzykwartylowy i taka zmiana konstrukcji ma większe znaczenie niż rotacja. Wąsy można zakreślać przez minimalną i maksymalną wartość cechy.

Taki boksplot jest nadal boksplotem, ale nie pokazuje potencjalnych obserwacji odstających (choć pewnie długość wąsa może dawać do myślenia).
DIY: ZRÓB SOBIE BOXPLOTA W SPSS! — W SPSS-ie są co najmniej dwa sposoby wykonania boksplota. Opisany przeze mnie będzie tym najprostszym, w którym użytkownika interesuje tylko i wyłącznie uzyskanie wykresu.

1. Idziemy: Wykresy ⮚ Wykresy tradycyjne ⮚ Skrzynkowy
2. Pojawia się pierwsze okno dialogowe. Domyślnie jest ustawione, ale my wybieramy drugą opcję. To dlatego, że masz jedną zmienną. Kiedy zaznaczysz ją, wciśnij "Definiuj".
3. Potem musisz przenieść swoją zmienną z lewego, dużego, białego prostokąta do okna z napisem:"Skrzynki przedstawiają". Jak to zrobisz, naciśnij OK na dole tego okna.
4. I to wszystko. W outpucie powinien pokazać się generyczny rysunek boksplota. Pamiętaj, że Twój boksplot będzie wyglądał nieco inaczej. Generyczny, czyli z domyślnymi ustawieniami, a są to: niebieska skrzynka, nazwa zmiennej taka, jak nazwa kolumny, czcionka Sans Serif.
5. Na moich zajęciach ćwiczymy zmysł plastyczny - proszę studentów o to, aby nieco zmodyfikowali wykres, uczynili go przyjemniejszym dla oka. Ustawiamy krój czcionki na Georgia, nazywamy nasze zmienne nieco bardziej po ludzki i zmieniamy kolor skrzynki na jakiś inny (tu pasowało mi żółty). Usunęłam też linie siatki i przeskalowałam wykres, aby był węższy (to akurat proste - łapiesz go z prawej strony lewym przyciskiem myszy i ciągniesz w lewo).
POLECANE POSTY - do przeczytania tego posta dobrze jest mieć opanowane wiadomości z następujących tematów:
Rozkład normalny — post pogłebia wiedzę z rozkładu normalnego
Miary tendencji centralnej — w szczególności o medianie.

1 komentarz:

Anonimowy pisze...

Wąsy mągą być w doległości 1,5 IQR albo wyznaczone wartościami max i min. Dlaczego na rysunku, który to tłumaczy (a także na innych) wąsy wyznaczane przez 1,5*IQR nie są równe? Monika