Grafika w statystyce: Wykres słupkowy.

Wykres słupkowy i histogram

Jeśli do przeczytania przed Tobą jeszcze takie posty: rozkład oraz skale pomiarowe, a także histogram to tutaj jest TL;DR z ich treści.
W statystyce zajmujemy się cechami, ale tak naprawdę najważniejsze są rozkłady tych cech. Inaczej mówiąc, bardziej interesujące jest to, jak często, a nie że w ogóle przytrafia się jakaś obserwacja. Wiedza o tym, że na imprezie będą kobiety i mężczyźni jest mniej przydatna niż taka wiedza: na imprezie będzie dwudziestu mężczyzn i trzy kobiety. Możesz wówczas dokonać decyzji opartej na wiedzy (informed choice), czy szykować się czy zostać w domu. Kolejny przykład - jeśli wiesz, że dany profesor raczej oblewa studentów niż daje łatwe zadania, to przyłożysz się do wykładów - a przecież ta zmienna ma dwie wartości: zdać lub nie zdać. Też inaczej nastawisz się, jeśli wiesz, że 80% przypadków kowidu (Covid-19) ma umiarkowany przebieg a tylko 5% jest śmiertelna. Więc tak naprawdę interesują nas częstości z jakimi pojawiają się różne wartości cechy.
Zmienną mierzoną na skali nominalnej/porządkowej traktujemy w odmienny sposób niż taką, którą mierzymy na skali interwałowej/ilorazowej, bo za dużo dla niej nie da się zrobić. Zmienną interwałową lub ilorazową ostatnią wygodniej reprezentujemy w postaci histogramu (KLIK). Tradycyjnie rozumianą Płeć, Wykształcenie czy Dochód jako zmienne mierzone na skali nominalnej i porządkowej przedstawiamy w postaci wykresu słupkowego - i o tym jest ten post.



Wykres słupkowy - o czym jest ten post?
- Z czego składa się wykres słupkowy?
- Wykres słupkowy a wykres kołowy
- Wykres słupkowy i histogram
- Czy samoocenę i czas reakcji można przedstawić na wykresie słupkowym?
- Dlaczego wiele osób stosuje wymiennie pojęcia:"wykres słupkowy" oraz "histogram"?
- Jak się nie dać oszukać wykresom słupkowym?



Z czego składa się wykres słupkowy? 

Pewnie większość z Was już widziała przynajmniej raz w życiu wykres słupkowy. Po prostu nie da się uniknąć obejrzenia jakiegoś, zwłaszcza w Internecie. Wykres słupkowy jest jak "Last Christmas" w okresie bożonarodzeniowym, nie można uciec :-) Dla porządku zerknijmy jednak na jego anatomię.

Tak będzie zbudowany najprostszy wykres słupkowy, zliczający liczbę obserwacji w próbie, która ma daną wartość - ta informacja jest na osi pionowej. Sprawdza się to idealnie dla zmiennych nominalnych, dla których zwykle nie możemy nic więcej zrobić niż stwierdzić, po ile każdej z nich w kategoriach zmiennej (ile jest kobiet, mężczyzn, osób po maturze, itp.).


Anatomia wykresu słupkowego (Rys. LJK)
Wykres słupkowy na osi pionowej może mieć coś innego niż liczebność. Mogą być to średnie - to akurat zarezerwowane dla zmiennych ilościowych. Może być w zasadzie dowolna statystyka, która interesuje badacza.



Wykres słupkowy a wykres kołowy
Nie twierdzę, że wykres słupkowy to jedyny możliwy sposób przedstawienia wykres. Wizualizacja danych to naprawdę ogromna działka statystyki, a dobry obraz jest wart tysiąca słów. Podkreślam - dobry obraz. Nie umiem jednoznacznie powiedzieć, co to jest dobry obraz, ale podam przykład złego obrazu. Zły obraz to taki, który nie przekazuje informacji, tylko jeszcze ją zaciemnia.
W pewnym sensie wykresy kołowe są takimi wykresami. Może aby nie narazić się miłośnikom ciast (po angielsku wykresy kołowe są nazywane pie chartami, pie znaczy ciasto. A w zasadzie placek, który składa się z okrągłej formy z nadzieniem. Pamiętacie ciasto Minnie z filmu "Służące", okrągły z czekoladowym nadzieniem - to jest właśnie pie).
Wracając - aby nie narazić się miłośnikom wykresów kołowym i nie wyrzucać ciast przez okno, trzeba wiedzieć o wadzie tych wykresów. Ta wada jest tak naprawdę wadą w oku patrzącego - otóż, umysł ludzki źle przetwarza wycinki kołowe. Więc jeśli chcesz coś przedstawić na wykresie, to łatwiej będzie Tobie porównać dwa słupki niż dwa wycinki ciasta. Tak pracuje nasze oko i nasz mózg. Łatwiej się oszukać.


Rys. Wykres kołowy (Rys. LJK)


Wykres kołowy, który widzicie wyżej, daje jakiś pogląd - na pewno jest więcej kobiet niż mężczyzn. Ale bardziej czytelny jest ten słupkowy:
Rys. Wykres słupkowy przedstawiający te same dane, co wykres kołowy (LJK).




Wykres słupkowy i histogram
Histogram służy do przedstawienia danych mierzonych na skali interwałowej lub ilorazowej. Dlaczego histogram nie jest do końca wykresem słupkowym, choć ma słupki?
Różnica jest w tym, co leży na osi poziomej. Oś pionowa będzie z grubsza taka sama - tu i tu będą liczebności. Ale to, co się dzieje na osi poziomej dyktuje czy masz do czynienia z histogramem, czy z wykresem słupkowym. A żeby było weselej, pogłębimy ten podział na jeszcze dwa: z wykresem słupkowym udającym histogram, czy z histogramem udającym wykres słupkowy.
Przedstawmy taką klasyczną zmienną mierzoną na skali ilorazowej za pomocą wykresu słupkowego. Zmienna reprezentuje Czas reakcji w milisekundach - badanym stu osobom polecono wykonać zadanie i mierzono czas reakcji - po prostu klasyka.
Zebrane dane przedstawiono w postaci wykresu słupkowego.

Wykres słupkowy zmiennej mierzonej na skali ilorazowej. (Rys. LJK)
Każda obserwacja ma swój własny słupek. Dlaczego tak się dzieje? Dlatego, że wszyscy otrzymali różne wyniki. Bo mogli. Jedna osoba rozwiązywała zadanie przez 65 milisekund, a druga przez 67 milisekund.
I tak pięknie będą wyglądać wykresy słupkowe dla zmiennych na skalach przedziałowych i ilorazowych, gdy na osi pionowej jest liczebność. Pół biedy, gdy zebrana próba będzie mała, kilkuosobowa, wtedy jeszcze jako-tako słupki będą wyglądać. Drugie pół biedy, gdy Twoja zmienna ma mało wartości (mało kategorii). Na przykład, badasz licealistów i prosisz o podanie wieku w latach, 15, 16, 17, 18, 19. Jest to jak najbardziej zmienna ilorazowa, ale ma mało wartości. A teraz wyobraź sobie, że prosisz o podanie wieku w miesiącach, a najlepiej - w liczbie dni :-) I tym oto sposobem otrzymasz wykres słupkowy w stylu powyższego - bardzo słupkowy.

To teraz zlepmy wartości zmiennej Czas reakcji w przedziały co dziesięć: od 55 milisekund do 65 milisekund to pierwszy przedział, od 65 milisekund do 75 milisekund to drugi przedział i itd. Następnie zliczymy, ile obserwacji wpadło do każdego z osobna.
Oto histogram zmiennej.

Zmienna mierzona na skali interwałowej w przeznaczonej dla niej wizualizacji - histogramie. (Rys. LJK).
Jest o wiele czytelniejszy. Poza tym - powinien przypominać z daleka rozkład normalny (powinien, bo taką próbę wygenerowałam).
To, co zaobserwowaliście powyżej, bałagan vs. porządek, to jeden z powodów, dla których dla zmiennych ilościowych (interwałowej i ilorazowej) zarezerwowany jest histogram.
Więcej o histogramie TU.



Czy samoocenę i czas reakcji można przedstawić na wykresie słupkowym?
Stare powiedzenie głosi: wszystko można, co nie można, byle z cicha i ostrożna. Pewnie, że można - fizycznie jest to wykonalne, ale nie wszystko, co jest wykonalne jest sensowne.

Wykres słupkowy zmiennej ilościowej

Fizycznie jest to wykonalne. Tyle, że taki wykres słupkowy będzie mało informacyjny. Program potraktuje każdą wartość jako osobną kategorię. Ponieważ wartości zmiennej ilościowej to liczby, a liczby są uporządkowane, więc kategorie również będą uporządkowane na osi OX. Użytkownik jest w stanie zmienić ten porządek na inne – to jest coś, czego nie można zrobić w histogramie.
Porządek liczb jest jeden: od najmniejszej do największej, od minus nieskończoności do plus nieskończoności, zero stoi przed jedynką, a dwójki nie da się przestawić za trójkę. Jeśli jednak powiemy programowi, aby przestał uważać liczby za prawdziwe liczby, to wówczas można dowolnie robić roszady.



Dlaczego wiele osób stosuje wymiennie pojęcia:"wykres słupkowy" oraz "histogram"?
Proste, na chłopski rozum to tu i tu są słupki.
A różnice są - patrz na oś poziomą. Jeśli wykres będzie przedstawiał histogram, to będą tam interwały, a jeśli wykres słupkowy - etykiety czy nazwy wartości Twojej zmiennej (np. "kobieta", "umiarkowanie szczęśliwy", "jutro", "Warszawa")

Na dodatek, upewnij się jednak, czy na osi pionowej są liczebności. Histogram musi mieć na osi pionowej liczebności albo częstości (czyli liczebność podzielona przez całkowitą liczbę badanych, innymi słowami procenty lub części dziesiętne). Wykres słupkowy na osi pionowej może mieć inne statystyki, np. średnie.



Jak się nie dać oszukać wykresom słupkowym?
1. patrz zawsze od jakiej wartości zaczynają się te słupki (przykłady poniżej mogą tylko Cię do tego przekonać)
2. zwróć uwagę, co jest na osi poziomej - jeśli są to wartości zmiennej nominalnej, to trudno mówić, że wraz z ich wzrostem liczebność spada (lub rośnie)
3. na długość słupków - czyli na to, czy rzeczywiście oddają krotność liczebności.

Przykład. Na spotkaniu ma być 10 kobiet i 15 mężczyzn. Przedstawimy to najpierw na porządnym wykresie słupkowym.

Rys. 1. Wykres słupkowy liczby kobiet i mężczyzn na pewnym spotkaniu (Rys. LJK).
Ten wykres jest porządny - zaczyna się od zera, długość słupków oddaje liczebność. Liczba kobiet stanowi 2/3 liczby mężczyzn.

Teraz przedstawimy to na wykresie słupkowym, który nie zaczyna się od zera.

Rys. 2. Wykres słupkowy liczby kobiet i mężczyzn na pewnym spotkaniu, który zaczyna się na wysokości liczebności równej pięć, przez co wydaje się, że kobiet jest dwa razy mniej niż mężczyzn (Rys. LJK).


Z tego wykresu słupkowego widać, że mężczyzn będzie dwa razy więcej niż kobiet.

Spróbujmy jeszcze w inny sposób manipulować osią.

Rys. 3. Wykres słupkowy liczby kobiet i mężczyzn na pewnym spotkaniu, który zaczyna się od minus pięciu, przez co różnica w liczebności wydaje się mniejsza (Rys. LJK).
Tutaj wydaje się, że kobiet będzie tylko nieznacznie mniej niż mężczyzn. A to dlatego, że wykres zaczyna się od minus pięciu :-)



DIY - jak zrobić wykres słupkowy (w SPSS-ie)
Poniżej przedstawiam kolejne kroki prowadzące do wykresu słupkowego w SPSS - w formie animacji. Testuję taką formę, więc może zdarzyć się tak, że usunę ją za kilka dni.

Brak komentarzy: