Histogram

Histogram jest jednym z graficznych narzędzi oceny rozkładu zmiennej ilościowej. Dzięki temu wykresowi możesz sprawdzić, ile obserwacji znalazło się w poszczególnych przedziałach liczbowych, zbadać, czy więcej jest obserwacji o niższych lub wyższych wynikach albo ocenić, czy Twój rozkład jest rozkładem normalnym.

SPIS TREŚCI:



Histogram - dla jakich zmiennych?

Histogram opisuje szanse pojawienia się wartości zmiennych ilościowych – takich, które mierzone są na skali przedziałowej, np. temperatura, albo ilorazowej, np. czas reakcji. Tylko dla zmiennych właśnie z dwóch ostatnich typów skal Stevensa można stworzyć ten wykres. Wszystko dlatego, że do zbudowania histogramu potrzebne są przedziały liczbowe, dzielące zakres wartości zmiennej. Aby sprawdzić, czy zaobserwowana wartość jest większa od lewego końca przedziału i jednocześnie mniejsza od prawego końca takiego przedziału, taka zmienna musi być ilościowa.

Konstrukcja histogramu - jak opisane są osie?

OPIS OSI — Na osi poziomej OX znajdują wartości badanej cechy podzielone na przedziały o równej długości. Na osi pionowej OY znajdują się liczebności (zwane częstościami, albo odsetki, o tym niżej).

Histogram składa się z rzędu słupków, a każdy słupek ma swoją szerokość i wysokość. Szerokość słupka to przedział liczbowy, do którego wpadła pewna część obserwacji. Wysokość słupka to liczebność obserwacji, której wartości znalazły się w przedziale, np. 5 osób uzyskało wynik między 0,08 a 9,58 sekundy.

Prawidłowy histogram ma słupki o tej samej szerokości.

SŁUPKI RÓŻNIĄ SIĘ WYSOKOŚCIĄ – najczęściej w poszczególnych przedziałach znajduje się różna liczba obserwacji, np. mamy 10 osób, które zarabiają między 3500 a 5000 i osiem osób, które zarabiają między 5000 a 7500. To powoduje, że histogram zwykle nie wygląda jak rząd równych sztachet.

Liczba przedziałów zależy od badacza lub algorytmu

Jak już wiemy, żeby narysować histogram należy podzielić wartości cechy na przedziały. Pojawia się pytanie, ile powinno być przedziałów? Kto decyduje o liczbie przedziałów lub o ich szerokości.

LICZBA PRZEDZIAŁÓW — Ustalenia liczby przedziałów zwykle samodzielnie dokonuje program statystyczny wyposażony w algorytm obliczający na ile przedziałów powinno podzielić się zakres wartości. To ważna cecha histogramu, decydująca o tym, czy spełni swoją funkcję - dostarczy informacji o tym, czego należy się spodziewać po częstościach pojawiania się obserwacji. Jednym z najprostszych sposobów jest na przykład wziąć pierwiastek z liczby obserwacji - dla stu obserwacji propozycja liczba przedziałów wynosi dziesięć.

Najbardziej trywialny przypadek to jeden przedział rozciągający się od najmniejszej do największej. Wówczas wysokość takiego samotnego słupka będzie wynosić tyle, ile osób wzięło udział w badaniu. Taki wykres jest mało informatywny. Wiemy, że od najmniejszej do największej obserwacji w zebranych danych jest tyle, ile osób wzięło w badaniu. Sam histogram wygląda jakby ktoś położył cegłę na osi OX.

Nikt oczywiście nie będzie wykonywać takiego histogramu, bo poza ciekawostką, nie wnosi niczego interesującego, a badacza interesuje kształt rozkładu.

Każdy program statystyczny pozwala użytkownikowi wziąć sprawy w swoje ręce i samemu ustalić, ile powinno być przedziałów lub o ich szerokości.

Tworzymy w ten sposób zbyt szerokie przedziały:

Zbyt wąskie przedziały powodują, że kształt rozkładu zaciera się. W ekstremalnej wersji otrzymasz wykres ze słupkami równej długości. To nadal jest histogram, tyle, że znów - nieinformatywny.

Oś pionowa OY tworzy dwa rodzaje histogramów

Oś pionowa OY odpowiada na pytanie, ile osób znalazło się w danym przedziale liczbowym. Można jednak podać liczebność albo liczność – częstość albo odsetek. Niezależnie od tego, jaka jest skala na osi OY, kształt histogramu pozostaje zachowany.

Interpretacja histogramu - jak odczytać wykres?

Histogram jest narzędziem wizualnej oceny rozkładu, idealną ilustracją przysłowia: obraz jest wart tysiąca słów. Dzięki niemu od razu widzisz kształt rozkładu, a widzieć kształt rozkładu to wiedzieć, czego można spodziewać się po zachowaniu wartości.

W skali mikro, histogram pokazuje, ile osób znalazło się w każdym z przedziałów. Wiąże się z tym utrata informacji, ponieważ nie wiesz dokładnie, jakie wartości znalazły się w przedziale. Koszt utraty informacji przekłada się na zysk w skali makro – wystarczy jeden rzut oka na kształt rozkładu, aby ocenić to, czego możemy spodziewać się po wynikach – czy częściej zdarzają się osoby o niższych lub o wyższych wynikach.

TIP — Jeśli jesteś osobą dopiero zaczynającą oglądanie histogramów, to dobrym rozwiązaniem jest rysowanie obwiedni wokół słupków histogramu. W histogramie przede wszystkim chodzi o wyrobienie sobie pojęcia na temat częstości trafiania się poszczególnych wyników, dlatego taki obrys pozwoli spojrzeć na histogram z lotu ptaka.

Histogram a gęstość

Tu dochodzimy do miejsca, w którym wyraźnie widać rozbieżność między tym, co jest w próbie, a tym, co jest w teoretycznej populacji. Histogram należy do świata empirycznego, namacalnego. Zaś gęstość jest pojęciem teoretycznym.

»Być może ze szkoły pamiętasz pojęcie jaskini Platona, którą oświetla płomień, to gęstość jest jak niewidoczna idea, zaś histogram jak cień tej idei padający na ściany jaskini - człowiek może oglądać jedynie owy cień.

Matematyk powiedziałby, że empiryczny histogram jest oszacowaniem teoretycznej gęstości. Narzędziem służącym do sprawdzenia, czy to, co otrzymał badacz, zgadza się z tym, co być powinno.

Histogram zmiennej o rozkładzie normalnym

Rozkład normalny tworzy krzywą, w której wiele osób widzi podobieństwo do dzwonu, a zatem histogram powinien kształtem oddawać taki dzwon, tak jak na niższym rysunku.

Jednak nie do końca tego można spodziewać się ze względu na losowość próby. W małych próbach udział losowości jest większy, zatem histogramy dla małych prób (N = 10 lub N = 30) mogą wyglądać tak, jak na poniższym rysunku.

Trudno uznać dwa wykresy po lewej stronie za choć cień dzwonu Gaussa. Inaczej sprawa przedstawia się dla histogramów w próbach o większej liczebności (N = 100 lub N = 300). A przecież wszystkie cztery zmienne mają wartości, których szansami rządzi rozkład normalny.
Podobny problem z zacieraniem się cech wykresu charakterystycznych dla rozkładu normalnego jest w innych narzędziach np. w boxplotach (KLIK).

Histogramy zmiennych o różnych własnościach

Histogram pokazuje kształt rozkładu, z którego można odczytać to, jak zachowuje się nasza grupa. Czy może jest więcej osób o niższych wynikach (prawostronna skośność KLIK) czy może o wyższych wynikach (lewostronna skośność KLIK).

Histogram zmiennej prawostronnie skośnej

Przykład zmiennej, której skośność jest dodatnia – dobry przykład danych prawostronnie skośnych to takie dane, które mierzą czas reakcji bardzo prostego zadania. Mamy wówczas dużo osób o niskich wynikach, bo dużo osób szybko kończy zadanie.

Histogram zmiennej lewostronnie skośnej

Przykład zmiennej, której skośność jest ujemna – zbyt łatwe zadanie. Jeśli zadanie są zbyt proste, wówczas większość osób będzie mieć wyniki w górnej części zakresu takiego testu. W ten sposób na histogramie zabraknie szczytu, zaś lewy ogon będzie wydłużony w lewą stronę.

Histogramy a wykres słupkowy

Na pierwszy rzut oka histogram a wykres słupkowy łatwo pomylić, ponieważ na jednym i na drugim są słupki. Te dwa wykresy dają się szybko odróżnić, gdy popatrzysz na oś poziomą OX.

Histogram zmiennej nominalnej

Histogram ilustruje rozkład szans dla zmiennych ilościowych. Płeć ze swoim podziałem na co najmniej dwie kategorie (kobieta i mężczyzna) jest zmienną typowo jakościową (według skal Stevensa, jest nominalna). Nie da się ułożyć kategorii tej zmiennej w kolejności nasilenia zmiennej (czy kobieta może być być bardziej płciowa niż mężczyzna – albo na odwrót KLIK).

Jednak jest jedno „ale” – w programie statystycznym kategorie:”kobieta” i „mężczyzna” dają się zakodować jako cyfry – na przykład zera i jedynki. Wartość „kobieta” ma wówczas zero, a „mężczyzna” – jeden. Następnie można programowi, np. SPSS-owi, powiedzieć, aby taką zmienną traktował jako ilościową. Wówczas narysowanie histogramu dla zmiennej Płeć stanie się możliwe.

Szkopuł w tym, że taki histogram to udawany histogram. Gdybyśmy zamienili kodowanie, to otrzymalibyśmy ten sam wykres, ale zero oznaczałoby wówczas mężczyzna, a jeden kobietę. Zmienna miałaby wówczas dwa histogramy zależnie od sposobu kodowania wartości.

Zbierając wszystko razem do kupy...

Histogram jest narzędziem wizualnej oceny danych mierzonych na skali przedziałowej lub ilorazowej. Dzięki niemu możemy szybko sprawdzić, w jakim przedziale wartości pojawiło się najwięcej obserwacji, czy są obserwacje odstające, czy rozkład jest symetryczny czy skośny, a może wielomodalny. Obok tego, histogram nadaje się do oceny zgodności uzyskanego rozkładu z rozkładem teoretycznym, najczęściej – normalnym.

TO JUŻ PRAWIE WSZYSTKO — co przygotowałam w tym poście. Niżej jeszcze znajduje się Do-It-Yourself, czyli krótka instrukcja, jak zrobić histogram zmiennej w SPSS.
Chciałabym jednak dowiedzieć się od Ciebie, czy mój post Tobie przyda się, czy może coś jeszcze powinnam w nim umieścić? Daj mi znać w sekcji komentarze (na dole).


DIY: Zrób histogram w SPSS

Krok 1. Wybierz Analiza->Opis statystyczny->Eksploracja.

Krok 2. Wybierz tę zmienną, której histogram chcesz otrzymać (u mnie jest to Pobudzenie) i przenieś ją do okienka z napisem Zmienne zależne.
Krok 3. Naciśnij przycisk wykresy. Otworzy się nowe menu. Po prawej stronie jest obszar nazwany Opis. Wybierz Histogram.
Odznacz domyślnie ustawiony wykres Łodyga-i-liście. Dzięki temu na outpucie pojawi się mniejsza liczba wykresów. Naciśnij Dalej. I potem OK.
Oto wymarzony histogram!

3 komentarze:

Anonimowy pisze...

„Pamiętasz, kiedy wracałaś ze szkoły i rodzice pytali Cię, co dostała Sylwia, Agata, Marek i Łukasz? To było pytanie o rozkład ocen w klasie” - naprawdę? Rodzice Ciebie tak pytali? Wyrazy współczucia.

Lilianna Jarmakowska-Kostrzanowska pisze...

:) Różni są rodzice. Niektórzy nie wpuszczają do domu, dopóki ocena nie przekroczy któregoś kwantyla :-) hehehe

Anonimowy pisze...


Dlaczego dla zmiennej porządkowej nie można zrobić histogramu? Bo odległości między kategoriami nie są takie same (np. nie podoba mi się (1), trochę mi się podoba (2), średnio mi się podoba (3) itd.)?
PS. W histogramie lewostronnie skośnym chyba chodzi o zbyt trudne zadanie(?)Chyba, że to jest tak, że jak jest bardzo łatwe, to człowiek myśli i myśli, gdzie tu jest ten haczyk:)