KWIECIEŃ 2025| LJK | ~4 595 słów |~ 30 498 znaków|W trakcie poprawek
Wiedza o skali pomiaru czy o zakresie możliwych wartości nie wyczerpuje pełni informacji o badanej zmiennej. Badacza interesuje to, jak często pojawiają się te wartości i odpowiedź na to pytanie udziela rozkład. Choć idea rozkładu jest wspólna dla wszystkich rodzajów zmiennych, różnie się go przedstawia na wykresie w zależności od typu pomiaru (wykres słupkowy lub histogram). Wykres rozkładu zależy również od poziomu organizacji jednostek (czyli od tego, czy analizujemy rozkład w próbie, czy w populacji). W tym poście dowiesz się wszystkiego na temat rozkładu zmiennej.
1️⃣ Co to znaczy:”przeciętny”? Jeśli wiemy, że zakres zmiennej jest od 1 do 7, to jaka jest typowa wartość? Wobec braku innych informacji naturalnym odruchem jest wybrać tę środkową, 4. Tymczasem to wcale nie musi być dobry wybór - a może środek zakresu, 4, to najrzadziej pojawiająca się wartość? Aby prawidłowo wskazać wartość przeciętną potrzebujemy czegoś więcej niż tylko informacji o zakresie wartości (gdy mówimy od zmiennej ilościowej) lub o liczbie rozmaitych kategorii (gdy mówimy o zmiennej jakościowej).
2️⃣ Wiedza o tym, jakie wartości może przyjąć zmienna aż tak wiele nam nie daje. Owszem, wiadomo, do jakich kategorii należy zaliczyć osoby badane: czy są to kobiety czy mężczyźni albo jaki jest zakres wyników do uzyskania w narzędziu psychometrycznym (np. RSES pozwala na wyniki od 10 do 40). Albo jaki jest najmniejszy lub największy możliwy czasy reakcji na bodziec. Nie wiemy jednak ile jest kobiet, a ilu jest mężczyzn? Ile jest osób, które zdobyły 21 punktów, a ile ma aż 37 punktów? Jaka jest najkrótszy czas reakcji osiągnięty przez osobę badaną? Ile osób zareagowało na bodziec w konkretnym czasie? Analizując zbiór danych, stawiamy najważniejsze pytanie w statystyce: ile? Na to pytanie odpowiada nie sama zmienna, a rozkład częstości wystąpienia jej wartości - zwany krótko: rozkładem.
3️⃣ Kiedy już poznamy algebraiczny charakter wyników pomiaru w badaniu, tzn. wiemy, że można je dodawać, czy tylko porównywać, najwyższy czas, aby na scenę wkroczył najważniejszy aktor analiz statystycznych. Następnym – po skali pomiarowej Stanley’a Stevensa – tematem jest rozkład zmiennej (cechy). Profesjonalnie rzecz ujmując, rozkład to funkcja, która przyporządkowuje częstości występowania poszczególnym wartościom badanej cechy.
➡️ Dlaczego nie prowadzimy analiz statystycznych tylko i wyłącznie na wartościach zmiennej? TL;DR Bo nie niesie ona informacji na tym, co dzieje się w próbie.
Rozkład można przedstawić go za pomocą grafu - to jest rysunek dwóch kółek z których strzałki prowadzą od elementów jednego do drugiego. Te pierwsze to wartości cechy, te drugie to częstość ich wystąpienia.
PRZYKŁAD GRAFU JAKO ILUSTRACJI ROZKŁADU | W pewnym badaniu udział wzięło N = 100 osób, spośród N = 37 kobiet i N = 63 mężczyzn.
Ilustracja rozkładu za pomocą grafu to przyjemna opcja, zwłaszcza dla dzieci, która pokazuje relacyjną naturę między wartościami cechy a ich częstościami występowania, ale na niewiele się przyda, gdy kategorii jest więcej. Co gorsze, nie ułatwia również zapamiętania. Ludzie są wzrokowcami, dlatego tak świetnie u nich sprawdza się powiedzenie “Obraz wart tysiąca słów”. Grafy, taki jak ten powyżej, nie oddają łatwo żadnej opowieści, a nam potrzeba jakiejś wizualizacji danych. To czego nie robią grafy, świetnie wykonują wykresy.
W statystyce mamy dwa podstawowe wykresy rozkładów odpowiadające typowi pomiarowemu zmiennej - to zagadnienie, które wszyscy znają pod hasłem Skala pomiarowa Stanley’a Stevensa KLIK.
OPIS WYKRESU | Powiedzieliśmy, że rozkład łączy wartości zmiennej z odpowiadającymi im częstościami ich występowania. Do tego faktu nawiązują etykiety wykresu.
Na osi poziomej leżą wartości zmiennej (np. Wzrostu) przedstawione w postaci liczbowej (np. liczba centymetrów) lub nazw kategorii (np. Wykształcenie) i poziomy (podstawowe, średnie, wyższe). Na osi pionowej leżą prawdziwe liczby - to są liczebności obserwacji w każdej z kategorii.
Oglądając wykres zwróć uwagę, czy ta liczebność jest wyrażona bezpośrednio, w tzw. bezwzględnej liczebności, czy może względnie jako odsetek.
Można powiedzieć, że na wykresie oś pozioma OX odpowiada na pytanie: “co”. Oś pionowa OY odpowiada na pytanie:”ile”.
Teraz przeanalizujemy rodzaje wykresy w zależności od skali pomiaru Stanley’a Stevensa.
Wykres słupkowy dla zmiennych jakościowych (nominalna i porządkowa)
Zmienna jakościowa to zmienna, której poziom pomiaru według typologii Stanley’a Stevensa może być nominalna lub porządkowa. Dla obu zmiennych odpowiednią formą przedstawienia będzie ten sam wykres.
Zmienna nominalna | Zmienna nominalna to taka zmienna jakościowa, której kolejność kategorii nie ma znaczenia. Nawet jeśli tym kategoriom przyporządkujemy liczby, np. 1 = kobieta, 2 = mężczyzna, 3 = niebinarni, to liczbom tym nie odpowiada nasilenie zmiennej. Te znaczki 1, 2, 3, nie mają liczbowego znaczenia - może je potraktować jak zwykłe znaczki a to będzie miało wpływ na wykres, o czym za chwilę.
Zmienna porządkowa | Zmienna porządkowa, jak widać w nazwie, ma porządek w kolejności natężenia, np. stopnie wykształcenia (1 = podstawowe, 2 = średnie, 3 = wyższe). Im wyższa liczba, tym większe nasilenie wykształcenia, co wkrótce przełoży się na oś liczbową OX.
Dla zmiennych o jakościowym typie pomiaru, takich jak Płeć czy Poziom wykształcenia, odpowiednią formą przedstawienia jest tzw. wykres słupkowy (ang. barplot).
Jak już wspomnieliśmy wcześniej, na osi poziomej OX leżą wartości zmiennej. W przypadku zmiennej jakościowej, dla wygody, nazywa się je kategoriami - ta nazwa bardziej oddaje nieliczbowy charakter wartości tej zmiennej niż słowo “wartość”. Na osi pionowej są liczebności albo liczności.
Wykres słupkowy dla zmiennej nominalnej pozwala na bardzo duży zakres manewru. Ponieważ te liczby nie są prawdziwymi liczbami, można je przyporządkowywać w dowolny sposób. Zamiast 1 = kobieta, 2 = mężczyzna, 3 = niebinarni, zamienić na: 1 = kobieta, 2 = niebinarni, 3 = mężczyzna a wykresy wciąż opowiadałyby tę samą historię, choć ich wygląd różni się.
Dla zmiennej porządkowej nie ma już aż takiej swobody w przedstawieniu wykresu. Tu za liczbami stoi porządek - kategorie są ułożone w kolejności nasilenia zmiennej. Weźmy tym razem zmienną Wykształcenie i nadajmy takie liczby poszczególnym kategoriom 1 = podstawowe, 2 = średnie, 3 = wyższe. Wykres ilustrujący częstość występowania tych kategorii nadal ilustruje wykres słupkowy , ale zamiana kategorii np. 1 z 2 zrobiłaby poważny bałagan. Zobacz:
Wykres z nieuporządkowanymi kategoriami, taki jak ten po prawej stronie, staje się trudniejszy i przez to bardziej męczący w odczytaniu informacji. Jesteśmy przyzwyczajeni, że jeśli liczby przypisane kategoriom zmiennej odzwierciedlają nasilenie, to na osi OX kategorie powinny być ułożone rosnąco, ewentualnie malejąco - byle w jakimś porządku.
Histogram dla zmiennych ilościowych (interwałowa i ilorazowa)
Zmienna ilościowa | Zmienna ilościowa to zmienna, której wartości są liczbami. Rozkład zmiennej ilościowej musi uwzględniać ilościowy charakter takiej zmiennej, tzn. zarówno odległości między wartościami, jak i porządek ich nasilenia.
Weźmy cechę, która występuje u wszystkich ludzi - wzrost mierzony w centymetrach. 170 to niższa wartość niż 171. Co więcej, różnica między 170 a 171 jest taka sama jak między 171 a 172. Ten fakt można profesjonalnie nazwać równym przyrostem albo równymi odległościami. O co w tym chodzi? Zajrzyj do posta o skalach pomiarowych Stevensa KLIK.
Słupkowy dla ilościowej? | Gdyby dla zmiennej ilościowej wykreślić wykres słupkowy, zaburzyłoby to całkowicie obraz zjawiska. Dlaczego? Wartości zmiennej ilościowej są czymś więcej niż tylko kategoriami. Kolejność między nimi ma znaczenie, a także sposób ich rozłożenia na osi liczbowej. Pierwszy sygnalizuje narastające natężenie, drugi - że przyrost natężenia tej cechy jest równy. Nie wystarczy uporządkować oś poziomą, aby otrzymać prawdziwy wykres częstości dla zmiennej ilościowej. Okazuje się, że nie. Należy zrobić jeszcze coś.
Powstawanie histogramu | Zakres wartości zmiennej dzieli się na równe przedziały - np. co 5 cm. Dopiero po tym, następuje zliczenie liczby obserwacji, które znajdują się w danym przedziale. W przeciwieństwie do wykresu słupkowego, nie interesuje nas liczba obserwacji, które mają tę samą wartość - interesuje nas liczba obserwacji, która znajduje się w tym samym przedziale. Dlaczego tak się dzieje? O tym będzie mowa kilka akapitów niżej KLIK.
Jak jest wyznaczana szerokość takiego przedziału? W matematyce są pewne zasady, które tym rządzą, i które wykorzystuje się w programie statystycznym zwykle robi to algorytm, więc nie jest to zupełna wolna amerykanka.
Na przykład program statystyczny R używa algorytmu o nazwie Sturges. Nie, to nie jest starołacińska nazwa na włócznię bitewną, a nazwisko Herberta A. Sturgesa, który w 1926 podał regułę dzielenia zakresu wartości zmiennej na przedziały. Tak, dobrze czytasz, 1926 r. - tak dawno powstała metoda tworzenia histogramów, której używamy do dzisiaj. Kiedyś to wytwarzano trwałe materiały ;-)
Użytkownik ma możliwość samodzielnego ustalenia szerokości przedziału, co daje możliwość manipulacji kształtem wykresu i co prowadzi do tego, że każdy badacz może dostać inny histogram.
Warto pamiętać, że wszystkie wykresy powstały na bazie tego samego zbioru danych. Po lewej stronie widzisz wykres, który raczej jest wykresem słupkowym dla zmiennej ilościowej - każdy słupek został stworzony przez każdą wartość zmiennej z osobna. Drugi i trzeci wykres to prawdziwy histogram - zakres zmiennej jest podzielony na przedziały, a wysokość słupka to liczebność obserwacji zawartych w każdym z przedziałów. Ostatni wykres nie przypomina rozkładu - przedziały stanowiące kubełki nie są równe.
Co znaczy “histogram”? Warto sprawdzać, skąd bierze się dane słowo, ponieważ znajomość pochodzenia nierzadko ułatwia zapamiętanie pojęcia. Nazwa “histogram” jest połączeniem dwóch greckich słów: istos (maszt statku) oraz gram (coś zapisanego). Etymologia nazwy wykresu nie ma nic wspólnego z etymologią nazwy dziedziny nauki zwanej historią, która bierze początek od starogreckiego histōra - uczonego, mądrego człowieka. Z kolei histōr wywodzi się od histōreo, czyli obserwuję, pytam. Mimo braku wspólnego źródłosłowu historii i histogramu, histogram opowiada historię - zwłaszcza tym, którzy umieją go odczytać.
Organizacja jednostek (próba i populacja) a rodzaj rozkładu
Oprócz tego, że rodzaj wykresu rozkładu (słupkowy vs. histogram) zależy od typu pomiaru (jakościowa vs. ilościowa), to jest jeszcze jeden - ten, w którym jest mowa o wartościach w próbie lub w populacji. Profesjonalnie mówi się, że to zależy od poziomu organizacji jednostek. Co to ma znaczyć? Statystyka pozwala wnioskować o populacji, a danej cesze w populacji przez pryzmat zgromadzonej próby. Próba nie jest idealnym odzwierciedleniem populacji, ale jedynym środkiem, aby zajrzeć, co tam się dzieje. Mam więc dwie warstwy organizacji jednostek - populacyjny i próbowy. To powoduje, że tak naprawdę możemy mówić o tej samej cesze na tych dwóch warstwach - w próbie i w populacji, a to pierwsze służy za oszacowanie tego drugiego. Skoro tak, to również mamy rozkład występuje w dwóch odmianach: w próbie i w populacji. A na dodatek, będą różnić się między sobą i między próbami.
🔵⚪⚪ROZKŁAD EMPIRYCZNY & TEORETYCZNY | Rozkłady, które widzieliście do tej pory, to rozkłady w próbach, tzw. empiryczne. Empiryczne, bo empiria, czyli doświadczenie, bo badanie, bo coś, co zostało zmierzone. Rozkład empiryczny opisuje częstość występowania wartości cechy w próbie. Czym innym jest rozkład teoretyczny, który opisuje częstość występowania wartości tej samej cechy, ale tym razem w populacji. O populacji wygodnie myśleć, jako o czymś, co istnieje w teorii. Teoretycznie, nie możemy niczego zbadać w całej okazałości, więc rozkład w populacji jest rozkładem teoretycznym. Podczas, gdy rozkład empiryczny opisuje przeszłość - bo badanie, z którego pochodzą wyniki, już się odbyło - rozkład teoretyczny opisuje alternatywną, hipotetyczną rzeczywistość. Różnicę między rozkładem empirycznym a teoretycznym jest różnicą między "tym, co powinno być", a "tym, co było". Rozkład teoretyczny mówi o tym, jakie powinny być szanse wystąpienia poszczególnych wartości Twojej zmiennej. Rozkład empiryczny mówi o tym, jakie były szanse wystąpienia po przeprowadzeniu badania.
CZĘSTOŚĆ ➡️ SZANSA Tym, na co warto zwrócić uwagę przy zagadnieniu rozkładu teoretycznego, to subtelna zmiana słownictwa. Owszem, nadal mówi się częstość występowania albo liczebność, ale o wiele częściej spotykanym wyrazem do opisu osi OY jest szansa albo prawdopodobieństwo. Mówimy przecież o teoretycznym konstrukcie, o populacji.
Obejrzymy teraz wykresy teoretyczne dla różnych rodzajów zmiennych.
OPIS WYKRESU ROZKŁADU TEORETYCZNEGO | Podobnie jak w rozkładach empirycznych niezależnie od rodzaju, na osi poziomej leżą wartości zmiennej. Na osi pionowej - częstość, szansa lub nawet prawdopodobieństwo wystąpienia.
🔵🔵⚪ ROZKŁAD TEORETYCZNY ZMIENNEJ JAKOŚCIOWEJ
Zmienna jakościowa, według terminologii Stevensa - nominalna i porządkowa - to zmienna, której wartości zachowują się jak kategorie. Świetnym przykładem jest Płeć biologiczna, której wartościami są kobieta, mężczyzna. Przypuśćmy, że interesujemy się płcią w populacji. Wykres rozkładu zmiennej nominalnej mógłby wyglądać:
Niekiedy kategorie można uporządkować pod względem natężenia zmienną. Taką zmienną w typologii Stevensa nazywa się porządkową, zaś przykładem takiej zmiennej jest Wykształcenie, gdzie 1 = brak, 2 = podstawowe, 3 = średnie, 4 = wyższe, 5 = doktorat+. Wówczas wykres rozkładu zmiennej porządkowej mógłby wyglądać w ten sposób:
Dokładnie tak samo, jak empiryczna wersja tego rozkładu z tą różnicą, że tym razem na osi pionowej OX jest szansa wystąpienia a nie liczebność. Podsumowując, dla zmiennej jakościowej rozkład teoretyczny nadal jest przedstawiony w postaci wykresu słupkowego, tylko, że odnoszą się do populacji. Zupełnie inaczej sprawa się ma dla zmiennych ilościowych.
🔵🔵⚪ Rozkład teoretyczny zmiennej ilościowej
Rozkład teoretyczny zmiennej ilościowej ma inny wygląd dla zmiennej dyskretnej i dla zmiennej ciągłej. Wynika to z zasad panujących w matematyce, w które nie będziemy się teraz zagłębiać.
🔵🔵🔵 Rozkład teoretyczny zmiennej ilościowej DYSKRETNEJ.
ZMIENNA DYSKRETNA | Zmienna dyskretna to zmienna, której wartościami są skończone całości (niekoniecznie: wartości) - pomiędzy dwoma sąsiadującymi wartościami nie można znaleźć tej trzeciej. Chodzi o to, że nie da się podzielić na mniejsze kawałeczki.🎲 Rzut kostką to przykład zmiennej dyskretnej. Jej wartościami są jedno oczko, dwa oczka albo cztery oczka. Żadna ze ścianek kostki nie ma pół oczka. Takie wartości nazywa się punktowymi, a same zmienne skokowymi. Często mówi się - i na ogół to prawda - że taka zmienna może przyjąć wartość tylko ze skończonej liczba możliwych wyników, które można byłoby je palcem wymienić.
Jaki jest teoretyczny rozkład zmiennej dyskretnej? Czy dla zmiennej dyskretnej nie można wykreślić wykresu o słupkowym charakterze? Wtedy zamiast kropek leżących na ustalonej wysokości mielibyśmy słupki. Dlatego zawsze sprawdź oznaczenie osi.
Rozkład teoretyczny zmiennej dyskretnej przedstawia się nie w postaci słupków, a w postaci kropek. Pierwsza w kolejności liczba, tj. współrzędna, to wartość tej zmiennej, np. 1. Drugą współrzędną jest szansa wystąpienia tej wartości, np. ⅙.
To, co widać powyżej, to odpowiadający rzutowi kostką teoretyczny wykres rozkładu. Teoretyczny, ponieważ wyniki za teorii. Nazywa się go funkcją prawdopodobieństwa.
Suma szans wystąpienia wartości dowolnej zmiennej wynosi zawsze 100%. Czy tu się to zgadza? Tak, bo dla każdej liczby oczek od 1 do 6 szansa wynosi ⅙ a sześć razy ⅙ to 1, czyli 100%.
🔵🔵🔵 Rozkład teoretyczny zmiennej ilościowej CIĄGŁEJ
ZMIENNA CIĄGŁA | To taka zmienna, której wartości pochodzą z przedziału liczbowego. Innymi słowy, między każde dwie wartości zmiennej można znaleźć trzecią. ⌛ Czas reakcji jest przykładem takiej zmiennej ciągłej. Mówi się, że czas płynie. Ktoś może zareagować w 2 sekundy, ktoś inny w 2,1 sekundy i zawsze można znaleźć kogoś, kogo czas reakcji mieści się między 2 a 2,1 sekundy. Natura zmiennej Czas jest ciągła.
Ponieważ zmienna jest ciągła, trzeba ten fakt uwzględnić, nadając szansę wystąpienia każdej z nich. W ten sposób wykres takiego rozkładu rysuje się bez odrywania ręki od kartki i nazywa się gęstością (ang. density). Oto przykład jednej z nich:
1️⃣ PRZYKŁAD ROZKŁADU ZMIENNEJ CIĄGŁEJ — Najbardziej znanym rozkładem teoretycznym ciągłym jest rozkład normalny, czyli ten na rysunku niżej. On mówi, że najczęściej spotykaną wartością jest średnia. Obniżone względem średniej wartości pojawiają się tak samo często jak podwyższone, zaś bardzo rzadko pojawiają się obserwacje odstające - ale mogą się pojawiać. O rozkładzie normalnym można powiedzieć o wiele więcej (np. tu KLIK)
2️⃣ HISTOGRAM I KUBEŁKI — Przyszedł czas poznać powód, dla którego zakres wartości zmiennej ilościowej jest podzielony na przedziały (nadal zwane kubełkami lub koszykami), a dopiero następnie zlicza się liczbę obserwacji wpadających w konkretny kubełek (konkretny przedział).
Chcemy odkryć teoretyczny rozkład zmiennej ilościowej, poznać kształt tego, który nazywa się gęstością. W tym celu wykorzystujemy próbę.
Powiedzieliśmy, że zmienna ciągła to zmienna, która może pokazać każdą wartość z określonego przedziału. Gdybyśmy dla takiej zmiennej wykreślili wykres słupkowy, każda z nich stworzyłaby osobny słupek. Lepiej zatem łączyć obserwacje w tzw. kubełki, aby odkryć przybliżony kształt rozkładu zmiennej.
Jak widać z powyższego rysunku kształt krzywej teoretycznej jest o wiele łatwiej odczytać z rysunku po prawej stronie niż po lewej stronie. Właśnie dlatego o wiele lepszym przybliżeniem, dającym wyobrażenie na temat zachowania tej zmiennej w populacji, jest histogram niż bezpośredni wykres słupkowy.
3️⃣ ILE W OGÓLE JEST ROZKŁADÓW? — Trudne pytanie. Trudno wskazać konkretną liczbę, bo po prostu rozkładów zmiennych jest nieskończenie wiele. Praktycznie każda kreska, o ile spełnia pewne matematyczne wymogi, może opowiadać jakąś historię o wartościach jakiejś zmiennej, choćby nawet hipotetycznie. To, że teoretycznie rozkładów zmiennych może być niewyobrażalna ilość, nie oznacza jeszcze każdy jeden z nich już opisuje jakieś zjawisko zachodzące w przyrodzie. W historii matematyki zdarzało się już nieraz, że teoretyczny pomysł jednego uczonego był wykorzystany dopiero długo po jego śmierci.
Interpretacja wykresu rozkładu
INTERPRETACJA WYKRESU ROZKŁADU — Wykres rozkładu pozwala wyrobić sobie zdanie o częstościach występowania (w przypadku rozkładu empirycznego) albo o szansach na wystąpienie (w przypadku rozkładu teoretycznego) różnych wartości zmiennej. Trzeba to jednak zrobić umiejętnie - nie analizuje się rozkładu z mikroskopem w ręku, przyglądając się każdej wartości zmiennej i jej wystąpieniu z osobna, a raczej z pewnej odległości od niego. Chodzi o to, aby zobaczyć całą historię, jaką opowiada jego kształt a nie pojedyncze punkciki. W języku angielskim jest powiedzenie, które idealnie oddaje ten sens: to see forest for the trees - "widzieć las, a nie drzewa".
Poza jednym rozkładem, który jest całkowicie płaski i każdej wartości przypisuje tę samą szansę wystąpienia (taki jak widzisz na rysunku obok), linie rozkładów są zwykle pofałdowane. Raz są wysoko na wykresie, innym razem niżej. Wiemy, że ta część osi poziomej OX, gdzie jest największa masa rozkładu, zawiera obserwacje, które występują najczęściej. Ta która zbliża się ku tej osi - zawiera te, które występują rzadko, coraz rzadziej, aż do chwili, w której jakaś linia rozkładu dotknie osi OX. Oznacza to, że ta wartość nie wystąpiła, albo, że nie ma szans na jej wystąpienie. Trafne rozpoznanie zachowania zmiennej na podstawie rozkładu wymaga całościowego spojrzenia z lotu ptaka. Aby potem opisać to, co widzimy, posługujemy się terminami, które są trochę geograficzne, a trochę biologiczne i które nie mają ścisłych, matematycznych definicji, ale usprawniają komunikację.
Anatomia rozkładu - szczyt, ramiona i ogony
Wykres rozkładu pozwala wyrobić sobie zdanie o częstościach wystąpienia (w przypadku rozkładu empirycznego) albo o szansach na wystąpienie (w przypadku rozkładu teoretycznego) różnych wartości zmiennej. Trzeba to jednak robić umiejętnie - nie analizuje się rozkładu z mikroskopem w ręku, punkt po punkcie, a raczej z pewnej odległości. W ten sposób na wykresie zobaczyć można części anatomiczne rozkładu - szczyt, ramiona i ogony, choć nie wszystkie rozkłady mają te części.
🔵 SZCZYT I MODALNOŚĆ | Szczyt rozkładu (ang. peak) to obszar najwyższego miejsca na wykresie, które sygnalizuje wartości najczęściej występujące - przynajmniej w jakimś otoczeniu.
Pamiętaj, że wartości zmiennej, które zdarzają się najczęściej, leżą na osi poziomej OX pod szczytem rozkładu. Nie odczytuj wartości z osi OY, bo odczytasz umieszczone na niej liczebności względne lub bezwzględne albo szanse występowania. Wartości zmiennej, które zdarzają się najczęściej, leżą na osi poziomej OX pod szczytem rozkładu. Nie odczytuj wartości z osi OY, bo odczytasz umieszczone na niej liczebności względne lub bezwzględne albo szanse występowania.
Czy warto poszukiwać dokładnej wartości zmiennej, dla której punkt wykresu jest szczytem? To zależy - od tego, czy posługujesz się histogramem, czy gęstością. W pierwszym przypadku odpowiedź jest przecząca. Histogram dla tych samych danych zmienia kształt pod wpływem zmiany szerokości kubełka. Obserwowałaś to już wcześniej, gdy pisałam o możliwości utworzenia różnych histogramów dla tych samych danych KLIK.
"Przynajmniej w jakimś otoczeniu" - te słowa zdradzają, że szczytów może być więcej. Pewnie, że może! Jeśli rozkład ma co najmniej dwa szczyty, oznacza, że istnieją dwa zagęszczenia obserwacji z przedziałów znajdujących się pod nimi. Gdy szczyty nie są one równej wysokości, można mówić o szczycie lokalnym i globalnym. Jaka jest różnica między nimi? Szczyt lokalny oznacza, że istnieje zwiększona liczebność obserwacji w przedziale nad tym szczytem, ale nie są one tak częste, jak obserwacje z przedziału pod szczytem globalnym.
Rozkład, która posiada jeden szczyt, nazywa się jednomodalnym (lub unimodalnym). Czy jest on globalny, czy lokalny? Nie ma znaczenia. Dwa szczyty posiada rozkład bimodalny. Ogólnie rozkłady o więcej niż jednym szczycie są nazywane wielomodalnymi (lub multimodalnymi).
Statystyka opisowa, która jest związana z liczbą szczytów na wykresie nazywa się modą (wartością modalną lub dominującą albo po prostu dominantą). Jednak zamiast podawać liczbę szczytów obecnych na wykresie, podaje ona wartość zmiennej dla której obliczono wysokość szczytu, dlatego należy uważać przy interpretacji tabel wyświetlanych przez program - niektóre z nich podają najniższą wartość modalną.
Przykładem rozkładu nie-jednomodalnego, a bimodalnego jest rozkład wieku zachorowalności na schizofrenię - tj. roku, w którym wystąpiło pierwszy epizod tej choroby. Oto hipotetyczny rozkład:
Ma on dwa szczyty. Ich kształt sygnalizuje, że są dwa momenty, kiedy schizofrenia występuje najczęściej - około 20. roku życia i około 40., przy czym ten częściej dzieje się to w młodości.
🟣 RAMIONA I SYMETRIA | Ramiona (ang. arms) rozkładu to to, co dzieje się poza jego szczytem. Jest to ten obszar rozkładu, który reprezentuje obserwacje występujące w umiarkowanym stopniu - ani nie są to wartości najczęściej występujące, ani też rzadko występujące obserwacje odstające (te znajdują się w kolejnej omawianej części, zwanej ogonami rozkładu).
Ramię mogą być położone po lewej stronie szczytu, wówczas nazywamy takie ramię lewostronnym. Ramię może również położone po prawej stronie szczytu, wówczas nazywa się ramieniem prawostronnym. Rozkład może nie mieć ani jednego ramienia, jedno ramię, albo dwa ramiona, a nas interesuje jakie one są względem siebie. Rozkład, który widzisz obok, tzw. rozkład wykładniczy (albo eksponencjalny) ma tylko jedno ramię - prawe. Ciągnie się ono i ciągnie, aż do nieskończoności.
Rozkład, który widzisz obok, tzw. rozkład wykładniczy (albo eksponencjalny) ma tylko jedno ramię - prawe. Ciągnie się ono i ciągnie ku prawemu końcowi osi liczbowej aż do nieskończoności.
Równe ramiona posiadają tzw. symetryczne rozkłady. W takim przypadku, szansa na pojawienie się obserwacji niższej od średniej jest taka sama jak szansa na pojawienie się obserwacji wyższej od średniej. Współczynnik skośności, opisujący liczbowo relację dwóch ramion, jest wówczas zerowy. Ten współczynnik skośności u rozkładów symetrycznych jest równy zero.
Najbardziej znanym symetrycznym rozkładem jest rozkład normalny. Jeśli cecha ma właśnie taki rozkład, to osób o przeciętnej inteligencji jest najwięcej, a szansa na spotkanie osoby o ponadprzeciętnej inteligencji jest taka sama, jak szansa na spotkanie osoby o obniżonej inteligencji. Mówiąc krótko, geniuszy jest tyle samo, co osób po drugiej stronie spektrum.
Brak symetrii pojawia się w dwóch odmianach - lewostronnej i prawostronnej. Gdy lewe ramię jest dłuższe niż prawe ramię, mamy do czynienia z asymetrią lewostronną (niektórzy może słyszeli nazwę przodującego szczytu, ang. fronting peak). Współczynnik skośności jest wówczas ujemny, a szansa na pojawienie się obserwacji wyższych od średniej jest wyższa niż szansa na pojawienie się obserwacji niższych od średniej.
Gdyby rozkład inteligencji był lewostronnie skośny, wówczas obserwowalibyśmy więcej osób o ponadprzeciętnej inteligencji niż osób o obniżonych zdolnościach poznawczych.
Gdy prawe ramię jest dłuższe niż lewe ramię, pojawia się tzw. asymetria lewostronna (nazywana również ciągnącym się szczytem, ang. tailing peak). Współczynnik skośności jest wówczas dodatni, a szansa na wystąpienie obserwacji o podwyższonym wyniku od średniej jest tym razem niższa niż szansa na wystąpienie obserwacji o obniżonym wyniku.
Gdyby rozkład inteligencji był prawostronnie skośny, wówczas obserwowalibyśmy mniej osób o ponadprzeciętnej inteligencji niż osób o obniżonych zdolnościach poznawczych.
Rozkład normalny ma tę własność, że linia jego gęstości nigdy nie przecina osi OX. To oznacza, że jego ogony są bardzo długie. Sięgają aż do każdego krańca osi liczbowej. Dzieje się to w ściśle określony sposób. Można go odczytać wprost ze wzoru na krzywą dzwonową. To powoduje, że znamy dokładną szansę na wystąpienie obserwacji odstającej, o ile rozkład cechy jest normalny. Przykładowo, szansa na spotkanie obserwacji powyżej szóstego odchylenia standardowego wynosi 0.00000000098659, czyli jest mniejsza niż jeden na miliard!
🟡 OGONY I KURTOZA | Ogony (ang. tails) rozkładu to miejsca, w których linia rozkładu zbliża się ku poziomej osi OX. Oznacza to, że wartości, które znajdują się pod nią, należą do tych mniej oczekiwanych, rzadziej występujących. Można powiedzieć, że ogony rozkładu zdradzają obecność obserwacji odstających, to znaczy takich, które rzadko występują.
Statystyką opisową, która liczbowo podsumowuje informację o obecności ogonów rozkładu, jest współczynnik spłaszczenia i koncentracji tzw. kurtoza. Należy pamiętać o tym, że kurtoza odnosi się do rozkładu normalnego, tj. aby ocenia obecność obserwacji odstających u badanego rozkładu z rozkładem normalnym.
Kształt ogonów rozkładu normalnego jest konkretny i to z nim porównuje się ogon badanego rozkładu. Jeśli kurtoza wynosi około zero, wówczas Twój rozkład ma ogon zbliżony do ogona krzywej Gaussa i nazywa się mezokurtycznym rozkładem. Ogony bywają jednak różne...
Gdy ogon rozkładu zmiennej jest cieńszy niż ogon rozkładu normalnego, taki rozkład nazywa się platykurtycznym. Kurtoza platykurtycznego rozkładu jest ujemna, zaś jego ogony są cieńsze niż ogony rozkładu normalnego - w niektórych przypadkach aż do ich zaniku.
Gdyby rozkład inteligencji był platykurtyczny, wówczas obserwowalibyśmy znacznie mniej osób o znacznie obniżonym i znacznie podwyższonym ilorazie inteligencji (tj. odstających) niż teraz, gdy ten rozkład jest normalny.
Analogicznie, gdy ogon rozkładu zmiennej jest grubszy niż ogon rozkładu normalnego, taki rozkład nazywa się leptokurtycznym. Kurtoza leptokurtycznego rozkładu jest dodatnia, zaś jego ogony są grubsze niż ogony rozkładu normalnego.
Gdyby rozkład inteligencji był leptokurtyczny, wówczas obserwowalibyśmy znacznie więcej osób o znacznie obniżonym i znacznie podwyższonym ilorazie inteligencji (tj. odstających) niż teraz.
Dlaczego rozkładu w próbie różni się od rozkładu populacji?
⬜ PRÓBA TO NIEIDEALNE ODZWIERCIEDLENIE POPULACJI — Ponieważ próba to część osób, które należą do populacji, jest to powodem, dla którego obserwuje się inne wyniki w próbie a inne wykresy w populacji.
Rozkład teoretyczny, taki jak gęstość, to rozkład pochodzący ze statystycznej Nibylandii - ze świata, w którym można zbadać całą populację. Zła wiadomość jest taka, że w rzeczywistości możemy tego zrobić - z różnych powodów, najczęściej wymienia się czas, zasoby finansowe i logistykę. Musimy zdać się na rozkład tej samej zmiennej, lecz tym razem w zebranej próbie. Szkopuł w tym, że próba nie zawiera wszystkich członków populacji, tylko ich pewną część. Z tego powodu dostarczy jedynie fragmentarycznej informacji o populacji. Rozkład w próbie jest tylko przybliżeniem rozkładu w populacji. Trudno mieć wszystko na podstawie części.
Zobacz na poniższym rysunku, jak krzywa gęstości rozkładu teoretycznego (w tym przypadku jest to rozkład normalny) może różnić się od histogramów tej samej zmiennej, ale badanej w próbach o różnej liczebności.
Jak bardzo mogą różnić się te dwa rozkłady? Bardzo. Po lewej stronie masz zaznaczoną gęstość rozkładu normalnego. Po prawej stronie widzisz trzy różne histogramy stworzone na podstawie wartości pochodzących z rozkładu normalnego. Dzięki symulacjom komputerowym można stworzyć takie wartości. Ułożone są zarówno w kolejności narastania wielkości próby, od najmniejszej (dziesięcio-elementowej) do największej (tysiąc-elementowej), jak i wyrazistości cech histogramu charakterystycznych dla rozkładu normalnego. Histogram dla N = 10 jest mało wyrazisty - ciężko w nim rozpoznać rozkład normalny. Zupełnie inaczej jest dla histogramu o N = 1 000 obserwacjach. Tu już bardzo wyraźnie widać, że ten wykres jest kuzynem pomarańczowego wykresu.
4 komentarze:
KLIK - nie działa :(
:-) już poprawione, dzięki...
Dziękuję za pożyteczny wpis. Mam jednak wątpliwość dotyczącą fragmentu zatytułowanego "Rozkłady empiryczne ciągłe?". Pisze tam Pani <>. Czy nie powinno być <<...teoretycznego ciągłego>>? Z pozdrowieniami, K.
Dzień dobry! Czytam, i dla mnie jest w porządku. Twierdzę, że nie da rady stworzyć empirycznego ciągłego. Teoretyczny ciągły istnieje, np. rozkład normalny. Natomiast jest szansa, że nadal czegoś nie widzę, więc poproszę o znać :-)
pozdrowienia
Lili
Prześlij komentarz