Rozkład

SPIS TREŚCI:
  • czym jest rozkład
  • rozkład teoretyczny a rozkład empiryczny
  • czy istnieją rozkłady empiryczne ciągłe
  • funkcja prawdopodobieństwa & gęstość
  • interpretacja wykresu rozkładu
  • ile jest rozkładów
  • szczyt, ogony & ramion
  • co wpływa na kształt rozkładów?
  • matematyczne własności rozkładów


ROZKŁAD — Kiedy poznamy arytmetyczną naturę zebranych obserwacji (czyli przyporządkujemy obserwacjom odpowiednią skalę pomiarową) najwyższa pora, aby wkroczył najważniejszy aktor statystycznej sceny - rozkład.

Sama zmienna tak dużo informacji nie przekazuje. Owszem, wiadomo, do jakich kategorii można zaliczać osoby badane: czy są to kobiety, lub mężczyźni - Płeć). Kto zdobył jakiś wynik w kwestionariuszu (ktoś ma 21 punktów, a ktoś inny ma 47 punktów). Jakie są czasy reakcji na bodziec. Analizując zbiór danych, stawiamy najważniejsze pytanie w statystyce: ile? Ile jest kobiet, a ilu mężczyzn? Ile jest osób, które zdobyły 21 punktów, a ile - 47 punktów? Ile osób zareagowało na bodziec w konkretnym czasie? To są te pytania, na które odpowiada rozkład wartości cechy. 


Rozkład po prostu opisuje, ile jest obserwacji konkretnego rodzaju. W prostych przypadkach można przedstawić go za pomocą grafu - na pewno gdzieś był na matematyce.



Rysowanie grafu sprawdza się tylko w bardzo prostych przykładach: dla zmiennych mierzonych na skalach nominalnych i porządkowych, które jednak nie mają za dużo kategorii. W bardziej zwartej formie rozkład można przedstawić za pomocą wykresu słupkowego lub histogramu. Zwykle będzie wyglądało to tak:



OPIS WYKRESU — Najpierw ustalmy, co się dzieje na osiach: pionowej i poziomej. Na leżącej osi poziomej OX znajdują się wartości analizowanej przez nas cechy (...34,35,36..., niskie, średnie, wyższe, 50,100,150). Będą one uporządkowane rosnąco (poza zmienną nominalną typu Płeć lub Wyznanie, rzecz jasna). Na stojącej osi pionowej OY znajdują się liczby określające szanse, z jakimi przyjmowane są konkretne wartości.

Przykład. Rzućmy kostką sześć razy. Otrzymaliśmy takie oto wyniki: 1,2,1,6,2,5. Nie zmyśliłam wyników - użyłam wirtualnej kostki na stronie: https://freeonlinedice.com/ Możesz tam sobie porzucać kostką lub monetą, które nigdy nie spadną na podłogę :-)

Mamy dwa razy po jednym oczku, dwa razy po dwóch oczkach, zero razy trójka, zero razy czwórka i po jednej piątce i szóstce. Tak wyglądałoby graf:


Kiedy w naturalny sposób przepiszemy strony kostki na liczby, graf będzie wyglądał tak:



A tak wygląda wykres słupkowy dla przeprowadzonego rzutu kostką:



Ten wykres powyżej to tzw. empiryczny rozkład rzutu kostką. Empiryczny - ponieważ można go wykonać dopiero po zebraniu danych (wirtualnie rzuciłam kostką sześć razy i zapisałam wyniki). Na osi poziomej są możliwa do rzucenia liczba oczek (1,2,3,4,5,6). Na osi pionowej jest częstość, z jaką wypadły (2,2,0,0,1,1).

Tutaj pojawia się pewien dyskomfort. Wiemy też, że szansa wyrzucenia każdego z oczek jest jedna szósta. Czy to też jest rozkład i to rozkład rzutu kostką? Tak! Tyle, że teoretyczny.



Zwykle rozkłady teoretyczne przedstawia się nieco inaczej. Nie w postaci takiego wykresu słupkowego, ale w postaci kropek. Współrzędne kropki to po pierwsze: możliwa liczba oczek, np.:1.; po drugie - teoretyczna szansa wyrzucenia tej liczby oczek, więc 1/6. Jeśli sześć par kropek umieścimy na wykresie, otrzymamy taki rysunek:



To, co widać poniżej to odpowiadający rzutowi kostką teoretyczny wykres rozkładu. Teoretyczny, ponieważ wyniki za teorii. Nazywa się go funkcją prawdopodobieństwa. Tak profesjonalnie nazywamy rozkłady tych zmiennych, których wartości mają szczególną postać, a do takich zalicza się rzut kostką.

ZMIENNA DYSKRETNA — Rzut kostką to przykład zmiennej, której wyniki są konkretne: punktowe. Zwane też skokowymi. Często też mówi się, że jest to skończona liczba możliwych wyników. O takich zmiennych mówi się, że są to zmienne dyskretne. Rozkład szans dla zmiennych dyskretnych nazywamy funkcją prawdopodobieństwa, a widoczny wyżej wykres ma kropki.

ZMIENNA CIĄGŁA — Obok zmiennych dyskretnych, jest też i inny rodzaj zmiennych. Czas (reakcji) ma inny charakter. Mówi się, że czas płynie, jego natura jest ciągła. Ktoś może zareagować w 2 sekundy, ktoś inny w 2,1 sekundy i zawsze można znaleźć kogoś, kogo czas reakcji mieści się między 2 a 2,1 sekundy. Takie zmienne to tzw. zmienne ciągłe. Również i one mają rozkłady, które nazywamy gęstościami. Najbardziej znanym rozkładem teoretycznym ciągłym jest rozkład normalny, czyli ten na rysunku niżej.


Łatwo rozróżnić rozkład zmiennej dyskretnej od zmiennej ciągłej - rozkład ciągły będzie rysowany ciągłą linią na kartce bez odrywania długopisu.

ROZKŁAD TEORETYCZNY A EMPIRYCZNY — Różnicę między rozkładem empirycznym a teoretycznym jest różnicą między "tym, co powinno być", a "tym, co było". Rozkład teoretyczny mówi o tym, jakie powinny być szanse wystąpienia poszczególnych wartości Twojej zmiennej. Rozkład empiryczny mówi o tym, jakie były szanse wystąpienia po przeprowadzeniu badania.

ROZKŁADY EMPIRYCZNE CIĄGŁE? — Czy jest możliwość narysowania rozkładu empirycznego zmiennej ciągłej? Nie, ze względu na zaokrąglenia. Każde narzędzie rejestruje wynik z określoną czułością, czyli do pewnego miejsca po przecinku. W przykładzie z pomiarem czasu reakcji, narzędzie mierzyło z dokładnością do jednej dziesiątej i wszystkie wyniki są zaokrąglane. Tak więc, siłą rzeczy nie można stworzyć rozkładu empirycznego ciągłego. Wykres empiryczny zawsze będzie "poszarpany" - w przeciwieństwie do rozkładu teoretycznego dyskretnego.

FUNKCJA PRAWDOPODOBIEŃSTWA & GĘSTOŚĆ - Jak w każdym języku, istnieją różne słowa na określenie obiektów. Rozkład teoretyczny zmiennej dyskretnej (np. rzutu kostką) to funkcja prawdopodobieństwa. Składa się ona z par punktów postaci: wartość cechy, szansa na tę wartość cechy. Przykładowo: wyrzucenie 2 oczek, 1/6. Wykres tej funkcji prawdopodobieństwa widziałaś wyżej.

Dla rozkładów teoretycznych ciągłych nie mówimy o funkcji prawdopodobieństwa, ale o gęstości. Rozkład teoretyczny zmiennej ciągłej (np. czasu reakcji na bodziec) nazywa się gęstością rozkładu lub krótko: gęstością. Jeśli chodzi o rozkłady empiryczne, to dla danych mierzonych na skali nominalnej lub porządkowej, mamy wykres słupkowy. A dla danych mierzonych na skali interwałowej lub ilorazowej mamy histogram.

POWTÓRZMY TO, CO DO TEJ PORY POWIEDZIANO:
- Wykres rozkładu szans w postaci wykresu słupkowego - zmienne nominalne i porządkowe (jakościowe)
- Wykres rozkładu szans w postaci histogramu - zmienne interwałowe i ilorazowe (ilościowe)
- Wykres teoretycznego rozkładu szans dla zmiennej dyskretnej - funkcja prawdopodobieństwa
- Wykres teoretycznej rozkładu szans dla zmiennej ciągłej - gęstość

INTERPRETACJA WYKRESU ROZKŁADU — Wykresy rozkładu rysuje się po to, aby wyrobić sobie ogólne zdanie o szansach na wystąpienie różnych wartości zmiennej. Nikt nie analizować punkt po punkcie. Raczej chodzi o wyrobienie sobie zdania. Kiedy widzisz powyższy wykres, chciałabym, aby w Twojej głowie było to:
Czyli, żebyś mógł/mogła wskazać te obszary, w których obserwacje są częściej spotykane - albo rzadziej.

ILE JEST ROZKŁADÓW? - Rozkładów jest nieskończenie wiele. Na szczęście, większość z nich można uporządkować do kilku kategorii pod wybranym względem. Można wziąć pod uwagę ich kształt lub własności matematyczne. Aby je zorganizować z uwagi na kształt, pokażę najpierw jakie cechy budowy rozkładu dają się wyodrębnić.

SZCZYT, OGONY & RAMIONA - Na rozkład można patrzeć jak na ukształtowanie terenu i wyodrębnić takie części jak: szczyt lub ogony. Te określenia są umowne, nie mają ścisłych matematycznych definicji, jednak po prostu pomagają w komunikacji.
Szczyt rozkładu (peak) to - podobnie jak w górach - ten fragment ukształtowania terenu, który jest położony najwyżej, najwyżej w pewnym otoczeniu. W pewnym otoczeniu, które może być bardzo skąpe, albo bardzo rozległe. W tym znaczeniu szczytem jest zarówno Cergowa w Beskidzie Niskim, jak też i kopiec kreta. Ale te szczyty to szczyty lokalne - zawsze znajdzie się jakiś, który jest od nich wyższy. Na ziemi mamy za to jeden szczyt szczytów, zwany globalnym: Mount Everest. Najwyższy szczyt świata. W rozkładzie normalnym jest jeden szczyt. Rozkłady jednoszczytowe, z jednym szczytem globalnym, bez żadnych kopców kreta i Cergowych, nazywane są jednomodalnymi.
Istnieją rozkłady, które mają więcej niż jeden szczyt, zwane wówczas wielomodalnymi. Opowiem więcej przy kształtach rozkładu.
Na Ziemi oprócz wysoko położonych szczytów, mamy również depresje - miejsca położone poniżej poziomu morza. Za to rozkład nie może mieć depresji. Jej obecność oznaczałaby, że linia tego wykresu zanurza się poniżej poziomu zero na osi wartości rozkładu, osi OY, a jest to niemożliwe. Niżej, w punkcie XYZ piszę dlaczego (wskazówka: czy ktoś widział ujemne szanse). Mimo wszystko możemy patrzeć na lewy i prawy horyzont rozkładu i sprawdzać jak daleko sięga. Te dalsze części rozkładu są nazywane jego ogonami i bywa, że ciekawsze rzeczy dzieją się właśnie w ogonach rozkładu niż na jego szczycie.
Ogony rozkładu zdradzają obecność obserwacji ekstremalnych, to znaczy takich, które są bardzo małe lub bardzo duże w stosunku do całej reszty. Dzięki zbadaniu długości ogona, wiemy, czy one istnieją. Czasami, aby mieć punkt odniesienia, ogony rozkładu porównuje się do ogonów rozkładu normalnego. Wtedy, w zależności od sposobu opadania ogony mogą być grube albo ciężkie.

Część osób wyodrębnia też ramiona, czyli to co się dzieje między szczytem a ogonami. Ramiona rozkładu również najwyraźniej widać dla rozkładów jednomodalnych. Wówczas kreska jaką rysowany jest wykres, gładko spływa po obu stronach szczytu aż do ogonów.

CO WPŁYWA NA KSZTAŁT ROZKŁADÓW - Rozkłady można podzielić pod względem kształtów. Podział pod względem kształtów znajduje odzwierciedlenie w miarach opisowych. Obecność szczytów odnosi się do mody, wartości dominującej. Symetria lub jej brak - do skośności. Płaskość lub smukłość - do kurtozy.

MODALNOŚĆ - związana ze statystyką opisową zwaną modą. Dotyczy obecności szczytów. Rozkłady można podzielić pod względem liczby szczytów. Rozkład jednomodalny to, praktycznie i wizualnie rzecz ujmując, taki, który ma jeden garb. To oznacza, że ma jedną wartość dominującą (dominantę, modę - te synonimy). Uwaga - w tym garbie nie zawsze siedzi ani średnia, ani mediana. Ta obserwacja, do której należy szczyt, to moda. Wykres rozkładu sylwetką może przypominać łańcuch górski, wówczas jest to rozkład wielomodalny, a szczyty nie muszą być równej wysokości. Przykład rozkładu dwumodalnego: 



Mamy dwa skupiska obserwacji - jedne są skoncentrowane wokół zerowej wartości zmiennej. Drugie skupisko ogniskuje się wokół wartości wynoszącej cztery.

SYMETRIA i ASYMETRIA - Jeśli rozkład ma takie same ramiona, to znaczy, że jest symetryczny. Rozkłady symetryczne to są takie same z lewej, jak i z prawej strony. To dość potoczna definicja (jak z ciągłością i nieodrywalnością ręki od kartki), ale wystarczy. Rozkład, który wyżej był wałkowany w celu nauki interpretacji wykresu to był rozkład symetryczny. Przypomnę jego postać:



A poniżej mamy rozkład skośny:


PŁASKOŚĆ & SMUKŁOŚĆ - Ten aspekt kształtu rozkładu jest odpowiedzialna kurtoza. Bardzo często rozkłady porównuje się z rozkładem normalnym i to, czy badany przez nas rozkład jest bardziej płaski w stosunku do normalnego, czy też bardziej wysmuklony w stosunku do normalnego. Płaskość oraz smukłość to tylko to, co widać na wierzchu, na wykresie - tak naprawdę są probierzem obecności obserwacji ekstremalnych. W ten niejawny sposób, kurtoza jest związana z obecnością ogonów.


MATEMATYCZNE WŁASNOŚCI ROZKŁADÓW - Rozkłady wpadają do szerszej grupy obiektów, zwanych w matematyce funkcjami. Funkcje stanowią przedmiot szczególnego zainteresowania matematyki podobnie jak człowiek i relacje między ludźmi znajdują się w centrum uwagi psychologii. Między tymi dwoma dziedzinami istnieje pewne podobieństwo. Człowiekiem w matematyce jest liczba a relacje między ludźmi to relacje między zbiorami, w skrócie: funkcje. Jakość relacji bywa różna - są relacje dobre, złe, rodzic-dziecko, toksyczne, terapeutyczne, itd. Funkcje również miewają właściwości - duża część materiału w liceum to właśnie opowieści o złożonych relacjach między liczbami: monotoniczność, gdzie funkcja ma wyższe wartości od zera, gdzie mniejsze oraz miejsce zerowe. Rozkład to funkcja, bo łączy wartości zmiennej z odpowiadającymi jej szansami. Można zatem zastanawiać się, jakie są matematyczne własności rozkładów, co sprowadza się do pytania: jakimi liczbami mogą być szanse.

Pierwszą z własności daje się wydedukować samemu. Szanse wszystkich opcji nie mogą przekroczyć na raz. Lub inaczej: suma wszystkich szans wynosi jeden. Ponieważ szanse wyraża się również w procentach, to suma wszystkich szans wynosi równe 100%. Mimo, że w języku potocznym, mówimy: być pewnym na 200%, ale ma takie sformułowanie ma raczej status emfazy.

Dla rozkładów zmiennych dyskretnych (zwanych funkcjami prawdopodobieństwa) łatwo sumować punkty na wykresie i sprawdzić, czy suma szans jest równa 1. Dla rozkładów zmiennych ciągłych (zwanych gęstością) zróbmy mały eksperyment myślowy. Wyobraź sobie, że masz kubełek farby o pojemności 1 litra. Aby pomalować każdy z poniższych wykresów zużyjesz zawsze jeden kubełek farby, ani kropli więcej, ani kropli mniej.

W języku matematyki mówi się, że całka (pole pod krzywą) wynosi 1.

Druga własność odnosi się do ujemnych wartości. Jest powód, dla którego na wykresie rozkładu nie ma depresji. Zejście poniżej zera oznacza położenie terenów poniżej poziomu morza. Mamy np. Żuławy Wiślane, której znajdują się ok. 1,8 metra poniżej poziomu morza. Ale to, co można w geografii, niekoniecznie oznacza, że można w rachunku szans. Jeśli wykres funkcji schodzi poniżej poziomu osi OX, oznacza to, że funkcja przyjmie wartości ujemne. Część funkcji tak się zachowuje, ale nie rozkłady. Gdyby rozkład mógł przeciąć poziomą oś OX, oznaczałoby to, że są takie wartości zmiennej, których szanse są ujemne.

4 komentarze:

Bongol pisze...

KLIK - nie działa :(

Lilianna Jarmakowska-Kostrzanowska pisze...

:-) już poprawione, dzięki...

Anonimowy pisze...

Dziękuję za pożyteczny wpis. Mam jednak wątpliwość dotyczącą fragmentu zatytułowanego "Rozkłady empiryczne ciągłe?". Pisze tam Pani <>. Czy nie powinno być <<...teoretycznego ciągłego>>? Z pozdrowieniami, K.

Lilianna Jarmakowska-Kostrzanowska pisze...

Dzień dobry! Czytam, i dla mnie jest w porządku. Twierdzę, że nie da rady stworzyć empirycznego ciągłego. Teoretyczny ciągły istnieje, np. rozkład normalny. Natomiast jest szansa, że nadal czegoś nie widzę, więc poproszę o znać :-)
pozdrowienia
Lili