Dystrybuanta rozkładu prawdopodobieństwa.




W tym poście znajdziesz takie informacje:
- po co jest dystrybuanta? - co to jest ta dystrybuanta?
- Jakie sątrzy własności dystrybuanty?
- jaka jest różnica między dystrybuantą a skumulowanym prawdopodobieństwem
- z czym ma styczność badacz? Dystrybuanta teoretyczna a empiryczna.
- dystrybuanta empiryczna - co to takiego?
- dystrybuanta a gęstość
- zobacz przykład - ułatwia zrozumienie.
- TL;DR



Zaczynamy zajęcia ze statystyki, prowadzący lub prowadząca przedstawia podstawy rachunku prawdopodobieństwa, zdarzenie elementarne, losowe i przechodzimy do zagadnienia przedstawienia jakoś szans pojawienia się wyników zmiennej losowej - rzutu monetą, kostką, okiem i beretem. I widzimy tooo O_o:

F(t) = P( -∞< t)

i koniec. Język matematyczny to bardzo ładny i zwięzły język, którym można wiele myśli wyrazić i wiele idei przekonać. Wiele nie znaczy: wszystko i dlatego mogę pisać tego bloga. W tym poście przedstawię pojęcie matematyczne - dystrybuantę - które służą do opisu szans wystąpienia możliwych wartości zmiennej losowej... jakiejś zmiennej losowej.



Skąd to się bierze?
Prawdopodobieństwo trzeba jakoś przedstawić. Można to zrobić w postaci:
(a) funkcji prawdopodobieństwa,
(b) gęstości,
(c) zbiorczo: w postaci skumulowanej.

W postaci skumulowanej czyli pokazać, jakie jest prawdopodobieństwo spotkania obserwacji do wybranego poziomu, np. jakie jest odsetek dzieci, który osiągnęły wzrost do danego, od najmniejszego możliwego.

Wychodzi na to, że nie wystarczy podać odsetka dzieci, które osiągnęły dany wzrost, tylko wszystkie mniejsze też. Trochę to nieintuicyjne na pierwszy rzut oka, bo na pytanie ile masz centymetrów wzrostu, odpowiadamy konkretnie: "Mam 172 cm", a nie "Do 172", ale uwierzcie mi, że to ma sens przy korzystaniu ze statystyki.

Dystrybuanta
W tym miejscu chodzi o to, aby rozmówcy zadać pytanie: 'jaka jest szansa, że Twój wzrost wynosi do 172 cm?'. To na razie załatwia sprawę skumulowania. Ale dystrybuanta to nie synonim na skumulowane prawdopodobieństwo, choć mają wiele wspólnego. Dalej okaże się, co jest różne.



Aby przekształcić rozkład prawdopodobieństwa (podany w powyższej postaci) do dystrybuanty należy w kolejno dodawać do siebie wartości tego prawdopodobieństwa. Na pierwszym miejscu jest liczba oczek, na drugim miejscu skumulowane prawdopodobieństwo uzyskania liczby oczek do podanej:



W przypadku rozkładów dyskretnych (rozkład dyskretny? klik), takich jak rzut kostką (monetą również) punkty, których następuje dodanie prawdopodobieństwa, nazywamy punktami skoku.
Więc punktami skokowymi (skoku) są wszystkie możliwości wyrzutu oczek.

Rys. Skumulowany rozkład zmiennej o tytule Rzut kostką (LJK).

Na powyższym rysunku wygląda to tak, jakby wykres miał wartości jedynie w czarnych punktach a poza nimi nic nie było. Tak może być tylko i wyłącznie gdy rozmawiamy o skumulowanym prawdopodobieństwie w potocznym tego słowa znaczeniu, gdzie nie ma sensu rozmawiać o tym, ile ono wynosi w punkcie 3.5, bo nie można wyrzucić trzy-i-pół oczka.

Okazuje się, że różnica między skumulowanym prawdopodobieństwie a dystrybuantą jest taka, że dystrybuanta muruje dziury w wykresie skumulowanego prawdopodobieństwa: zobaczcie sami (niżej).

Rys. Dystrybuanta rozkładu zmiennej o tytule Rzut kostką (LJK).

Różnica między dystrybuantą a skumulowanym prawdopodobieństwem
Dystrybuanta jako pojęcie matematyczne to nieco szersza sprawa niż skumulowane prawdopodobieństwo. Żąda się bowiem, aby dystrybuanta, oznacza zwykle: F (x), była określona dla wszystkich liczb rzeczywistych, czyli dla wszystkch x ∈ R, nawet jeśli cecha nie pokrywa wszystkich liczb rzeczywistych (np. nie można wyrzucić trzy i pół oczka, nikt nie ma ujemnej samooceny).

Z tej przyczyny powstaje pozorny problem - co z takimi wartościami dystrybuanty, których cecha nie przyjmuje? Nie ma problemu :)
Dla wartości wyższych niż maksymalny poziom cechy - dla nich skumulowane prawdopodobieństwo będzie równe 1. Ponadto, nawet jeśli cecha nie przyjmuje jakiejś wartości, to może mieć wartości z jakiegoś mniejszego zakresu, np.:
P(X < 3.5) = P(X < 3) 
z tego powodu, że cecha nie przyjmuje wartości z przedziału (3, 3.5) - ale przyjmuje wartości do 3 - w związku zachowujemy się tak, jakby pytano o liczbę oczek do trzech, zamiast trzy i pół.

Wygląda na to, że prawdopodobieństwo przyjęcia wartości z przedziału od ponad 3 do 3.5 jest równe zero, czyli P(3 < X < 3.5) = 0. Stawiamy zerowe prawdopodobieństwo tam, gdzie cecha nie przyjmuje takiej wartości.

Dodatkowo, skoro żadne prawdopodobieństwo nie jest ujemne, to cokolwiek dodawane do całości kumulacji wywoła powiększenie tej sumy - nigdy jej nie zmniejszy.
Innymi słowami, kumulacja można pozostawać na stałym poziomie, ale nigdy nie może się zmniejszać. W ten sposób otrzymaliśmy trzy własności dystrybuanty - zapiszemy je formalnie.

Kryteria dystrybuanty - która funkcja jest dystrybuantą, a która nie jest?
Aby funkcja była dystrybuantą musi spełniać poniższe trzy kryteria:

1. dla x biegnących do minus ∞ F (x) = 0 oraz dla x biegnących do ∞ F (x) = 1, czyli:

2. prawostronnie ciągła
3. niemalejąca - czyli nie ma ujemnych prawdopodobieństw

To są formalne warunki dystrybuanty i  nie będziemy się nad nimi specjalnie rozczulać.
Najciekawsze jest to, że jeśli narysujemy dowolną funkcję, lecz spełniającą powyższe kryteria to na pewno opisuje rozkład jakiejś zmiennej. Nie wiadomo, jaka i czy jest odkryta, ale już wiemy, że będzie to rozkład. Taki bajer :-)

Dystrybuanta teoretyczna a empiryczna.
W matematycznym depozycie znajdują się idealne rozkłady - między innymi normalny modelujący, wykładniczy, jednostajny i inne.

Dystrybuanta teoretyczna to dystrybuanta wynikająca z teorii matematycznej, można ją potraktować jako dystrybuantę cechy w (niedostępnej) populacji.

Ot, siedział jakiś człowiek na kartką papieru i mazał długopisem krzaczki i wyszedł mu wzór.
Za to dystrybuanta empiryczna to dystrybuanta uzyskana na podstawie próby. To jest coś, z czym Ty masz do czynienia (i rozprawienia się) na kolokwium, egzaminie i w badaniach.

Dystrybuanta empiryczna - co to takiego?
To może spróbujmy zrozumieć jej mechanikę.

Niech x będzie dowolnym wynikiem zmiennej (cechy) - możliwym bądź nie. Po prostu: obserwacją. Wartość gdzie n to liczebność próby.

Wzór gwiazdka *

Na przykład: symbol Fˆ5(3) [ef z daszkiem] oznacza ile elementów jest mniejszych lub równych 3 w pięcioelementowej próbce.

Ok, po prostu chodzi o to, że liczymy ile elementów do tej wartości znalazło się w naszej próbie.

Dystrybuanta a gęstość.
Porównajmy teraz dwa widoki: dystrybuantę rozkładu standardowego normalnego N(0, 1) oraz gęstość rozkładu standardowego normalnego N(0, 1): 

Rys. Dystrybuanta (po lewej) a gęstość (po prawej) rozkładu normalnego standardowego (LJK).
 Należy pamiętać, że obie te krzywe opisują rozkład tej samej cechy. Ktoś, kto umie czytać dystrybuantę i gęstość potrafi poradzić sobie z odpowiedzią na dowolne pytanie o rozkład posługując się jedną i drugą zmienną.


Przykład.
Rzucaliśmy osiem razy kostką do gry - więc n = 8. Otrzymaliśmy takie wyniki: 3, 5, 2, 3, 2, 1, 4, 3. Ani razu szóstki, jedna jedynka, trzy trójki, jedna czwórka i jedna piątka.
Najpierw policzymy dystrybuantę dla tej sytuacji, to będzie dystrybuanta empiryczna. Korzystam ze wzoru oznaczonego gwiazdką (skrolnij wyżej).
 

Jak narysować dystrybuantę w tej sytuacji? Możemy mieć dystrybuantę empiryczną i teoretyczną. Wiemy, że skoro teoretycznie wszystkie wyniki są jednakowo prawdopodobne, to otrzymalibyśmy dystrybuanta teoretyczna. Z kolei dystrybuanta empiryczna odpowiada konkretnej sytuacji z zadania.

Rys. Dystrybuanta empiryczna i teoretyczna dla rzutu kostką (LJK).

Widać, że się różnią. Mają różne 'progi'. Wyniki to z tego, że dystrybuanta teoretyczna odpowiada sytuacji idealnej, wszystkie rzuty są jednakowo prawdopodobne, stąd te punkty skoku są takie same. Po lewej mamy dystrybuantę empiryczną, która pokazuje, co się zdarzyło. A że bywa różnie, i mimo tego, że szanse na jakiekolwiek wynik są równe, to i tak w konkretnej sytuacji otrzymujemy różne wyniki.

Uwaga.
W matematyce istnieje coś takiego jak 'dystrybucja' (nie, nie dóbr jak w ekonomii) i nie ma to nic wspólnego z 'dystrybuantą'.



TL;DR Podsumowanie
1. Dystrybuanta to jeden ze sposobów na przedstawienie prawdopodobieństwa.
2. ...ale i tak wszyscy posługują się gęstością (czas, wzrost, zmienne ciągłe) lub funkcją prawdopodobieństwa (miejsce zamieszkania, rzut kostką, zmienne dyskretne)
Więc po co to? Wygląda na to, że po nic, ale...
3. w niektórych testach, np. w teście Kołomogorowa-Smirnova, przedmiotem badania są dystrybuanty, a nie gęstości, więc warto zawczasu poznać to pojęcie.

3 komentarze:

Anonimowy pisze...

Dobry artykuł, dzięki ;)

Mała pomyłka: . "Po prawej mamy dystrybuantę empiryczną", chodziło Tobie o "Po lewej ...".

Lilianna Jarmakowska-Kostrzanowska pisze...

Wielkie dzięki :-) Już poprawione.

centrumdobrejterapii.pl pisze...

Zerknęłam z ciekawością na Twój wpis i muszę przyznać, że jest naprawdę interesujący. Według mnie czasami statystyki są w stanie wiele nam powiedzieć o wszystkim.