Centralne Twierdzenie Graniczne

2017| UPDATE: MAJ 2022| LJK | ~2500 słów


DO CZEGO SŁUŻY CENTRALNE TWIERDZENIE GRANICZNE – Co to jest za twierdzenie, jaki jest jego wzór i do czego służy? Jaki ma związek z rozkładem normalnym? W tym poście dowiesz się jakie są korzyści z jego stosowania, a jest to jedno z najważniejszych twierdzeń w statystyce. To twierdzenie służy do dwóch rzeczy: (1) rozluźnieniu założeń niektórych testów statystycznych (chodzi o wymogi, jakie muszą spełniać dane zanim zastosuje się wybrany test); (2) wyjaśnieniu, dlaczego wielu zjawisk, może mieć rozkład normalny.


SPIS TREŚCI:

JAK CTG DZIAŁA? - Proces Centralnego Twierdzenia Granicznego można porównać do stopniowego zanurzania się w abstrakcję – od wejścia po kostki aż po czubek głowy. Całość zaczyna się prosto, potem krok po kroku robi się coraz bardziej abstrakcyjnie i nagle kończymy po drugiej stronie lustra w bardzo abstrakcyjnym świecie, gdzie to, co empiryczne to odbicie prawideł istniejących w teorii.

KROK PIERWSZY #zero abstrakcji – właśnie przeprowadziłaś lub przeprowadziłeś badanie, w którym wzięło udział pięć osób (n = 5). Twoje badanie jest bardzo proste: mierzy czas reakcji motorycznej po usłyszeniu sygnału dźwiękowego – polega na wciśnięciu przycisku, gdy badany usłyszy sygnał dźwiękowy.

Wyniki pięciu osób badanych to: 0,47 s (sekundy); 0,28 s; 0,58 ms; 0,11 s i 0,52 s. Jeśli przedstawimy zebrane wyniki, to pokaże się wykres przedstawiający częstości poszczególnych wyników (histogram):

Tutaj na razie jesteśmy na suchym konkrecie: mamy badanie i konkretną średnią arytmetyczną pięciu wyników równą 0, 39 sekundy.

W DRUGIM KROKU #po kostki w abstrakcję - wyobrażamy sobie, że jest inny badacz, który wykonał to samo badanie. Również przebadał również pięć osób (n = 5 osób), ale otrzymał inne wyniki: 0,46 s; 1,3s; 0,53 s; 1,32 s; 0,96 s. Ten inny badacz również może wykonać histogram:

W TRZECIM KROKU #prawie w abstrakcji — Wyobraź sobie teraz, że istnieją tysiące badaczy, którzy wykonali dokładnie to samo badanie. Co tam tysiące - Miliony! Milion badaczy to milion średnich arytmetycznych tej samej zmiennej. Każdy z nich oblicza średnią arytmetyczną dla pięciu pomiarów czasów reakcji i - tutaj trik - wykonują histogram policzonych średnich arytmetycznych.

Ten rozkład tutaj to tzw. próbkowy rozkład średnich (sampling distribution of mean) dla prób wielkości n = 5. To rozkład statystyki opisowej, jaką jest średnia z próby - nie: pomiarów czasu reakcji. Nie jest on (jeszcze) normalny, ponieważ jest niesymetryczny - ma dłuższy ogon z prawej strony. Obok nazwy próbkowy rozkład średnich funkcjonuje też inna nazwa: rozkład z próby – traktuj je jak synonimy.

KROK CZWARTY #w abstrakcję po czubek głowy – zwiększymy liczbę osób badanych, z n = 5 na n = 30 i powtarzamy całą procedurę. Przeprowadzamy badanie z udziałem n = 30 osób i obliczamy średnią arytmetyczną. Wynosi ona 0,72 ms a histogram dla trzydziestu pomiarów czasu reakcji przedstawia się następująco:

W KROKU PIĄTYM #po drugiej stronie lustra... — Jeśli milion badaczy powtórzy nasze badanie z pomiarem Czasu reakcji dla n = 30 osób, to wówczas histogram będzie wyglądał jak ten poniższy.

Ten rozkład średnich jest całkiem podobny do rozkładu normalnego. Czarna linia naniesiona na histogram to właśnie linia krzywej Gaussa. Wszystko dzieje się zgodnie z Centralnym Twierdzeniem Granicznym - im więcej osób wchodzi do badania, tym szybciej rozkład średnich przypomina rozkład normalny.

Jak już powiedzieliśmy, histogram średnich dużej liczby badań będzie wyglądał na zbliżony do normalnego. Bęzie on zbliżać się do rozkładu normalnego właśnie na mocy Centralnego Twierdzenia Granicznego. Wkrótce przekonamy się, że parametry tego nowego rozkładu to średnia μ równa średniej z populacji (akurat tutaj to jest 1 w naszym przykładzie z czasem pomiaru), zaś odchylenie standardowe s to 1/sqrt(30).

Histogram zbliża się ku rozkładu normalnego wraz z rosnącą liczebnością prób. Profesjonalnie mówiąc, według CTG próbkowy rozkład średnich (sampling distribution of mean) zbiega do rozkładu normalnego wraz z rosnącą liczebnością próby. To znaczy: wykres przedstawiający częstości staje się coraz bardziej zbliżony do krzywej dzwonowej.

WZÓR NA CTG – Lepszą nazwą niż wzór będzie: zapis symboliczny. To dlatego, że nic nie podstawiamy do wzoru. Zapis symboliczny jest postaci:

Ten zapis jest jednym z prostszych sposobów, na jakie wyraża się Centralne Twierdzenie Graniczne, a to dlatego, że tak naprawdę jest to grupa twierdzeń, które mówią o zachowaniu się pewnych zmiennych losowych.

DLACZEGO GRANICZNE? — Powód, dla którego w nazwie CTG jest słowo:”graniczne” bierze się stąd, że pełna normalność rozkładu średnich dzieje się w nieskończoności. Dopiero, gdy mając próbę o nieskończonej liczbie osób badanych – zanurzyliśmy się już po czubek głowy w abstrakcji – rozkład średnich będzie rozkładem normalnym. Tą granicą jest tutaj nieskończoność - abstrakcyjna kraina, do której zbliżamy się wraz z rosnącą liczbą badanych, ale której nigdy nie osiągamy.

ROZKŁAD BADANEJ CECHY A ROZKŁAD ŚREDNICH BADANEJ CECHY — W CTG chodzi o rozkład średnich badanej cechy, a nie o rozkład samej cechy. Czym innym jest rozkład wartości badanej zmiennej, a czym innym rozkład średnich (arytmetycznych) badanej zmiennej. Jedno słowo – „średnich” – ma tutaj ogromne znaczenie. Rozkład badanej cechy w zebranej próbie zobaczysz na własne oczy (jest to np. owe pięć pomiarów). Rozkładu średnich badanej cechy nie da się zobaczyć – to abstrakcyjny twór.

Okazuje się, że są trzy rozkłady:

  • rozkład teoretyczny zmiennej w populacji [górny rysunek] - zwykle nie jest znany
  • rozkład, który opisuje wyniki w przeprowadzonym badaniu (tzw. rozkład empiryczny) [środkowy rysunek] - to histogram wyników
  • rozkład średnich dla pewnej liczby innych badań o tej samej liczebności co Twoja [dolny rysunek] - ma się on stawać coraz bardziej podobny do rozkładu normalnego

JAK POPLĄTAĆ CTG? - Jak już powiedzieliśmy, Centralne Twierdzenie Graniczne mówi o rozkładzie średnich Twojej cechy, a nie o rozkładzie Twojej cechy. To jedno słowo, a robi różnicę. Tymczasem w tekstach można spotkać następujące stwierdzenie: Zgodnie z Centralnym Twierdzeniem Granicznym, zwiększając liczebność badanej próby, zwiększamy też prawdopodobieństwo uzyskania rozkładu normalnego naszych danych.

Zastanówmy się, jak mogłoby to miało wyglądać w praktyce? Powiedzmy, że w pewnym badaniu (np. n = 15) mierzono czas wykonania prostego zadania manualnego. Proste zadanie manualne, jak sama nazwa wskazuje, oznacza, że łatwo je zrobić. Nic więc dziwnego, że większość osób kończy wcześniej, zaś niewiele osób potrzebuje więcej czasu. Typowy wykres przedstawiający taką sytuację wygląda następująco (rysunek po lewej stronie):

Gdyby cytowane wyżej stwierdzenie było prawdziwe, to po przebadaniu większej liczby osób (np. n = 30), zmieniłby się rozkład wyników czasu reakcji. Zupełnie tak, jakby dochodzące osoby badane zmieniały charakter zjawiska - rysunek po prawej stronie.

Oczywiście, nie jest tak, że rozkłady cech się w ogóle nie zmieniają, ale ma na to wpływ chociażby czas – w sensie epoka – a nie liczebność próby w pojedynczym badaniu.
Zwiększając liczebności próby można co najwyżej wyostrzyć rozkład wyjściowej cechy – sprawdzić, że histogram jest łatwiejszy do rozpoznania - ale nie: zmienić go.

PARAMETRY ROZKŁADU PRÓBKOWEGO ŚREDNIEJ Z PRÓBY #tego rozkładu, który w dużych próbach ma być normalny
Niezależnie od tego, czy nasze dane posiadają rozkład normalny, możesz dla takich danych policzyć średnią arytmetyczną x z kreseczką oraz odchylenie standardowe. Wzory na obliczanie działają zawsze. Do tych dwóch obiektów będziemy się zaraz odwoływać.

Jeśli CTG twierdzi, że jakiś abstrakcyjny twór będzie miał rozkład normalny, to należy zadać pytanie – z jakimi parametrami? Wiadomo, że każdy rozkład normalny posiada dwa parametry – wartość oczekiwaną, zwaną też średnią (μ) oraz odchylenie standardowe (sigma, σ), a zatem musimy je znaleźć. Parametrem odpowiadającym średniej jest nasza teoretyczna średnia μ – ta z populacji. To sugeruje, że zwiększając liczebność próby, próbkowa średnia arytmetyczna x̄ leży coraz bliżej prawdziwej średniej teoretycznej μ.

Drugi parametr dla każdego rozkładu normalnego to (ogólnie) odchylenie standardowe. Omawiamy jednak coś innego niż zwykły rozkład wyników – w przypadku rozkładu średnich owe odchylenie standardowe to tzw. błąd standardowy średniej. Nie jest on równoznaczny z odchylenie standardowym w zebranej próbie (które wówczas oznaczamy s), ale znajduje się całkiem blisko – odchylenie standardowe wyników w próbie (owe s) musi zostać podzielone przez pierwiastek z liczebność próby n. W przypadku przykładu z n = 5 osobami, należałoby podzielić przez właśnie pierwiastek z 5. Błąd standardowy średniej jest odwrotnie proporcjonalny do liczebności próby. Im większa próba, tym większy mianownik, a błąd standardowy średniej robi się mniejszy. Ten drugi parametr sugeruje, że zwiększanie liczby osób badanych działa – im więcej osób badanych przebadasz, tym bardziej zmniejszasz błąd próbkowania (sampling error).

BŁĄD PRÓBKOWANIA – DLACZEGO NIE WYNOSI ZERO?
Błąd próbkowania to różnica między Twoją statystyką opisową policzoną w zebranej próbie a teoretycznym parametrem, o którym krótko mówi się: parametrem w populacji. Na przykład, niech to będzie różnica między średnią arytmetyczną w badaniu, np. 170,2 cm a średnią w populacji, czyli 170 cm. Te 2 milimetry to właśnie błąd próbkowania.
Fajnie byłoby, aby wynosił zero, ale nie możemy tego oczekiwać w świecie losowych zjawisk. Zupełnie tak, jak nie możemy oczekiwać, że grając w rzutki zawsze będziemy trafiać w samą 10-tkę. Ale w miarę, jak będziemy rzucać, to powinniśmy średnio być coraz bliżej.

Błąd standardowy średniej mówi o tym, jak bardzo średnie będą się różnić między sobą w różnych próbach. Na szczęście nie musimy szukać wszystkich prób, liczyć na nich średnie arytmetyczne, aby w końcu policzyć odchylenie standardowe między nimi, ale wystarczy wziąć odchylenie standardowe w naszej próbie i podzielić przez pierwiastek z liczebności.
Jeśli w przykładowym badaniu wzięło udział n = 5 osób, należy podzielić odchylenie standardowe s przez pierwiastek z 5.

KORZYŚCI ZE STOSOWANIA CTG — polegają na możliwości wykorzystania jego mocy w przypadku nie-normalnych rozkładów albo w przypadku nieznanych rozkładów. Centralne Twierdzenie Graniczne pomaga nam uniknąć poszukiwań rozkładu cechy w populacji i stosować testy statystyczne tak, jakby badana cecha miała rozkład normalny w populacji. Krótko mówiąc:  CTG pozwala machnąć ręką na to, jak naprawdę wygląda rozkład cechy w populacji. Obok tego, dzięki CTG wiemy, że średnia arytmetyczna z naszych badań będzie coraz bliżej prawdziwego parametru populacji leżeć, im więcej osób zostanie przebadanych.

DLA JAKICH ROZKŁADÓW DZIAŁA CTG? - Dla wszystkich rozkładów, nie tylko dla normalnych. Dla takich cech, które dobrze opisuje coś innego, niż tylko krzywa Gaussa, np. czas reakcji, który bywa modelowany przez rozkład wykładniczy.

Dla rozkładu normalnego twierdzenie CTG jest niepotrzebne. Matematyk powiedziałby, że jest ono zbyt słabe dla takich zmiennych. Gdy wyjściowa cecha ma rozkład normalny, to rozkład próbkowy średniej będzie rozkładem normalnego ze względu na to, że sumowanie wartości zmiennej, których szansami występowania rządzi rozkład normalny, powoduje, że owa suma ma również rozkład normalny (Da się to powiedzieć krócej: sumowanie rozkładów normalnych nie wyprowadza wyniku poza rodzinę rozkładów normalnych).

OD ILU OBSERWACJI N MOŻNA PRZYJĄĆ, ŻE CTG DZIAŁA? - To jest największe pytanie, niestety, na które nie ma dobrej, jednoznacznej odpowiedzi. Podręczniki podają różne wartości, np. King, Rosopa i Minium piszą o tym, że już od 25-30, Howell podaje 30. Najczęściej podawaną wartością jest 30. Zgodnie z tym, gdy Twoja próba posiada n = 30 obserwacji (osób badanych, zwierzaków, śrubek), wówczas możesz bezpiecznie przyjąć, że Centralne Twierdzenie Graniczne już działa. Ta reguła mówiąc o n = 30 bywa kwestionowana, więc co możemy powiedzieć na pewno?

Można powiedzieć, że rozkłady symetryczne, o lżejszych ogonach (czyli takie bez outlierów, a szansach pojawiania się outlierów nie większych niż szanse w rozkładzie normalnym) są rozkładami, które szybko powodują zadziałanie CTG. Wiemy, też że dużym problemem jest kurtoza.

CZY MOŻNA SPRAWDZIĆ, CZY MOŻNA JUŻ STOSOWAĆ CTG? — Tutaj mam złą wiadomość, zwłaszcza jeśli cierpisz na testozę (tj. stosowanie testów statystycznych do wszystkich problemów). Nie istnieje test statystyczny sprawdzający, czy Centralne Twierdzenie Graniczne już działa – czy może jeszcze nie (i ile osób trzeba dobadać). Brakuje testu o hipotezie zerowej mówiącej, że dany rozkład próbkowy rozkład średnich jest już rozkładem normalnym.
Tutaj samodzielnie uznajesz, że masz wystarczającą próbę do skorzystania z CTG, albo uznajesz, że jest ona za mała. Jaka liczebność próby jest wystarczająca? Otóż, stąd wzięła się reguła kciuka (jedna z wielu heurystyk w statystyce), że wystarczy, że n = 30. Czy to prawda? To zależy. Dla takich rozkładów, które nie są zbyt skośne i jednomodalne - tak (zobacz rysunek wyżej).

CTG ORAZ TESTY STATYSTYCZNE — Centralne Twierdzenie Graniczne pozwala rozluźnić założenia testów statystycznych opartych na średnich. Testy statystyczne wymagają, aby dane spełniały określone wymogi, zwane założeniami. Niektóre z tych wymogów dotyczą normalności rozkładu oryginalnej cechy. W takim wypadku CTG przychodzi z pomocą, choć niepewną. Już nie trzeba oczekiwać, żeby zjawisko miało rozkład normalny, ale wystarczy, aby liczebność zebranej próby była dostatecznie duża, aby zadziałało CTG. Niepewność pomocnego działania CTG polega na tym, że nie wiemy, jak duża próba jest wystarczająco duża. Wiemy, że wystarczy, aby próba była symetryczna i bez obserwacji odstających.

Bez symulacji komputerowych nie jesteśmy w stanie powiedzieć nic więcej.

Decyzja, czy już działa CTG, czy jeszcze nie, należy do osoby wykonującej analizy statystyczne. Nie ma żadnego testu istotności statystycznej, który klepnie zgodę na jego wykorzystanie.
Kiedy badacz zdecyduje się, że jego dane pozwalają na odwołanie się do CTG, może przeprowadzić wybrany test statystyczny bez konieczności spełnienia bardzo restrykcyjnego założenia o normalności rozkładu badanej cechy. Przy czym, nie chodzi o każdy test statystyczny, a tylko o takie, które odnoszą się do równości średnich. W gruncie rzeczy chodzi o testy t-Studenta oraz ANOVA (czyli dwa najczęściej wykonywane testy).

CTG WOKÓŁ NAS — Działanie zobaczyć własnoocznie - spójrz na jakiekolwiek schody. Na schodach w miarę upływu czasu odrysowują się ścieżki, jakimi przeszło wiele, wiele, wiele osób.

Image by Tama66 on Pixabay

Część osób idzie przy ścianie, część - trzymając się poręczy. Większość osób idzie zwykle środkiem schodków. Wydeptana powierzchnia schodów z czasem ukazuje się charakterystyczny wzorzec wyświecenia, który doskonale obrazuje uśrednioną wartość wydeptanych ścieżek i jednocześnie istotę Centralnego Twierdzenia Granicznego: im więcej osób wejdzie do Twojej próby, tym szybciej zobaczysz gaussowski kształt rozkładu średnich.

CTG UZASADNIA, DLACZEGO TAK WIELE CECH MOŻE UCHODZIĆ ZA NORMALNE? — Mówi się, że rozkład normalny odzwierciedla naturę wielu zjawisk: obwód jabłka, wzrost człowieka, długość palców, itd. Obecnie wiemy już, że oprócz rozkładu normalnego istnieją również inne rozkłady (a cała ich lista znajduje się na Wikipedii). Dlaczego jednak tak długo uczeni wierzyli, że pojawianiem się różnych wyników w obrębie wielu cech rządzi krzywa Gaussa?

Aby to zrozumieć, wystarczy tylko nieco inaczej spojrzeć na samą średnią. Weźmy – wzrost człowieka. Jest to zmienna, na którą wpływa wiele rzeczy: geny, środowisko, przebyte choroby, aktywność fizyczna. Wpływ tych czynników sumuje się i sprawia, że dana osoba mierzy 1,75 cm. I wówczas wkracza Centralne Twierdzenie Graniczne. Mówi ono, że jeśli cecha jest wypadkową wielu innych zjawisk, to przejawy tej cechy będą występować zgodnie z rozkładem normalnym. To dlatego w naturze wiele zjawisk wygląda tak, jakby miało rozkład normalny.

5 komentarzy:

Anonimowy pisze...

Dzień dobry.
Mam kilka uwag, m.in. następujące:

Wykres średnich do poprawy! Rozkład średnich - także.
Proszę zwrócić uwagę na średnie z egzaminu - niektóre wartości są ujemne niektóre zaś są większe od 25, ale nie ma ich na wykresie rozkładu. Czy zakres 8-20 na osi poziomej jest zatem dobrany prawidłowo? A może komentarz w tym miejscu jest zbyt skąpy...

Sformułowanie "wyciągnąć z rysunku" jest niefortunne.
Wyciągnąć można coś z kieszeni, ale nie z rysunku.

Dziękuję, posta przeczytałem z zainteresowaniem.

AL

Lilianna Jarmakowska-Kostrzanowska pisze...

Cześć, cześć!

wielkie dzięki za przyuważenie błędu na wykresie.
Trochę jeszcze nie umiałam w grafikę przy okazji tworzenia posta i wstawiłam złą ośkę... Nie, to że teraz jestem graficznym masterem, hehehe :-)

pozdrowienia
Lili

Anonimowy pisze...

Świetnie napisane - rzeczowo i z dobrymi przykładami. Pewne uproszczenia nie umniejszają postu :-)

Krakowiak pisze...

Ciekawe dobry post

Lilianna Jarmakowska-Kostrzanowska pisze...

A dziękuję :-) pozdrowienia w Halloween :-) - Lili JK