MAJ 2019| LJK | ~ 1500 słów
Średnia arytmetyczna w populacji służy do oszacowania prawdziwego parametru w populacji. Jest statystyką, której zadaniem jest dobrze szacować prawdziwą wartość parametru. Jest to jednak tylko pojedyncza liczba – przydałaby się jakaś informacja o tym, jak dobre jest to oszacowanie. I do tego właśnie przydaje się przedział ufności. |
Są trzy rzeczy związane z przedziałem ufności. Po pierwsze, w nazwie trzeba użyć dopełniacza, gdy używasz tej frazy. Dopełniacz ten określa, dla jakiej statystyki, podajesz przedział ufności. Stąd: przedział ufności ...kogo/czego....? To może być średnia, to może być wielkość efektu i inne. Ogólnie - parametru w populacji (to teoretyczne pojęcie). Dlatego ważne jest wiedzieć, dla jakiego obiektu podajesz przedział ufności. Wprawdzie cały post dotyczy przedziału ufności dla średniej, informacje w nim zawarte można rozszerzyć na każdy inny przedział ufności. Po drugie: należy podać poziom ufności, 1 - α. Z poziomem ufności, jak z wódką, im więcej - tym więcej. Najczęstsze poziomy ufności to 95-procentowy albo 99-procentowy. Po trzecie: poprawna interpretacja, inna niż można spodziewać się.
SŁOWNIK STATYSTYKI — Gdyby zapytać na ulicy, co oznacza przedział ufności, to padłaby odpowiedzieć, że jest to przedział liczbowy, który zawiera z pewną ufnością poszukiwany parametr. Niestety, słownik języka codziennego miewa mało wspólnego z językiem statystyki. Aby to dokładnie pokazać, zróbmy najpierw mały eksperyment myślowy pt. Worek myślowy (niżej).
WOREK UFNOŚCI — Niech zamiast słowa przedział we frazie przedział ufności będzie worek. O jaki worek chodzi? O taki zwykły szary worek z bawełny, zawiązywany tasiemką u góry. Taki, w którym można kupić kota. Więc, worek ufności to worek, który z pewną ufnością zawiera poszukiwaną rzecz. To oznacza, że z jakimś poziomem ufności wierzymy, że ta rzecz się w nim znajduje. Ktoś może ufać w 20% - to oznacza, że jest podejrzliwy. Ktoś inny może ufać w 95%. A teraz puenta - to nie jest dobra interpretacja przedziału ufności w sensie statystyki. Ufność w pojęciu przedział ufności nie oznacza zwyczajowo rozumianej ufności. Kurtyna.
UFNOŚĆ TO NIE JEST PRAWDOPODOBIEŃSTWO — Z posta o interpretacji prawdopodobieństwa możesz dowiedzieć się, że to, jak należy rozumieć to pojęcie. Interpretacja prawdopodobieństwa nie jest domeną ani matematyki, ani statystyki a sposobów jego ujęcia jest co najmniej dwa. Przedział ufność pojawia się w statystyce klasycznej, a samo słowo ufność nie jest synonimem słowa prawdopodobieństwo.
W CZYM POKŁADAMY UFNOŚĆ? — W przykładzie z workiem ufność pokładaliśmy w tym, że ten worek zawierał poszukiwaną rzecz. W przedziale ufności tę ufność pokładamy w procesie tworzenia takiego przedziału. Gdybym badanie wykonywała nieskończenie wiele razy i dla każdego z tej nieskończonej liczby badań obliczała przedział ufności za pomocą powyższego wzoru, to 95% z nich zawierałoby prawdziwą wartość średniej.
Ufność oraz przedział ufności to pojęcie ze świata frekwentyzmu. W tym świecie, świecie nieskończenie dokonywanych badań, nacisk położony jest na proces – na ciągle powtarzające się badanie. W związku z czym, my ufamy, że gdybyśmy nasze badanie prowadzili nieskończenie wiele razy i obliczali przedział ufności za każdym razem używając tego samego wzoru, to maksymalnie 5% przedziałów nie zawierało by prawdziwego, nieznanego parametru. Tym samym, 95% zawierało by prawdziwy parametr. To oznacza, że pojedynczy przedział ufności zawiera albo nie zawiera go.
KONSTRUKCJA PRZEDZIAŁU UFNOŚCI DLA ŚREDNIEJ — Są dwa sposoby obliczania przedziału ufności dla średniej: gdy znasz odchylenie standardowe w populacji, albo gdy go nie znasz (Uda są zawsze dwa, albo się uda, albo się nie uda). W poście realizm sytuacji ustąpił prostocie obliczeń i ułatwienia wybrałam prostszy wariant – gdy znamy wariancję w populacji. To takie mało realistyczne badania w psychologii - te, w których wiemy, jakiego rozproszenia wyników można spodziewać się, ale nie wiadomo, ile wynosi średnia. My zwykle nie znamy ani jednego, ani drugiego.
Alfa, α, jest z góry zadane, zwykle jest to 5%, choć może być 1% albo dowolnie inna liczba. Najpierw ogólny zwierzowzór:
Teraz go rozpakujemy i popatrzymy, co oznaczają poszczególne znaczki i - co ważniejsze - co z nich wynika.
LEGENDA — Zapis wzoru jest zwykle spotykanym zapisem. X z kreseczką to średnia. Sigma σ to odchylenie standardowe w populacji. Pierwiastek z n to pierwiastek z liczby osób badanych. Najciekawsze dzieje się w stałej. Liczba 1.96 oznacza kwantyl rzędu 2,5% (oraz jednocześnie 97,5%, ponieważ 100% - 2.5%) rozkładu normalnego. To, że do konstrukcji przedziału ufności wykorzystujemy coś charakterystycznego dla rozkładu normalnego, powinno wzbudzić naszą czujność. Oto tylnymi drzwiami wchodzi jakaś dodatkowa informacja. Nigdzie do tej pory nie było mowy o normalności jakiegokolwiek rozkładu. A tutaj sugerujemy, że średnia ma cokolwiek wspólnego z rozkładem normalnym - pamiętaj, że ten przedział ufności budujemy dla średniej, więc do niej odnoszą się wszelkie założenia.
To skąd to się wzięło? Tu właśnie jest miejsce, w którym badacz pośrednio odwołuje się do Centralnego Twierdzenie Granicznego (CTG), które mówi, że jeśli masz odpowiednio dużą próbę to średnia ma rozkład normalny. A ponieważ nie wiadomo, ile wynosi odpowiednio duża próba, to stawia to pod znakiem zapytania wnioski wyciągane na podstawie nieuprawnionego założenia. W matematyce tak jest, że lepiej wiemy, co dzieje się w nierealnym świecie, jaką jest nieskończoność, niż tu, w realnym świecie. Na szczęście, dla porządnych rozkładów, w miarę symetrycznych i jednomodalnych, to założenie dość szybko zostaje spełnione i można o sprawie zapomnieć.
PRZYKŁAD PRZEDZIAŁU UFNOŚCI — Zebrałam próbę od n = 30 osób. Średnia z próby wynosi 100. Tak się składa, że znam odchylenie standardowe w populacji, σ, jest równe 4,5. Jak obliczyć 95% przedział ufności dla takiej średniej? Użyć powyższego wzoru.
INTERPRETACJA PRZEDZIAŁU UFNOŚCI — Gdybym badanie wykonywała nieskończenie wiele razy a dla każdego z tej nieskończonej liczby badań obliczała przedział ufności za pomocą powyższego wzoru, to 95% z nich zawierałoby prawdziwą wartość średniej. Ten obliczony powyżej jest jednym z tej nieskończonej puli i nie mogę powiedzieć, czy zawiera, czy też nie prawdziwej średniej μ.
Nie mogę też powiedzieć tego, czego niektórzy chcieliby: że możemy być w 95% pewni, że ten przedział [98,39; 101,61] zawiera poszukiwany, nieznany, prawdziwy parametr populacji. Pojedynczy przedział ufności albo zawiera tę prawdziwą wartość, albo nie zawiera. Nic bardziej konkretnego nie jesteśmy w stanie powiedzieć.
GDZIE LEŻY PRAWDZIWY PARAMETR? — Dziewięć na dziesięć osób spytanych o to, gdzie jest prawdziwa wartość parametru będzie szukać gdzieś pośrodku. Tymczasem to tylko wrażenie. Zacznijmy od początku. Z definicji przedziału ufności nie wynika, czy pojedynczy przedział ufności zawiera albo nie zawiera prawdziwej wartości. Jeśli jednak już zawiera (o czym my nie wiemy na 100%), to znajduje się ona gdzieś w tym gąszczu między lewym, a prawym końcem przedziału. To nie musi być środek tego przedziału. To może być przed nim, albo za nim, blisko końca - nie wiadomo.
JAK NIE POWIEDZIEĆ O PRZEDZIALE UFNOŚCI — Chciałoby się powiedzieć, że skoro mamy 95% przedział ufności, to w 95% możemy być pewni, że zawiera prawdziwą wartość parametru. Niestety, w obrębie statystyki klasycznej, ten sposób interpretacji jest dla nas niedostępny. Poniżej znajduje się kilka błędnych interpretacji przedziału ufności dla średniej:
- 95% przedział ufności oznacza 95% prawdopodobieństwo, że prawdziwa wartość parametru leży w podanych widełkach
- 95% przedział ufności oznacza, że możemy być w 95% pewni, że prawdziwy parametr leży w podanym przedziale
- Przedział ufności oznacza, że interesujący nas parametr ma 95% prawdopodobieństwo znalezienia się w tym przedziale
- Poziom ufności to poziom istotności statystycznej
DLACZEGO TAKIE INTERPRETACJE SĄ ZŁE? — Kiedy posługujemy się pojęciem frekwentystycznym, nie możemy dokonywać interpretacji ze szkoły bayesowskiej. Trzy pierwsze wypowiedzi zawierają sporą dawkę bayesianizmu - mówią o stopniu pewności, o tym, jaka jest szansa znajdowania się w jakimś odcinku. To wszystko to dobra bayesianizmu (ale jest oczywiście za to cena).
Ostatni punkt, zrównanie poziomu ufności z poziomem istotności statystycznej jest bardzo często spotykanym błędem. Na wykładach, książkach i raportach. Do takiego stopnia, że napisanie, że to błąd, brzmi jak herezja. Dlaczego tak jest? Dlatego, że te dwa pojęcia należą do dwóch szkół myśli statystycznej, które na poziomie technicznym wyglądają podobnie, ale ideowo są rozbieżne. Poziom ufności należy do szkoły frekwentystycznej, a poziom istotności statystycznej - do szkoły fisherowskiej.
SZEROKOŚĆ PRZEDZIAŁU UFNOŚCI — Wprawdzie rezygnujemy z pojedynczej liczby na rzecz przedziału liczbowego jako metody na szacowanie prawdziwej wartości parametru, ale zaraz potem zależy nam na tym, aby ten przedział był jak najwęższy. Chodzi o precyzję estymacji.
Wzór na obliczenie przedziału ufności mówi, że to, co stanowi o szerokości przedziału ufności to po pierwsze: liczba osób badanych, po drugie: rozproszenie wyników w próbie, po trzecie: kwantyle rozkładu normalnego. Badacz może majstrować przy pierwszej i trzeciej rzeczy. Może zwiększać liczbę osób badanych, może też dobierać odpowiednie kwantyle. Mniejsze pole manewru ma przy rozproszeniu wyników w próbie. Bo to zależy od samych osób badanych.
SZEROKOŚĆ PRZEDZIAŁU A LICZBA OSÓB BADANYCH - Jaki jest wpływ liczby osób badanych na to, jaki wąski lub szeroki będzie przedział ufności? Ponieważ n oznaczające wielkość próby znajduje się w mianowniku, to wraz ze wzrostem liczby badanych maleje szerokość przedziału. Otóż, im więcej osób przebadamy, tym ten przedział jest węższy.
Na powyższym rysunku widać, jak ramiona przedzialu ufności, które symbolizuja jego szerokość, zmniejszają się wraz z wielkością próby. Jest też związek między szerokością przedziału ufności a wariancją.
SZEROKOŚĆ PRZEDZIAŁU UFNOŚCI ŚREDNIEJ A ODCHYLENIE STANDARDOWE — Czy na szerokość przedziału ufności może mieć wpływ to, jak bardzo wyniki są rozproszone? Tak - i to wcale niebagatelny. Zjawisko to wynika bezpośrednio z przepisu na przedział ufności. W liczniku zarówno lewego, jak i prawego krańca przedziału umieszczono małe s, czyli odchylenie standardowe - jedną z miar rozproszenia wyników. W ten sposób steruje ono odległością między krańcami, która zwiększa się wraz ze wzrostem rozproszenia wyników, które owe s mierzy. Dynamikę zmian ilustruje poniższy rysunek.
Dwie próby o tej samej liczbie osób badanych, n1 = n2 (np. n1 = n2 = 10), tych samych średnich arytmetycznych x̄ 1 = x̄2 (np. x̄1 = x̄2 = 50), ale różnych odchyleniach standardowych s1 ≠ s2 (np.s1 = 10, s2 = 20) prowadzi do różnych przedziałów ufności średniej. Przedział ufności średniej dla pierwszej próby będzie wynosić [48.04, 51.96], zaś dla drugiej: [46.08, 53.92]. Próba o mniejszym odchyleniu standardowym s = 10 będzie mieć węższy przedział ufności średniej. Próba o większym odchyleniu standardowym s = 20 będzie mieć szerszy przedział ufności średniej.
Zjawisko wpływu odchylenia standardowego na szerokość przedziału ufności ma głębszy sens. Sam przedział ufności średniej jest miarą precyzji oszacowania pewnej charakterystyki populacji. Przecież za pomocą przedziału ufności próbujemy znaleźć prawdziwą wartość parametru. Niestety, każdy pojedynczy wynik w próbie jest obarczony błędem np. pomiarowym, co powoduje ich zróżnicowanie w próbie i w dalszej kolejności ma wpływ na jakość oszacowań. Jeśli rozproszenie wyników w próbie jest małe, to precyzja estymacji dokonana na podstawie tych wyników rośnie. Jeśli rozproszenie wyników jest duże - maleje. Właśnie tę zależność widać na powyższym rysunku. Wzrost rozproszenia wyników - mierzonego odchyleniem standardowym - to spadek jakości oszacowania (szerszy przedział ufności średniej).
7 komentarzy:
jak to się ma do margin of error, tj błędu pomiaru w sondażach lub psychometrii - są obliczane oidp tak samo, ale zdają się być traktowane wg nieprawidłowych dla CI interpretacji
Wspaniale trafić na kogoś, kto potrafi wytłumaczyć tak nieintuicyjny materiał.
Dziękuję ogromnie!
Ciesze się :-) A wkrótce wstawię nową wersję tego posta (dosłownie na dniach). Pozdrowienia!
Fantastycznie fantastyczne (w znaczeniu, że wspaniałe, a nie science-fiction :-) ).
Dziękuję!
Dzień dobry,
Jestem laikiem, ale patrząc na opis rysunku w punkcie "SZEROKOŚĆ PRZEDZIAŁU A ODCHYLENIE STANDARDOWE" i na opis problemu, to wydają mi się niespójne. W tekście ze wzrostem odchylenia std przedział ufności ma rosnąć, na rysunku ze wzrostem odchylenia std przedział ten maleje (wąsy są coraz krótsze).
Chyba, że nie zrozumiałem
Serdecznie pozdrawiam
S
:-) Racja, wstawiłam zły rysunek. Już poprawiam. Bardzo Ci dziękuję za wnikliwe przeczytanie i informację, że coś nie działa:-)
pozdrowienia
Lili JK
Ale Pani to fajowo tłumaczy. Aż chce się czytać. Bardzo dziękuję.
Prześlij komentarz