Statystyka w psychologii: Przedział ufności średniej

LUTY 2026| LJK | ~1 655 słów | ~ 11 630 znaków

Przedział ufności pozwala oszacować, gdzie może znajdować się prawdziwa wartość parametru w populacji, uwzględniając niepewność wynikającą z losowego doboru próby. Zamiast jednej liczby otrzymujemy zakres wartości wyznaczony na podstawie średniej z próby, jej błędu standardowego i wybranego poziomu ufności. W statystyce frekwentystycznej poziom ufności nie oznacza prawdopodobieństwa dla konkretnego przedziału. Oznacza raczej, że gdybyśmy wielokrotnie powtarzali badanie i konstruowali przedziały w ten sam sposób, określony ich odsetek (np. 95%) zawierałby prawdziwą wartość parametru.

SPIS TREŚCI:

Wprowadzenie

1️⃣ Wykonując analizy statystyczne jesteśmy zainteresowani zarówno opisem próby, jak i informacją, czy w populacji, ile wynosi poszukiwana wartość w populacji, z której pochodzi próba. Statystyki opisowe, takie jak średnia arytmetyczna służą nie tylko wskazaniu reprezentatywnego egzemplarza, ale także oszacowaniu prawdziwej przeciętnej wartości w populacji. Średnia jest pojedynczą liczbą, ale obok tego istnieją też przedziały, całe zakresy wartości próbujące "ustrzelić tę wartość". To właśnie jest idea powstania przedziałów ufności.

2️⃣ Są trzy rzeczy związane z przedziałem ufności, o których musisz wiedzieć. Po pierwsze, trzeba użyć dopełniacza. "Przedział ufności " - czego? Przedział ufności odnosi się do konkretnej statystyki. To może być średnia, mediana, to może być wielkość efektu KLIK. Ważne jest wiedzieć, dla jakiego obiektu podajesz przedział ufności. Skoro już o tym mówimy, cały ten post dotyczy przedziału ufności dla średniej - ze względu na popularność, ale wnioski można rozszerzyć na każdy inny. Po drugie: należy podać poziom ufności. Najczęstsze poziomy ufności to 95-procentowy, albo 99-procentowy. Po trzecie: poprawna interpretacja, inna niż można spodziewać się.

Ufność - co to naprawdę znaczy?

Zanim przejdziemy do budowy i interpretacji przedziału ufności, porozmawiajmy o słowie zawartym w tej nazwie – o ufności. To ona jest kluczem do zrozumienia całego zjawiska. Warto wiedzieć, że „ufność” to pojęcie z żargonu statystycznego, a dokładniej ze słownika frekwentystycznej szkoły myśli statystycznej. W tym podejściu nacisk kładzie się na proces – na ciągle powtarzany eksperyment i częstość pojawiania się konkretnych wyników.

Frekwentyzm mówi, że szansa na otrzymanie orła w rzucie monetą wynosi 0,5, ponieważ gdybyśmy rzucali nieskończoną liczbę razy, stosunek orłów do reszek wyniósłby 50:50. A więc to nie jest kwestia jednego, konkretnego rzutu, a pewna stała własność całego procesu. To samo myślenie przeniesie się na przedział ufności.

Intuicja podpowiada, że ufność pokładamy w tym, że nasz obliczony przedział zawiera poszukiwaną wartość μ. Ale wcale tak nie jest. Ufność kładziemy w fakcie, że gdybyśmy dane badanie przeprowadzili wiele razy i za każdym razem obliczali przedział na nowych danych, to określona ich część zawierałaby prawdziwą wartość populacyjną μ. Jak duża? To zależy od poziomu ufności. Jeśli umówimy się, że wynosi on 95%, to znaczy, że w 95 na 100 przypadków metoda tworzenia przedziałów ufności nas nie zawiedzie.

Podsumowując: podobnie jak w przykładzie z monetą, ufność nie dotyczy konkretnego wyniku, a całego procesu tworzenia przedziału. Oznacza to, że wykonując badanie wielokrotnie, tylko w niewielkim odsetku (np. 5%) nasz przedział „chybi” i nie będzie zawierał prawdziwej wartości.

POWIĄZANIE POZIOMU UFNOŚCI Z BŁĘDEM i-GO RODZAJU | Istnieje ścisłe powiązanie między poziomem ufności 1 - α a błędem I rodzaju α. Ma to głęboki sens, ponieważ oba pojęcia wywodzą się z tej samej, frekwentystycznej szkoły myśli (pamiętasz przykład z rzutem monetą?). Oba odnoszą się do trwałych właściwości procesu badawczego, a nie do pojedynczego wyniku.

Błąd I rodzaju (α) mówi o pomyłce badacza polegającej na błędnym odrzuceniu prawdziwej hipotezy zerowej. W gruncie rzeczy jest to "fałszywy alarm" – twierdzimy, że coś odkryliśmy, choć w rzeczywistości tego nie ma. Podobnie jest z poziomem ufności. Tworzymy zakres liczbowy, którego celem jest ujęcie prawdziwej wartości parametru w populacji. Niekiedy jednak ten cel nie zostaje osiągnięty i przedział ufności "chybi".

Dlaczego tak się dzieje? Głównym winowajcą jest bardzo specyficzna, nietypowa próba. Choć żadna grupa badanych nie jest idealnym odzwierciedleniem populacji, zdarzają się takie, które są od niej drastycznie różne. Obliczając statystyki na ich podstawie, ryzykujemy silne niedoszacowanie lub przeszacowanie prawdziwej wartości. To właśnie przez takie „skrajne”, zawierające obserwacje odstające, próbki przedział ufności czasem się myli. Ustalając poziom ufności (np. 95%), decydujemy, że chcemy ograniczyć częstość tych pomyłek do zaledwie 5% (ponieważ 1 - 95% = 5%).

Konstrukcja przedziału ufności średniej

Sposób obliczenia 95% przedziału ufności średniej jest wyznaczony przez potrzebę - naszym celem jest otrzymanie przedziału liczbowego, w którym można byłoby znaleźć "prawdziwą" średnią (tą populacyjną). W próbie do dyspozycji mamy: średnią arytmetyczną (x̄), odchylenie standardowe (s) i wielkość próby (n). Teraz trzeba połączyć te informacje w jeden przepis.

1. średnia arytmetyczna x̄ daje punktowe oszacowanie średniej w populacji. To jednak tylko pojedyncza liczba zaś naszym celem jest przedział liczbowy.

2. Sprawdźmy, czy pomysł średnia +/- odchylenie standardowe zadziała? Niestety. Ten przedział liczbowy powie, jak osoby badane różnią się między sobą. Choć ta informacja jest często wykorzystywana, na wiele się nam tu nie przyda. Jak uratować się?

3. Możemy odchylenie standardowe s podzielić przez pierwiastek z liczby jednostek badanych. Ten prosty arytmetyczny ruch da nam zupełnie nową informację - błąd standardowy średniej (standard error, SE).

Błąd standardowy mówi, jak bardzo (przeciętnie) różnią się średnie z różnych możliwych prób od prawdziwej średniej w populacji. Innymi słowy, jest to miara niepewności estymatora - w tym przypadku średniej arytmetycznej.

Czy dodanie lub odjęcie jednego błędu standardowego od średniej rozwiązuje problem? To dobry trop. Dzięki Centralnemu Twierdzeniu Granicznemu wiemy, że w tych widełkach znajduje się zwykle około 68% przypadków. To jeszcze za mało! My przecież chcieliśmy 95%.

W tym celu należy rozciągnąć ten przedział do takich rozmiarów. Jak to zrobić? Tu z pomocą przychodzą kwantyle rozkładu normalnego, które mówią o tym, ile błędów standardowych należy odłożyć w lewo i w prawo od średniej arytmetycznej, aby złapać 95% średnich. Kwantyle rozkładu normalnego rzędu 2.5% oraz 97.5% wynoszą -1.96, 1.96. Pomogą stworzyć zakres liczbowy, w którym moglibyśmy znaleźć średnią populacyjną.

Interpretacja przedziału ufności średniej

INTERPRETACJA PRZEDZIAŁU UFNOŚCI | Interpretacja przedziału ufności wywodzi się z frekwentystycznego podejścia do prawdopodobieństwa – to trochę tak, jak z rzutem monetą, tylko zamiast orła i reszki mamy wynik badania. Aby to zrozumieć, wykonajmy eksperyment myślowy: wyobraźmy sobie, że powtarzamy nasze badanie setki razy. Gdybyśmy za każdym razem obliczali przedział ufności według podanego wcześniej wzoru, to około 95% z nich zawierałoby „prawdziwą”, populacyjną wartość średniej.

Jak to wygląda w praktyce? Żeby to sprawdzić, musielibyśmy najpierw znać tę prawdziwą wartość, co w realnym świecie jest niemożliwe. Możemy jednak udać się do statystycznej Nibylandii i wykorzystać symulacje komputerowe. Dzięki nim to my stajemy się „bogami” danych: najpierw ustalamy parametry populacji, a potem sprawdzamy, jak radzi sobie z nimi nasze statystyczne narzędzie.

Załóżmy, że badamy iloraz inteligencji w populacji, o której wiemy wszystko: ma rozkład normalny ze średnią μ = 100 i odchyleniem standardowym σ = 15.

◉ Poziome kreski: Każda z nich to jedno oddzielne badanie (symulacja), w którym wylosowaliśmy grupę n = 30 osób.
◉ Kropki: To średnie arytmetyczne obliczone w każdej z tych konkretnych prób. Jak widzisz, kropki rzadko trafiają idealnie w 100 – zazwyczaj są nieco obok.
◉ Zasięg kresek: To właśnie nasze przedziały ufności.
◉ Kolory: To tutaj dzieje się magia. Niebieskie przedziały to te, którym „się udało” – przecinają pionową linię μ=100. Czerwone przedziały to te, które spudłowały i nie zawierają prawdziwej średniej.

Warto wiedzieć, że w czerwonych przypadkach kropka (średnia z próby) jest tak daleko od prawdy, że nawet „rozciągnięty” przedział nie wystarczył, by objąć populacyjną wartość μ = 100. W naszej symulacji niebieskich kresek jest około 95%, a czerwonych tylko 5%. I to jest właśnie sedno idei 95% przedziału ufności. W prawdziwym życiu nie robimy stu badań, tylko jedno. Nie wiemy, czy nasz konkretny przedział jest niebieski czy czerwony – tego nie wie nikt. Wiemy jednak coś innego: korzystamy z metody, która myli się tylko w 5 przypadkach na 100.

GDZIE ZNAJDUJE SIĘ PRAWDZIWA WARTOŚĆ PARAMETRU? | Dziewięć na dziesięć osób spytanych o to, gdzie jest prawdziwa wartość parametru będzie szukać gdzieś pośrodku. Tymczasem sprawa jest mniej intuicyjna. Pojedynczy przedział ufności zawiera albo nie zawiera prawdziwej wartości, ale jeśli już zawiera, to siedzi ona gdzieś w tym gąszczu między lewym, a prawym końcem przedziału. To nie musi być środek, to może być pięć mikrometrów za.

BŁĘDNE INTERPRETACJE | W błędnych interpretacjach przedziałów ufności odbija się sposób, w jaki badacz chciałby je rozumieć. Zwykle są one przejawem chęci interpretowania przedziału ufności w sposób, który wydaje się intuicyjny i naturalny, ale niefrekwentystyczny. Rdzeniem problemu jest przesunięcie od frekwentystycznego rozumienia prawdopodobieństwa ku jego subiektywnej, bayesowskiej interpretacji jako stopnia przekonania. W rezultacie badacz, zamiast pokładać ufność w metodzie konstruowania przedziału, zaczyna przypisywać ją konkretnemu, wyznaczonemu przedziałowi. Oto niektóre z błędnych interpretacji:

❌ "95% przedział ufności oznacza 95% prawdopodobieństwo, że prawdziwa wartość parametru leży w podanych widełkach" | Dlaczego ta interpretacja jest zła? Wszystko przez wstrętny frekwentyzm. Podobnie jak w przykładzie z monetą, gdzie nie możemy mówić o konkretnym rzucie, a całym ciągu, tak i tutaj wykonujemy eksperyment myślowy, w którym istnieje wiele replikacji naszego badania, a w każdym z nim obliczamy przedział ufności. 95% frekwentystycznego prawdopodobieństwa oznacza, że w 95 przypadkach na 100 przedział będzie zawierał. My mamy nadzieję, że nasz konkretny przedział należy do tych szczęśliwy, ale nie jesteśmy tego na 100 %.

❌ "95% przedział ufności oznacza, że możemy być w 95% pewni, że prawdziwy parametr leży w podanym przedziale." | Dlaczego ta interpretacja jest zła? Pochodzący z frekwentystycznej statystyki przedział ufności nie odnosi się do subiektywnej oceny pewności. Pewność może odnosić się tylko do długookresowych własności całej procedury konstruowania takiego przedziału. Co nie oznacza, że nie istnieją metody wyznaczania zakresów liczbowych, które umożliwiają subiektywną interpretację, ale należą one do zupełnie innej szkoły myśli statystycznej niż frekwentystyczna. Nazywa się ona bayesianizmem.

❌ "Przedział ufności oznacza, że interesujący nas parametr ma 95% prawdopodobieństwo znalezienia się w tym przedziale." | Dlaczego ta interpretacja jest zła? Konkretny przedział ufności albo zawiera, albo nie zawiera populacyjnego parametru. Prowadzi to do tego, że nie wiadomo, nawet nie jesteśmy w najmniejszym stopniu w stanie powiedzieć jak bardzo możemy być pewni.

❌ "Gdybyśmy wielokrotnie powtarzali procedurę losowania próby i konstruowania przedziału ufności w ten sam sposób, to około 95% z tak otrzymanych przedziałów zawierałoby prawdziwą wartość parametru i nasz konkretny przedział jest jednym z nich." | Dlaczego nie? Nie wiemy, czy nasz przedział należy do grupy szczęśliwców. Gdybyśmy wiedzieli, że na pewno tam jest, wówczas moglibyśmy po prostu powiedzieć, że jest to przedział, który zawiera populacyjną wartość, a to znowu stoi sprzeczności z konstrukcją przedziału ufności.

CEL | W takim razie do czego służy przedział ufności, skoro nie daje on stuprocentowej pewności, że prawdziwa wartość parametru leży dokładnie między jego krańcami? Co właściwie zyskujemy, wyliczając go?

Przedział ufności to przede wszystkim miara niepewności naszego oszacowania. Sama średnia z próby to tylko pojedynczy punkt na osi OX – wskazuje ona na prawdopodobną wartość w populacji (μ), ale nigdy nie mamy pewności, jak blisko tego ideału trafiliśmy. Tu pojawiają się ważne pytania: Na ile rzetelny jest ten wynik? Czy gdybyśmy zebrali dane od innej grupy osób, nasza średnia arytmetyczna znacząco by się zmieniła?

Innymi słowy, przedział ufności pokazuje nam, jak dobór próby mógł zakłócić ostateczny wynik. Z tego powodu stanowi on bezpośredni wskaźnik precyzji badania:

Wąski przedział to sygnał wysokiej precyzji – nasze oszacowanie jest stabilne i prawdopodobnie bliskie prawdy.
Szeroki przedział to oznaka niskiej precyzji – sugeruje, że w danych jest dużo szumu, a nasze wnioski powinniśmy traktować z dużą ostrożnością.

Przedział ufności jako "przedział kompatybilności"

W 2019 roku pojawiła się propozycja, aby pojęcie „przedziału ufności” nazwać inaczej i inaczej je interpretować. Okazało się, że istnieje rozumienie bardziej naturalne, które nie musi łamać zasad frekwentyzmu i nie osuwa się w subiektywny „stopień przekonania”, a jednocześnie daje badaczowi znacznie więcej niż tylko suchą informację o precyzji pomiaru.

W tej propozycji "przedział ufności" staje się przedziałem kompatybilności (compatibility interval). Co to właściwie oznacza? W skrócie: "95-procentowy przedział ufności to zbiór wartości parametru, z którymi nasze dane są zgodne (kompatybilne) w ramach przyjętego modelu statystycznego".

MODEL | Brzmi to tak, jakbyśmy musieli coś z góry założyć. W rzeczywistości tak jest – za każdym razem, gdy sięgamy po analizy statystyczne, przyjmujemy jakiś model. Rzadko wspomina się o tym, ale na pewno zauważyłaś, że często pojawia się mowa o „założeniach”. To jest właśnie ten moment, w którym powołujesz do życia model statystyczny mający opisać Twoje dane.

Jak to działa w przypadku średniej arytmetycznej? Tym razem też zaczniemy od modelu. Dlaczego? Zawsze, gdy nasze zainteresowanie wykracza poza samą próbę – a przecież licząc przedział ufności, pytamy o wartość w populacji – musimy przyjąć pewne ramy teoretyczne. Na szczęście w przypadku średniej te założenia nie są szczególnie dotkliwe.

ŚREDNIA: FUNDAMENTY MODELU| Zakładamy po pierwsze, że zebrane dane są niezależne. Oznacza to, że wynik jednej obserwacji nie dostarcza nam żadnych informacji o wyniku kolejnej – na przykład to, jak wysokie ciśnienie ma pierwszy badany pacjent, w żaden sposób nie wpływa na wynik drugiego. W praktyce sprowadza się to do poprawnego, losowego schematu doboru próby. Po drugie, zakładamy, że badana cecha posiada w populacji „matematycznie rozsądny” rozkład – taki, który ma określoną średnią i dające się policzyć rozproszenie (wariancję). Czy musi to być rozkład normalny? Niekoniecznie. Często wystarczy działanie Centralnego Twierdzenia Granicznego, aby rozkład średnich z próby dążył do normalności, co pozwala nam na bezpieczne wyznaczenie granic przedziału. Więc nawet nie musimy znać dokładnego rozkładu cechy w populacji.

Zmieńmy nieco perspektywę, aby łatwiej zrozmieć ten nowy sposób interpretacji. Otóż, szukamy wartości średniej populacyjnej μ, na jaką wskazują dane. Będzie to przedział liczbowy o dwóch krańcach. Wewnątrz tego przedziału znajdą się wszystkie potencjalne wartości μ, z którymi są zgodne nasze dane (oczywiście, przy przyjętych założeniach). Na zewnątrz lądują te, które dane są mało kompatybilne. Teraz sprawdzimy, jak to wygląda na konkretnym przykładzie.

PRZYKŁAD | Przypuśćmy, że zgromadzono próbę n = 100 osób, dla której M = 100,30, zaś SD = 15,23, obliczony 95% przedział ufności wyniósł [97,32;103,29].

Jak zinterpretować ten przedział w nowym kontekście? Po prostu jako zakres potencjalnych wartości średniej populacyjnej μ, z którymi uzyskane dane są spójne - kompatybilne. Na taki przedział wskazują nasze dane.

Co więcej, nadal możemy powiedzieć, że gdybyśmy wykonywali wiele takich badań, gdzie próby liczyły n = 100 osób, to 95% przedziałów obliczonych za pomocą wyżej znajdującego się wzoru, zawierałoby prawdziwą wartość μ. Nowa interpretacja istnieje obok starej. Stara odnosi się do metody obliczania przedziału, do gwarancji, jaką daje. Nowa - do konkretnego przedziału. Żadna nie mówi o pewności.

Nowa interpretacja idzie w parze ze współczesnym odwrotem od „mechanistycznie” uprawiane statystyki. Teraz akcent przesuwa się z bezmyślnego sprawdzania, czy przedział zawiera czy nie zawiera jakiejś wartości, na ocenę zgodności danych z modelem.

Ponadto, to podejście do przedziału ufności idzie w parze z nowym rozumieniem p-wartości (p-value). Od 2016 roku podkreśla się, że p-wartość nie mówi nam, czy „przyjąć lub odrzucić” hipotezę, ani czy zjawisko „istnieje”. P-wartość to po prostu miara kompatybilności danych z modelem proponowanym przez hipotezę zerową.

7 komentarzy:

wstt pisze...: jak to się ma do margin of error, tj błędu pomiaru w sondażach lub psychometrii - są obliczane oidp tak samo, ale zdają się być traktowane wg nieprawidłowych dla CI interpretacji; 26 marca 2016 17:48
Anonimowy pisze...: Wspaniale trafić na kogoś, kto potrafi wytłumaczyć tak nieintuicyjny materiał.
Dziękuję ogromnie!; 29 września 2020 22:16
Lilianna Jarmakowska-Kostrzanowska pisze...: Ciesze się :-) A wkrótce wstawię nową wersję tego posta (dosłownie na dniach). Pozdrowienia!; 1 października 2020 20:37
Anonimowy pisze...: Fantastycznie fantastyczne (w znaczeniu, że wspaniałe, a nie science-fiction :-) ).
Dziękuję!; 3 października 2020 18:43
Anonimowy pisze...: Dzień dobry,

Jestem laikiem, ale patrząc na opis rysunku w punkcie "SZEROKOŚĆ PRZEDZIAŁU A ODCHYLENIE STANDARDOWE" i na opis problemu, to wydają mi się niespójne. W tekście ze wzrostem odchylenia std przedział ufności ma rosnąć, na rysunku ze wzrostem odchylenia std przedział ten maleje (wąsy są coraz krótsze).
Chyba, że nie zrozumiałem

Serdecznie pozdrawiam
S; 8 października 2020 22:18
Lilianna Jarmakowska-Kostrzanowska pisze...: :-) Racja, wstawiłam zły rysunek. Już poprawiam. Bardzo Ci dziękuję za wnikliwe przeczytanie i informację, że coś nie działa:-)
pozdrowienia
Lili JK; 9 października 2020 16:10
gosia pisze...: Ale Pani to fajowo tłumaczy. Aż chce się czytać. Bardzo dziękuję.; 6 lutego 2022 19:31