Miary rozproszenia

LIPIEC 2025| LJK | ~2 784 słowa |~ 18 694 znaki

Miary rozproszenia (dyspersji, zmienności) agregują informację o pewnej charakterystycznej cesze zbioru danych - stopniu zróżnicowania wartości, czyli o tym, jak bardzo różnią się obserwacje. Rozstęp, rozstęp ćwiartkowy (IQR), średni błąd absolutny (MAD) odchylenie standardowe (SD) to tylko niektóre z całego wachlarza miar rozproszenia. W tym poście omawiam ich działanie, wady i zalety.


SPIS TREŚCI:


Wprowadzenie

1️⃣ Przyzwyczailiśmy się, że statystyka to nauka o zjawiskach masowych, manifestujących swoją obecność w wielu jednostkach - osobach, zwierzętach, przedmiotach, zwanych krótko obserwacjami. Jasne jest też to, że jeśli zgromadzimy dane, obliczamy typową obserwację, najczęściej średnią arytmetyczną. Ale przeciętny egzemplarz to zdecydowanie za mało informacji, aby wiedza o zjawisku była pełna. Tak naprawdę, równie ważnym, jeśli nie ważniejszym, aspektem danych jest ich zróżnicowanie.

2️⃣ Owszem, statystyka interesuje się zjawiskami masowymi, ale przede wszystkim takimi, które charakteryzuje pewna kluczowa własność, zwana zróżnicowaniem albo też zmiennością. Ta profesjonalna nazwa oznacza po prostu to, że obserwacje różnią się między sobą pod kątem wybranej zmiennej. Weźmy wzrost - jeden człowiek ma 165 cm, drugi 187 cm, a jeszcze inny 166. Wyniki są różne, ale w statystyce nie ma słowa różność, jest za to zmienność, którą trzeba jakoś uchwycić, zamknąć w liczbach i do tego służy wiele miar, z których poznamy kilka w tym tekście. Będą to miary, które służą do badania zmienności dla cech ilościowych, tzn. takich, które są mierzone na skali przedziałowej lub ilorazowej (post o skalach Stevensa: KLIK).

3️⃣ Powiedzieliśmy, że być może to, co mierzą różne wskaźniki rozproszenia jest najważniejszym aspektem zbioru danych. Ale dlaczego ta zmienność miałaby być tak ważna? Otóż, badanie zmienności to badanie samego zjawiska. To próba odpowiedzi na pytanie, co powoduje, że jedna obserwacja przyjęła inną wartość niż druga obserwacja. Szukając źródeł zmienności wyników tak naprawdę szukamy mechanizmu, które stoi za zjawiskiem.

Przeanalizujemy kilka podstawowych miar rozproszenia, ich wady i zalety.

Rozstęp

Jednym z rozwiązań, które jako pierwsze przychodzą do głowy, jest zbadać rozpiętość między najniższym wynikiem a najwyższym. Różnica między wartością maksymalną a minimalną nosi nazwę rozstępu (ang. range). Jeśli największa wartość w próbie wynosi 172 cm, a najmniejsza 156, to rozstęp wynosi 172 - 156 = 16 cm.

Prostota obliczeń jest niewątpliwą zaletą tego wskaźnika rozproszenia. Niestety, jedną z nielicznych. Rozstęp niewiele mówi o zachowaniu obserwacji w próbie, ponieważ koncentruje się tylko na dwóch z nich. Obserwacje mogą być skupione blisko jednego krańca zakresu albo bardzo rozproszone, czego rozstęp nie pokaże. Na dodatek wadą jest podatność na obserwacje odstające. Wystarczy, że przy wpisywaniu omsknie się ręka i zamiast 172 cm wpiszesz 1172, to wówczas rozstęp podskoczy do 1016 cm. Tę wadę można wykorzystać na własną korzyść. Jeśli wiesz, jaki powinien być zakres wartości zmiennej, to rozstęp wychodzący poza ten zakres jest sygnałem, że coś poszło nie tak. Jeśli wiadomo, że kwestionariusz samooceny Rosenberga RSES przyjmuje wartości od 0 do 10, to rozstęp wynoszący nagle 12 jest sygnałem, że coś poszło nie tak i należy sprawdzić tę kolumnę z danymi.

W takim razie jak poradzić sobie z obserwacjami odstającymi, z wpływem obserwacji odstających? Są miary, które polegają na celowym odrzuceniu wartości mniejszy i większych od pewnych ustalonych rozsądnie wybranych progów - jedną z nich jest rozstęp ćwiartkowy.

Rozstęp ćwiartkowy IQR

Rozstęp ćwiartkowy zwany również międzykwartylowym (ang. interquartile range, IQR) - jak nazwa wskazuje jest rozstępem, czyli różnicą odległości między dwoma specyficznymi wartościami. Tym razem nie są to jednak ani najmniejsza, ani największa wartość, ale pierwszy kwartyl Q1 i trzeci kwartyl Q3. Pierwszy kwartyl to obserwacja, poniżej której znajduje się nie więcej niż 25% obserwacji. Trzeci kwartyl - 75% obserwacji. Jak się można domyślić, odrzucamy po ćwiartce najniższych i najwyższych wartości.

W ten sposób mierzymy rozstęp tylko centralnej części zebranego zbioru, co z jednej strony oznacza utratę informacji, z drugiej strony ta informacja może być myląca, ponieważ potencjalnie zawiera obserwacje odstające, które jak już widzieliśmy, mają ogromny wpływ na wskaźniki.

Niestety, ani rozstęp ani rozstęp ćwiartkowy, ani jakakolwiek inna miara rozpięta na dwóch wartościach nie zagląda zbytnio do samej próby. Poza dwoma wartościami, które biorą udział w obliczeniach, reszta jest zupełnie nietknięta, a tymczasem przecież zbiory mogą mieć ten sam rozstęp, a bardzo różnić się od siebie. Porównaj zbiory: {1, 2, 3, 4, 5} oraz {1, 1, 1, 5, 5}. Widzimy, że pierwszy zbiór ma inny charakter rozproszenia wartości niż drugi, który tak naprawdę składa się z dwóch wielokrotnie występujących obserwacji. Zmienność to po prostu coś więcej niż tylko zakres czy rozpiętość wartości. Wobec tego najlepsze miary zmienności zbierają informację z każdej obserwacji.

Zmienność to po prostu coś więcej niż tylko zakres czy rozpiętość wartości. To pewien wzorzec zachowania danych.

Idea miar opartych na odchyleniach obserwacji

Jak powinna wyglądać miara, która z jednej strony bierze pod uwagę wszystkie obserwacje, a z drugiej - podaje informację o stopniu rozproszenia wyników? Idąc po linii najmniejszego oporu, wybralibyśmy sumę wartości - taka miara na pewno uwzględnia wszystkie obserwacje.

Gdybyśmy dodali do siebie wszystkie wartości to po prostu wyszłaby - suma wartości. Weźmy zbiór {1, 2, 3, 4, 5}. Wówczas dodając wszystkie obserwacje, otrzymalibyśmy 15, ponieważ 1 + 2 + 3 +4 + 5 = 15. Tyle, że nic z tej sumy nie wynika, a co gorsza - jeszcze jeden fałszywy krok i otrzymalibyśmy miarę tendencji centralnej (tj. gdybyśmy podzielili przez liczbę wartości otrzymalibyśmy średnią arytmetyczną) zamiast miary rozproszenia. Suma wartości to droga donikąd.

ŚREDNIA JAKO POZIOM REFERENCYJNY | Za to średnią arytmetyczną można wykorzystać w inny celu - jako punkt odniesienia, względem którego będziemy badać zmienność obserwacji. Jeśli obserwacje bardzo różnią się od średniej, to zmienność jest duża, jeśli niewiele - zmienność jest mała. W ten sposób powstają miary oparte na odchyleniach najczęściej - od średniej arytmetycznej. A może teraz sumowanie odchyleń względem średniej byłoby dobrym rozwiązaniem? Nic z tego. Szkopuł w tym, że suma tych odchyleń względem średniej jest zawsze równa zero.

ZEROWANIE ODCHYLEŃ OBSERWACJI | Gdybyśmy od każdej obserwacji odjęli średnią arytmetyczną a następnie te wyniki odejmowania zsumowali otrzymalibyśmy okrągłe zero. To jest ogólna własność, która dotyka wszystkie zbiory danych. Dla dowolnych danych o ile są ilościowe, suma odchyleń wartości od średniej arytmetycznej jest równa zero. W zmatematyzowanych podręcznikach do statystyki znajduje się dowód tego twierdzenia, a dla mniej zmatematyzowanej publiczności mówi się, że średnia arytmetyczna to przecież punkt ciężkości próby, punkt balansujący między wszystkimi wartościami, który równoważy odchylenia dodatnie z ujemnymi. W języku matematyki równoważyć oznacza zerować.

Wygląda na to, że wymyślenie dobrej miary rozproszenia wyników wymaga rozwiązania problemu zerowania się odchyleń. Ten problem można rozwiązać na różne sposoby a każdy z nich skutkuje inną miarą rozproszenia - jedną z nich jest odchylenie standardowe. Zanim do niego dojdziemy, zobaczymy co znaczą słowa: ”średnie odchylenie obserwacji od średniej arytmetycznej”.

Średnie odchylenie bezwzględne (mean absolute deviation, MAD)

Średnie odchylenie bezwzględne to jak sama nazwa wskazuje, średnie odchylenie bezwzględne, czyli to jak średnio odchylają się obserwacje od średniej.

"ŚREDNIE", "ODCHYLENIE", "BEZWZGLĘDNE" | Rozpracujmy po kolei użyte słowa. Jeśli słyszysz słowo “średnie”, wiedz, że gdzieś pojawi się dzielenie przez liczbę obserwacji. "Odchylenie" oznacza, że będziemy badać różnice między każdą wartością a średnią arytmetyczną. "Bezwzględne" oznacza, że skupimy się tylko i wyłącznie na wielkości tej różnicy, a nie na jej znaku. Co to znaczy? Zobacz - wartości w próbie są czasem niższe od średniej, czasem wyższe, a czasem jej równe. Stąd, niektóre różnice są dodatnie, inne - ujemne, a gdy wartość obserwacji jest dokładnie równa średniej, to różnica wynosi zero.

Gdy mamy do czynienia ze zbiorem 1, 2, 3, 4, 5, gdzie średnia x̄ wynosi 3 to odchylenie wartości 1 oraz oraz wartości 2 od średniej jest ujemne i wynosi odpowiednio -2 oraz -1, zaś wartości 4 i 5 mają odchylenia dodatnie, które wynoszą odpowiednio 1 oraz 2. Wartość 3 jest równa średniej, stąd odchylenie jest równe 0. Podsumowując, odchylenia od średniej w badanym zbiorze wynoszą kolejno -2, -1, 0, 1, 2. Gdy zajmujemy się odchyleniami bezwzględnymi, to są one tylko dodatnie. W zbiorze {1, 2, 3, 4, 5} wynoszą one: 2, 1, 0, 1, 2. Ten zabieg pozwala rozwiązać problem zerowania się odchyleń obserwacji od średniej.

Średnie odchylenie bezwzględne to po prostu średnia arytmetyczna bezwzględnych odchyleń. 2 + 1 + 0 + 1 + 2 = 6. Zaś 6 dzielimy przez liczbę obserwacji czyli 5, więc MAD = 1.20.

Średnie odchylenie bezwzględne, MAD, to tak naprawdę ta miara, którą mamy na myśli, gdy mówimy frazę "średnio wartości odchylają się od średniej arytmetycznej" - choć zazwyczaj ona pada przy kolejnej mierze rozproszenie, przy odchyleniu standardowym.

Pomysł na niepożądane zerowanie się odchyleń obserwacji od średniej w tej mierze, MAD, polegał na wartościach bezwzględnych odchyleń, na pomijaniu znaku tej różnicy. A co takiego wymyślono w najpopularniejszej mierze rozproszenia, jaką jest odchylenie standardowe?

Odchylenie standardowe i wariancja

OZNACZENIE | Zapis odchylenia standardowego różni w zależności od tego, czy mamy na myśli odchylenie w próbie, czy w populacji. Jeśli w próbie, to oznaczane w próbie literą s, zaś w populacji grecką σ /sigma/. Niekiedy również na odchylenie standardowe stosuje się zapis SD - skrót od angielskiej nazwy tej miary, standard deviation. Widzimy tu wyraźnie dwie formy organizacji jednostek - próbę i populację. Odchylenie standardowe można obliczyć zarówno w próbie, jak i w populacji, stąd to pierwsze, czyli odchylenie w próbie s jest estymatorem tego drugiego, sigmy, czyli odchylenia standardowego w populacji σ.

W konstrukcji odchylenia standardowego problem zerowania się odchyleń rozwiązano nie poprzez obcinanie minusów (jak w MAD), a poprzez potęgowanie. Każde odchylenie obserwacji od średniej, czyli każda różnica między nimi, jest podniesiona do kwadratu i dopiero po tym następuje sumowanie, przez co proces zyskuje nazwę sumy kwadratów (ang. sum of the squares). Ta idea - sum kwadratów - jest bardzo ważna i leży w mechanizmie często używanej techniki jaką jest analiza wariancji. Poczytać o niej możesz tu: KLIK.

Potęgowanie jest formą ważenia udziału obserwacji w ostatecznym wyniku odchylenia standardowego. Te obserwacje, które niewiele różnią się od średniej i mają małe odchylenie od niej, mają jeszcze mniejszy wkład, a te, które leżą dalej - jeszcze większy. Jeśli wartość obserwacji wynosi 165.5 cm, a średnia wynosi 165, to odchylenie wynoszące 0.5 cm ma wkład 0.5 · 0.5 = 0.25. Gdy wynosi 160, to odchylenie wynoszące 5 cm ma wkład 5 · 5 = 25 - znacznie większe. Wygląda na to, że odchylenie standardowe premiuje bycie nieprzeciętnym, odstawanie od średniej.

Odchylenie standardowe zachowuje się przyzwoicie jak na miarę zmienności. Zgodnie z oczekiwaniami, jeśli wszystkie obserwacje są sobie równe, to brak w nich zmienności. Jednocześnie są równe średniej arytmetycznej, dlatego odchylenie standardowe jest równe 0. Im większe rozproszenie obserwacji wokół średniej - tym większe odchylenie standardowe. A kiedy odchylenie standardowe jest małe lub duże?

MAŁE i DUŻE SD | To pytanie nie jest łatwe. Niestety, nie ma jakiejś rozmiarówki, która powiedziałaby, że SD = 5 to dużo, a SD = 0.5 to mało. Określenie tego, jak duże jest odchylenie standardowe, wymaga uwzględnienia czegoś więcej niż tylko sama wartość odchylenia standardowego. Tym razem, to statystyk może powiedzieć “to zależy”. A od czego może zależeć? Od samego zakresu wartości. Gdy odchylenie standardowe jest prawie równe rozstępowi, to jest to informacja o tym, że wartości wypełniają ten przedział. Jeśli w jakimś badaniu wyniki kwestionariusza samooceny RSES mają rozstęp od 4 do 9, a odchylenie standardowe wynosi SD = 3, to oznacza to spory rozrzut w wynikach. Oprócz tego, ważna jest też relacja między odchyleniem standardowym a średnią arytmetyczną. Otóż SD = 1 ma zupełnie inną wagę, gdy rozpatrujemy zbiór obserwacji, w którym średnia wynosi 0, a inny - gdy np. 20.

DLACZEGO ODCHYLENIE STANDARDOWE TAK SIĘ NAZYWA? | Oczywiście, słowo “odchylenie” wzięło się od różnic między obserwacją o średnią. Odchylenie standardowe bada przecież średni rozrzut wyników wokół średniej, ale co w nim jest takiego standardowego? Istnieją dwie propozycje, które na szczęście wcale nie wykluczają się.

Słowo “standaryzacja” oznacza podzielenie przez coś. Odchylenie standardowe zawiera element dzielenia przez liczbę obserwacji pomniejszoną o jeden, n - 1. Dzięki temu uwzględnia się liczebność próby. Wiadomo, że suma odchyleń od średniej w większym zbiorze danych będzie większa niż w mniejszym zbiorze.

Druga etymologiczna propozycja wywodzi pochodzenie tego pojęcia od samego Karla Pearsona, zresztą twórcy odchylenia standardowego (na zdjęciu po prawej stronie). Otóż, Pearson zaproponował “standard deviation” jako zwyczajową miarę zmienności wyników, czyli tę, po którą powinniśmy domyślnie sięgać. W tamtym czasie stosowano inne miary modulus oraz tzw. prawdopodobny błąd. Robił się przez to bałagan, bo jeśli dane zjawisko mierzy się różnymi sposobami, to trudno łatwo i szybko porównywać wyniki. Stąd określenie “standardowe”, które w tym przypadku jest synonimem słowa “domyślne”.

Jeśli ktoś nie chce stosować nazwy “odchylenie standardowe” może zawsze posłużyć się technicznym odpowiednikiem. Zanim je poznamy, warto przypomnieć sobie, że w języku statystyki słowo błąd oznacza rozbieżność, odchylenie. Zatem, odchylenie standardowe bywało również nazywane root mean square error - pierwiastek średniego błędu kwadratowego. Nic więc dziwnego, że od tego potworka lepszą nazwą jest “odchylenie standardowego”.

WARIANCJA | Obok odchylenia standardowego mówi się jeszcze o wariancji (ang. variance). Oba konstrukty są ze sobą spokrewnione na tyle blisko, że łączy je bardzo silny, arytmetyczny związek, który pozwala wyznaczyć odchylenie standardowe na podstawie wariancji - i na odwrót. Odchylenie standardowe to pierwiastek z wariancji. Jeśli odchylenie standardowe wynosi 2, to wariancja 4. Jeśli wariancja wynosi 9, to odchylenie standardowe wynosi 3. To jednocześnie oznacza, że wariancja jest kwadratem odchylenia standardowego. A jeśli jest kwadratem wartości liczbowej, to również jednostki, w jakich dokonano pomiaru, np. centymetry, kilogramy, sekundy, itd.

KWADRAT JEDNOSTKI POMIARU | Wariancja podnosi jednostkę pomiaru do kwadratu. Gdy SD wynosi 2 cm, to wariancja 4 cm2. Niestety, wzrost w centymetrach kwadratowych nie jest czymś, co ułatwia interpretację, dlatego chętniej niż wariancją badacze częściej posługują się odchyleniem standardowym. Z uwagi na łatwość w interpretacji powstał taki podział, że praktycy stosują odchylenie standardowe, a osoby związane z probabilistyką, którą są zainteresowane matematycznymi własnościami jakiejś zmiennej czy miary używają wariancji.


Rozstęp, IQR, MAD i SD w działaniu

Przeanalizujmy zachowanie poszczególnych miar rozproszenia na przykładzie kilku zbiorów: A, B, C i D. Oto ich zawartość:

A = {3, 3, 3, 3, 3}
B = {1, 2, 3, 4, 5}
C = {1, 1, 3, 5, 5}
D = {1, 1, ,1 ,1, 5}

Pomyślmy o tych zbiorach i liczbach jak o uczniach oraz ocenach z jakiegoś przedmiotu. Zastanów się, ile wynosi średnia arytmetyczna każdego z nich.

Porozmawiajmy najpierw o wnioskach, jakie można wysnuć na podstawie wartości tych zbiorów. Z pewnością uczeń A, który ma same tróje, nie jest wybitnym uczniem, ale nie można mu odmówić tego, że pracuje naprawdę bardzo stabilnie - w jego ocenach brak zmienności, ponieważ zawsze dostaje to samo. Z kolei uczeń B jest niestabilny - co sprawdzian, to inna ocena. Uczeń C jest nieprzewidywalny - albo bardzo dobrze, albo bardzo źle. Uczeń D, choć najgorszy ze wszystkich, byłby prawie tak stabilny jak uczeń A, gdyby nie jedna bardzo dobra ocena (może ściągał?). 
Teraz policzymy wszystkie omówione miary: rozstęp, rozstęp międzykwartylowy IQR, średni błąd absolutny MAD oraz odchylenie standardowe SD i sprawdzimy, co one mówią o tych czterech zbiorach pod kątem zmienności.

Co można zaobserwować?
1. rozstęp zbiorów B, C i D wynosi tyle samo, choć są to bardzo różni uczniowie. 
2. na zdrowy rozsądek największe zróżnicowanie ma zbiór B, w którym każda wartość jest inna, ale to największym zróżnicowaniem zbiór C, który ma dwie mody (są to wartości 1 i 5) ma największe IQR, największe MAD i największe odchylenie standardowe.
3. jeśli w zbiorze D potraktować wartość 5 jako obserwację odstającą, to widzimy jak duży może być jej wpływ. Bez niej SD wynosiłoby zero.

Ten przykład ma pokazać kilka rzeczy. Po pierwsze, miara tendencji centralnej nie wystarczy do scharakteryzowania zbioru. We wszystkich zbiorach średnia wynosi tyle samo, x̄ = 3, a jednak zbiory znacznie różnią się między sobą. Po drugie, miary rozproszenia koncentrują się na różnych aspektach zmienności, co powoduje, że względem jednej miary zbiory wyglądają rak samo (np. zbiór A i D pod względem IQR są takie same), a względem innej - zupełnie inaczej (np. zbiór A i D pod względem rozstępu). Po trzecie, dopiero wówczas, gdy wiemy, na czym polegają poszczególne wskaźniki możemy wybrać najlepszą miarę charakteryzującą zmienność w danym zbiorze.

🏁 PODSUMOWANIE | Kilka informacji o miarach rozproszenia do zapamiętania:

➡️ Rozstęp, rozstęp międzykwartylowy IQR, średni błąd absolutny MAD i odchylenie standardowe SD to miary obliczane dla zmiennych ilościowych.
➡️ Każda z miar rozproszenia informuje o stopniu zmienności obserwacji, ale co innego bierze pod uwagę, mierząc tę zmienność.
➡️ Nie ma miary dobrej na wszystko. Każda ma swoje zalety i wady, dlatego rozumienie ich mechaniki ułatwia interpretację.

3 komentarze:

Anonimowy pisze...

Witaj,
w akapicie informującym o tym, jak interpretować odchylenie standardowe wkradł się mały błąd w opisie przedziału

Lilianna Jarmakowska-Kostrzanowska pisze...

Cześć, Anonimowy :-) Poprawiłam, sprawdź czy o to chodziło? Brak połówki w przedziale <- nooo, czasami brak połówki to duży problem :-)

Anonimowy pisze...

Przyznam ze czytam Twoje opisy jednym tchem, tak prosto I ciekawie jest wyjasnione :)

Bede czekal na nowe info na Twoim blogu.



W powyzszych przykladach pojawil sie chochlik w odchyleniach standardowych, ktore powinny wynosic odpowiednio dla zbiorow:

A: 50
B: 0
C: 2.16

Z pozdrowieniami
AB