Miary rozproszenia.

Analizowanie zebranej próby obserwacja po obserwacji byłoby czasochłonne, żmudne, zasobożerne i nieefektywne. Nudne, bezsensowne i jałowe. A i tak ślizgalibyśmy się cały czas po powierzchni. Mam nadzieję, że tym samym jasne stało się dla Was, co czeka badacza który wiersz po wierszu chciałby dowiedzieć się czegoś o badanej cesze w zebranej populacji. Przydałaby się jakaś maszynka, do której włożylibyśmy próbę, a która wyplułaby informację zawartą w próbie - bez konieczności oglądania każdej obserwacji z osobna. Właśnie po to są różne miary, nie tylko tendencji centralnej. Są najczęściej pojedyncze liczby, które agregują informację o cesze z całej próby. Liczby te nazywamy statystykami opisowymi i można je podzielić na cztery grupy - miary tendencji centralnej, miary rozproszenia i miary kształtu. Ten post jest o drugiej grupie - miarach rozproszenia.

W tym poście dowiesz się:
- co to są miary rozproszenia?
- przykład trzech zbiorów o zróżnicowanych miarach rozproszenia?
- rozstęp
- odchylenie standardowe σ oraz wariancja σ2
- po czym nastąpi: ciąg dalszy przykładu
- rozstęp międzykwartylowy
- jak interpretować odchylenie standardowe σ? Przedział typowych wartości
- co to jest współczynnik zmienności?
- na koniec kiedy możesz obliczyć odchylenie standardowe i czy to jest to samo, co błąd standardowy?


To nie będzie żart - to ilustracja:
W gabinecie u lekarza.
- Pani wynik badania alfa-beta-gammowego wynosi 17.38.
- Ależ, pani doktor, nic mi to nie mówi...
- No cóż, na szczęście mieści się Pani w typowych wynikach, tj. między 12.34 i 21.43.

Jak widzicie z tego krótkiego przykładu, pojedyncza liczba niewiele mówi o próbie.


Są próby, które mają tylko jedną wartość. Na przykład w grupie dwudziestolatków liczącej N=100, wszystkie obserwacje mają w kolumnie (oznaczającej zmienną) „Wiek” wpisaną liczbę „20”. Ale są też takie próby – i te są bardziej interesujące – których wartości zmiennej mają różne wartości. A więc są rozproszone. Dobrze byłoby móc przekazywać taką informację.



Miary rozproszenia są to taka grupa parametrów, które "mówią", jak układają się wyniki - najczęściej jak układają się wokół średniej. W psychologii najczęściej spotykane są: odchylenie standardowe/wariancja oraz rozstęp. Inna nazwa, pod jaką funkcjonują, to miary zmienności, ewentualnie miary wariancji (ale to niezręczność językowa).


Przykład - trzy zbiory.
Zaczniemy od przykładu. Poniżej wypisałam trzy zbiory. Załóżmy, że są to wyniki kolokwium z pewnego przedmiotu przeprowadzonego w trzech grupach studentów.
A={0,0,0,100,100,100}
B={50,50,50,50,50,50}
C={47,48,49,51,52,53}
Choć średnia w każdym z tych zbiorów wynosi 50, to na pierwszy rzut oka widać, jak bardzo te trzy zbiory różnią się. Aby krótko przekazać informację o rozproszeniu obserwacji, podajemy jedną z miar.



Rozstęp.
Jest to po prostu rozpiętość między obserwacjami, a dokładniej różnica pomiędzy wartością największą a najmniejszą. Kolejno w zbiorach z przykładu rozstęp wynosi: 100-0 = 100, 50-50 = 0, 53-47 = 5.
Rozstęp, podobnie jak parametr położenia zwany modą, ma tę zaletę, że łatwo go wyliczyć (trzeba znać jedynie odejmowanie - znacie to? znacie?), ale niestety, traktuje próbę bardzo powierzchownie.



Odchylenie standardowe σ oraz wariancja σ2.
Te dwa obiekty są w tym samym punkcie ze względu na to, że można jednym ruchem obliczyć odchylenie standardowe, gdy wiadomo, ile wynosi wariancja (i w drugą stronę). Bo:
Odchylenie standardowe σ to pierwiastek z wariancji σ2
...i dobrze byłoby nie rypnąć się w kolejności.

Dalej będę pisać o odchyleniu standardowym, ale to, co napiszę tyczy się w równym stopniu wariancji.

Dużo lepszym od rozstępu, zarówno pod względem własności probabilistycznych, jak i ilości przenoszonej informacji, jest odchylenie standardowe. To akurat musicie uwierzyć mi na słowo, chyba że chcecie krzaczki. Kolejny plus wynika z tego, że przy policzeniu odchylenia standardowego korzystamy ze wszystkich obserwacji w próbie, a nie tylko z wybranych (np. z dwóch jak przy rozstępie).
Tak samo jak w przypadku średniej, korzystanie ze wszystkich obserwacji w próbie niesie ryzyko uwzględnienia obserwacji bardzo nietypowych. Nie ma na to rady, taki jest koszt obliczania odchylenia standardowego.
Wariancji, czyli σ2, częściej używają probabiliści. Zaś odchylenie standardowe funkcjonuje dobrze poza matematyką. Głównie z uwagi na to, że wariancja wymaga podnoszenia wartości zmiennej losowej do kwadratu, a co za tym idzie i jednostki, w jakiej wyrażonej jest zmienna. Na przykład: często zmienna Wiek jest wyrażona w latach. Dajmy na to, że średnia wieku studenta to 21 lat, a wariacja wynosi 4 lata kwadratowe. Czery lata kwadratowe! Nie wiem, co to są te lata kwadratowe, ale gdy wyciągnę pierwiastek z 4, to otrzymam szukaną informację: wartość odchylenia standardowego wynosi 2 lata. Posłuży to do obliczenia przedziału typowych wartości (niżej).



Ciąg dalszy przykładu.
Wartości odchylenia standardowego σ dla zbiorów A, B i C wynoszą odpowiednio:
- dla zbioru A σ wynosi 1.58;
- dla zbioru B σ wynosi 0 (to dlatego, że nie ma w tym zbiorze żadnego zróżnicowania, wszystkiego obserwacje są takie same)
- dla zbioru C σ wynosi 54.77.
W związku z czym, uzyskaliśmy kolejną, oprócz średniej, informację o tym, jak wygląda próba, bez konieczności analizowania wszystkich obserwacji.



Obok odchylenia standardowego σ i rozstępu jest jeszcze:

Rozstęp międzykwartylowy (interquartile range, IQR).
Aby opowiedzieć, czym jest rozstęp międzykwartylowy, należy najpierw powiedzieć, czym są kwartyle.

KwaRtyle... Kwartyle są to takie obserwacje, które dzielą próbę na cztery, w miarę równe, części. Kwartyle, jak sama nazwa ("kwarta") wskazuje, są cztery. Drugi kwartyl już znamy - jest to mediana. Pierwszy kwartyl to "mediana mediany":), czyli połowa pierwszej połowy próby. Trzeci kwartyl to połowa drugiej połowy próby.

Mamy próbę, układamy elementy od najmniejszego do największego i szatkujemy na cztery równe części. Teraz jeśli od trzeciego kwartyla, czyli konkretnej liczby, odejmiemy pierwszy kwartyl, który jest również pewną liczbą, otrzymamy rozpiętość przedziału zawierającego 50% naszej próby i to jest właśnie rozstęp międzykwartylowy.

Przykład. Nasza próba zawiera takie obserwacje: {0,2,4,1,5,6,2}. Po uporządkowaniu wygląda to tak:{0,1,2,2,4,5,6}. Mediana to środkowa obserwacja, czyli "2". Pierwszy kwartyl to mediana pierwszej połowy, czyli 1. Trzeci kwartyl to mediana drugiej połowy czyli 5. Stąd IQR wynosi 5-1 = 4, słownie:"cztery". Oczywiście, SPSS lub R za nas kalkuluje te wartości.

Serio, zawsze się zastanawiam, czy jest sens zadań rachunkowych na zajęciach ze statystyki. Jeśli masz jakieś z tym przemyślenia, to proszę podziel się ze mną (w komentarzu, albo przez formularz).



Jak interpretować odchylenie standardowe σ? Przedział typowych wartości.

Wartość średnia x̄ podaje, gdzie mniej więcej znajduje się centrum próby. To już wiemy. Natomiast odchylenie standardowe σ opisuje, jak obserwacje układają się wokół tego centrum. Jeśli ktoś mówi, że zmienna Wiek ma średnią 23.5 oraz odchylenie standardowe 1.5, to znaczy, że typowe pod względem zmiennej Wiek obserwacje może znaleźć w przedziale [23.5-1.5. 23+1.5], co daje wynik: [22,25].



Czasami, choć ja jeszcze nie spotkałam się z tym wykonuje się porównanie zmienności w dwóch grupach badanych. Używany jest wtedy:

Współczynnik zmienności, coefficient of variantion (CV).

Aby poradzić sobie z oceną wielkości miary rozproszenia w dwóch grupach badanych (np. eksperymentalna i kontrolna, lub: kobiety i mężczyźni), możemy posłużyć się współczynnikiem wariancji, który jest stosunkiem odchylenia standardowego do średniej.

Tak, jak już napisałam wyżej, jakoś nie zauważyłam specjalnej popularności tego współczynnika w populacji psychologów, ale dobrze wiedzieć, że coś takiego istnieje.

Największy sens, gdy skala jest przedziałowa. Przykład – to są hipotetyczne wyniki: Średni poziom na skali Nieśmiałości wśród kobiet wynosi 21.85, a odchylenie standardowe jest 6.88. Z kolei wśród mężczyzn, średni poziom na skali Nieśmiałości wynosi 24.39 z odchyleniem standardowym 8.18.
Jak porównać te wyniki? Właśnie za pomocą współczynnik zmienności (najwygodniej te współczynniki podać w procentach).

W grupie kobiet wynosi 0.31, czyli 31%, w grupie mężczyzn 0.34, więc 34%. Wniosek, jak widać, większe (choć nieznacznie większe) zróżnicowanie jest wśród mężczyzn niż wśród kobiet.



A jeśli mamy więcej niż jedną zmienną?
W przypadku większej ilości zmiennych, o miarach współzależności poczytaj tutaj: KLIK



Pamiętaj!
- To, czy możesz obliczyć odchylenie standardowe zależy od typu skali pomiarowej. Dla zmiennej „Płeć” nie ma sensu obliczać wariancji, nawet jeśli w kolumnie jest ciąg zer i jedynek.

- Być może już słyszałaś o czymś takim jak błąd standardowy. Otóż, błąd standardowy to coś innego niż odchylenie standardowe. Najprostsza różnica między nimi jest taka: błąd standardowy odnosi się do estymatora a odchylenie standardowe z próby odnosi się do ... próby. To tak w dużym skrócie i tylko po to, aby nie traktować tych pojęć jako synonimy.



Cześć! Dzięki za przeczytanie mojego posta. Przy okazji, mam do Ciebie małą prośbę - siedzę tu, po drugiej stronie monitora i nie widzę, czy podobała Ci się treść artykułu, czy może znużyła, może jest tego za dużo, albo było za długie (opcja TLDR, czyli Too Long Didn't Read). Przygotowałam kilka możliwych reakcji, spójrz niżej - proszę, podziel się swoimi odczuciami, ponieważ nie mam okazji bezpośrednio Ciebie zapytać, a jestem bardzo ciekawa. Przyda mi się to do planowania i pisania kolejnych postów. Jeszcze raz dzięki za uwagę i do zobaczenia :-)

3 komentarze:

Anonimowy pisze...

Witaj,
w akapicie informującym o tym, jak interpretować odchylenie standardowe wkradł się mały błąd w opisie przedziału

Lilianna Jarmakowska-Kostrzanowska pisze...

Cześć, Anonimowy :-) Poprawiłam, sprawdź czy o to chodziło? Brak połówki w przedziale <- nooo, czasami brak połówki to duży problem :-)

Anonimowy pisze...

Przyznam ze czytam Twoje opisy jednym tchem, tak prosto I ciekawie jest wyjasnione :)

Bede czekal na nowe info na Twoim blogu.



W powyzszych przykladach pojawil sie chochlik w odchyleniach standardowych, ktore powinny wynosic odpowiednio dla zbiorow:

A: 50
B: 0
C: 2.16

Z pozdrowieniami
AB