Statystyka klasyczna i bayesowska #storytime

STYCZEŃ 2023| LJK | ~500 słów

PRZED UŻYCIEM TEKSTU PRZECZYTAJ ULOTKĘ LUB ... SKONSULTUJ SIĘ Z AUTOREM — Tekst, który zaraz przeczytasz, jest literacką wersją porównania dwóch szkół statystyki: klasycznej i bayesowskiej. Literacką, więc jego celem jest wzbudzenie ciekawości odbiorcy i oddanie odczuć kogoś, kto przenosi się z jednego sposobu uprawiania statystyki na drugi. Nie jest to typowo podręcznikowe porównanie w tabelce z dwoma kolumnami, więc po ostatniej kropce nie popędzisz od razu robić analizy. Takie posty pojawią się na blogu jakiś czas. Na razie zobacz, jak to jest zmieniać szkołę.


NAPIS NAD WARSZTATEM JEST DUŻY I WYRAŹNY. Zapisano go bezszeryfową czcionką – taką, jaką zwykle używa się, gdy nazwa ma poważnie brzmieć. Ale teraz go nie widać - jest zbyt ciemno i litery giną w mroku. Z ciemności wyłania się Researcher, wchodzi szybkim krokiem do pomieszczenia i od razu zakrywa oczy ręką. Jaskrawo świecące żarówki oślepiają, a to boli. Może dlatego noworodki krzyczą tuż po narodzinach. Zanim oczy przyzwyczają się do światła, mija kilka sekund. Wreszcie powoli wyłaniają się jakieś kształty. Researcher rozgląda się. Warsztat jak warsztat. Jest stół, są narzędzia. Półki wypełnione papierzyskami. Szafy, szuflady i szafki. Wszystko wygląda tak samo, a jakby inaczej.

Gdyby to był jego warsztat, dane – całe naręcza danych – leżałyby przy blacie najbardziej oświetlonego stołu. Na blacie stałaby maszyna, która u góry ma okrągły, plastikowy wsyp, a z tyłu wylot wytworzonego z danych produktu. Z boku ma też wąską szczelinę, w którą wkłada się specjalną matrycę - wzornik pokazujący, jak dane powinny układać się zgodnie z taką czy inną hipotezą. W warsztatach jego typu najczęściej używa się matrycy hipotezy zerowej, która pokazuje układ danych, gdy tylko działa tylko przypadek. Gdy z maszyny wyleci produkt, bierze się takie narzędzie podobne do licznika Geigera i ogląda jak częsty jest to okaz. Ale jego warsztatem napisano ”statystyka klasyczna”. Ten tutaj to warsztat statystyki bayesowskiej.

Wszystko jest tutaj inne. Dane znajdują się w takim samym kontenerze, ale główny blat stołu zajmuje inna maszyna z innymi pokrętłami i jedną dużą korbą. Ilustrowana instrukcja, taka jak z IKEA, pokazuje mechanizm działania maszyny. Z lewej strony znajduje się płytka. Teraz jest pusta. Korbą kręci się, tak aby to, co będzie na płytce wsunęło się do środka maszyny. Następnie zwalnia się przycisk wstrzymujący dane wsypane od góry i z prawej strony wysuwa się płytka, na której leży jakiś poładowany kształt, jakby ulepiony z gliny. Rozkład a priori – odczytuje Researcher.

To, co ma znaleźć się na lewej płytce w ogromnych ilościach leży w szklanych szafach przy biurku. Opis na drzwiach łatwo odczytać – rozkład a priori, uprzednia wiedza badacza. W przezroczystych pojemnikach znajduje się plastyczny materiał, z którym maszyna syntetyzuje dane – rozumuje Researcher i sięga po jeden z pojemników. Wszystkie opatrzono etykietami: informative prior, Gaussian prior. Researcher niby zna niektóre pojęcia, ale do tej pory inaczej z nimi postępował. Na przykład taki Gaussian oznacza rozkład gaussowski, normalny. Cecha miała rozkład normalny, gdy w populacji jej wyniki układały się w pewien szczególny sposób: tych blisko średniej było najwięcej, a im dalej od średniej, tym rzadziej. Nie trzeba go było modyfikować. Dziwne – myśli Researcher. Na jednej półce stoi samotnie pojedyncze pudełko – uniform prior, rozkład jednostajny, wszystkie wartości mają jednakową szansę przytrafienia się. Ach, to w czymś takim Laplace zaklął niewiedzę czy też ignorancję badacza. Researcher chwilę obraca je w palcach i delikatnie odstawia na miejsce.

Zaraz, zaraz – gwałtownie odwraca głowę w kierunku głównego stołu. - A gdzie w tym warsztacie jest signifikantometr, istotnościomierz? Który przyrząd służy do pomiaru istotności statystycznej wyniku? Przegląda jeszcze raz wszystkie narzędzia, przeszukuje szuflady, nie zwracając na to, że grzebie w cudzym. To niemożliwe – stwierdza ze zdziwieniem. – W warsztacie statystyki bayesowskiej nie ma istotności statystycznej.

Lęk przed odłączeniem, FoMO - polska adaptacja kwestionariusza

STYCZEŃ 2023| LJK | ~150 słów

LĘK PRZED ODŁĄCZENIEM (Fear of missing out, FoMO) to obawa przed tym, że inni właśnie w tym momencie doświadczają lepszych chwil niż Ty. FoMO ma szereg konsekwencji psychologicznych, zwykle niezbyt dobrych, np. wieczne siedzenie z telefonem w ręku i skrolowanie Fejsbuka. Aby prowadzić dobre badania nad FoMO należy mieć dobre narzędzie do jego pomiaru... no, właśnie - i dlatego pracujemy nad polską adaptacją kwestionariusza mierzącego poziom FoMO. Kwestionariusz już istnieje, ale w anglojęzycznej wersji. Teraz trzeba przenieść go na warunki polskie. Trafność, rzetelność. Studenci psychologii po wykładzie z psychometrii będą wiedzieć, o co chodzi.
Gdyby każdy, kto czyta tego bloga, wziął udział w moim badaniu, zbieranych danych zajęłoby mi jeden dzień.
Badanie składa się z trzech części, zawierających w sumie 49 pozycji. Zwykle są to krótkie zdania, do których należy się ustosunkować za pomocą typowej w badaniach psychologicznych skali od zdecydowanie nie zgadzam się do zdecydowanie zgadzam się - rzecz jasna, poza płcią. Jeśli masz kilka minut wolnego czasu i chcesz mi pomóc, kliknij w ten LINK.

 

Diagnostyka normalności: Liczby i rysunki

Rozkład normalny to podstawowy rozkład w statystyce. Mówimy, że taka-to-a-taka cecha ma rozkład normalny. Że założenia testów różnych testów statystycznych: testu t-Studenta oraz analizy wariancji ANOVA wymagają rozkładu normalnego. Że model jest dobry, gdy rozkład błędów jest normalny. Skąd jednak badacz ma wiedzieć, czy zebrane przez niego liczbowe wartości zmiennej układają się zgodnie z krzywą Gaussa? W tym poście piszę, jak należy sprawdzać, czy cecha w zebranej przez Ciebie próbie może mieć rozkład zbliżony do normalnego. Jeśli chcesz przejść od razu do narzędzi, kliknij tutaj: KLIK.

SPIS TREŚCI:

WPROWADZENIE — W każdej dziedzinie jest zbiór pojęć rozpoznawanych poza nią. W psychologii jest to np. procesy poznawcze. W statystyce takim pojęciem funkcjonującym w zbiorowej świadomości jest rozkład normalny łatwo zapamiętywalny ze względu na charakterystyczny, dzwonowaty kształt. Wiele lat temu uważano, że rozkład normalny stanowił dobry model zjawisk społecznych. Obecnie odchodzi się od tego myślenia, ale nie zmienia to jego popularności, zwłaszcza że analizy, jakie wykorzystują badacze, opierają się na tym rozkładzie. Więcej informacji na temat rozkładu normalnego znajdziesz w poście  KLIK. Tutaj ograniczymy się do tylko części potrzebnej do zrozumienia, jak działają narzędzia diagnostyczne służące do - jak sama wskazuje - diagnozy tego, czy badana cecha ma rozkład normalny. Takie zadanie często stoi przed badaczem i najprawdopodobniej szukałby on jakiegoś testu statystycznego. Wiadmo, jak statystyka, to testy. Badacze mają nawyk testowania wszystkiego w dobrym i złym tego słowa znaczeniu, więc nic dziwnego, że jako pierwsze przychodzą do głowy testy statystyczne. Istnieją jednak inne nie-testowe metody oceny normalności rozkładu — i o tym jest ten post.

DIAGNOSTYKA NORMALNOŚCI A TYP POMIARU — Narzędzia służące do oceny normalności rozkładu stosujemy tylko i wyłącznie wtedy, gdy wiemy, że mierzona przez nas zmienna czy badana cecha ma najwyższy w skali Stevensa, ilościowy typ pomiaru, np. jest to czas reakcji, wiek, długość, szerokość. Często przyjmuje się, że wyniki ogólne w kwestionariuszach również charakteryzują się tym typem pomiaru. Chodzi o to, że narzędzia, jakie zaraz poznasz, działają dla tych zmiennych, których wartości reprezentują matematycznie rozumiane liczby. Liczby, które można dodawać, mnożyć, dzielić, a nie "liczby" ujęte w cudzysłów, bardziej znaki graficzne, jak dla zmiennej nominalnej albo porządek jak dla zmiennej porządkowej. Rozkład normalny mogą posiadać jedynie zmienne ilościowe. Nie badamy normalności dla płci (kobieta, mężczyzna, niebinarna) czy wykształcenia (mierzonego kategoriami: podstawowe, średnie, wyższe)

CZY ISTNIEJE JEDEN ROZKŁAD NORMALNY? Patrząc na powyższy rysunek, widzimy tylko jeden z możliwych rozkładów normalnych. Taki, który ma parametry 0 i 1. Kreskowaną linią zaznaczono szczyt tej krzywej, który jednocześnie jest średnią. Ponieważ zamiast zera i jedynki może stać tutaj absolutnie dowolna liczba rzeczywista, to rozkładów, o których można powiedzieć, że są normalne, jest nieskończenie wiele. Dlaczego jest ich nieskończenie wiele, a jakby jeden? Wszystkie łączy ten sam wzór ogólny. Posiadając wspólną matematyczną formułę, tworzą jedną rodzinę. Jedyne, co się w niej zmienia, to drobiazgi zwane parametrami - to co na rysunku jest zerem i jedynką. Ogólny wzór pozwala narysować krzywą Gaussa przypominającą dzwon (choć czasem trudno go zobaczyć).

Na podobnej zasadzie działa funkcja liniowa np. y = x + 2 lub y = -x - 1.



W każdym wzorze zamiast jedynek i dwójek mogłaby stać dowolna inna liczba, a i tak nadal byłaby to funkcja liniowa z wykresem w postaci linii prostej. Wszystkie spełniają tzw. ogólny wzór postaci: y = a*x+b. Podobnie, rozkłady normalne mają jeden wspólny wzór, choć nieco bardziej skomplikowany niż ten na funkcję liniową. Widzisz go w górnym lewym rogu poniższej ilustracji:


Rozkład, którego rysunek widzisz, jest jednym z wielu rozkładów normalnych, ale jest to charakterystyczny członek tej rodziny - tzw. rozkład standardowy normalny N(0,1), gdzie zero to pierwszy parametr zwany średnią, a jeden to drugi parametr zwany odchyleniem standardowym.

Wspólny wzór powoduje, że mimo różnic w wyglądzie, członkowie rodziny rozkładów normalnych dzielą podobne własności i to właśnie wykorzystują narzędzia diagnostyczne. Rozsądne byłoby pomyśleć tak: jeśli oczekujemy, aby badana cecha (lub szerzej - zmienna) miała rozkład normalny, to powinna się w rozsądnym stopniu wykazywać tymi właściwościami.

Na przykład, jeśli chcesz sprawdzić, czy masz do czynienia z psem, to sprawdzasz, czy dany obiekt szczeka, ma ogon i chodzi na czterech łapach (lub w odwrotnej kolejności). Wszystkie nieuszkodzone psy mają te właściwości.

NARZĘDZIA DIAGNOSTYCZNE — Narzędzia diagnostyczne dzielą się na liczbowe i na graficzne. Te pierwsze po prostu liczby, a profesjonalnie rzecz mówiąc: statystyki opisowe. Te drugie to wykresy. O ile wskazanie teoretycznych wartości statystyk liczbowych nie jest trudne, problemem staje się to, jak pokazać działanie empirycznych narzędzi na teoretycznym tworze, jakim jest rozkład normalny. Poradzimy sobie, stosując mały trik. Skoro przyjmuje się, że rozkład teoretyczny jakieś cechy to rozkład w całej populacji, to weźmiemy przeogromną próbę i na takiej zbadamy zachowanie narzędzi. W ten sposób będziemy mogli zbliżyć się do teoretycznego rozkładu normalnego i jednocześnie poznać narzędzia diagnostyczne.
Oto lista narzędzi wraz z omówieniem ich zachowania wśród rozkładów teoretycznych (niżej jest lista z omówieniem zachowania w próbie)

  • STATYSTYKI OPISOWE
    • skośność - miara asymetrii rozkładu. Rozkład normalny ma zerową skośność. Więcej na ten temat znajdziesz w poście: KLIK
    • kurtoza - miara koncentracji i obecności obserwacji odstających. Rozkład normalny ma zerową kurtozę. Więcej na ten temat znajdziesz w poście: KLIK
  • WYKRESY
    • histogram — wykres pokazujący ogólny kształt rozkładu poprzez zestaw prostokątów, których szerokość to przedział liczbowy, a wysokość to liczba obserwacji, które znalazły się w tym przedziale. Więcej o histogramie: KLIK. Mimo tego, że rozkładu teoretycznego nie przedstawia się za pomocą histogramu, a za pomocą gładkiej linii reprezentującą gęstość lub kropek reprezentujących funkcję prawdopodobieństwa (mówimy o teoretycznych sprawach), to przeogromna próba będzie substytutem populacji. Powinna się wpasowywać w krzywą Gaussa.
    • wykres skrzynkowy (boksplot) - wykres, pokazujący jeden prostokąt z wąsami. Rozkład normalny tworzy wykres postaci:
      Jest on symetryczny względem czarnej poziomej linii reprezentującej medianę. Wąsy są w równej odległości od dolnej i górnej krawędzi skrzynki. Rozkład normalny posiada też obserwacje odstające (outliery) - a to ze względu na regułę 3 sigma. Więcej o boxplocie: KLIK
    • wykres kwantylowy wykres przestawiający punkty.
      Na osiach znajdują się kwantyle rozkładu badanej cechy oraz kwantyle rozkładu normalnego. Więcej o wykresie kwantylowym: KLIK

ZACHOWANIE NARZĘDZI W PRÓBIE — Przeanalizujemy teraz każde z narzędzi i omówimy jego zachowanie w próbie. Przechodząc z teorii do empirii, należy pamiętać, że są dwie rzeczy, które mają wpływ na to, że najczęściej jedno z drugim nie zgadza się i powoduje, że nie możemy oczekiwać tych samych wyników w próbie.

LOSOWA ZMIENNOŚĆ — Wiemy, że rozkład normalny ma zerową skośność i zerową kurtozę, a wykresy mają określony wygląd. Czy w związku z tym możemy oczekiwać, że w próbie będzie dokładnie tak samo? Nie. Te wymagania są zbyt idealne, aby pojawiły się w naszym świecie empirycznym. Rozkład normalny jest przecież rozkładem teoretycznym – zerowa skośność i zerowa kurtoza nie wynika z czyjegoś doświadczenia, a z precyzyjnych matematycznych obliczeń. Trzeba jednak pamiętać, że jest to wynik teoretyczny. Oczekiwania, co do tego, co pojawi się w zebranej przez badacza próbie, muszą być łagodniejsze.

Najłatwiej wytłumaczyć to sobie w następujący sposób: gdybyśmy zgromadzili wszystkie osoby (tj. przebadali całą populację) i wówczas policzyli skośność i kurtozę, to powinna ona wynosić zero - zero jest populacji. Ale próba jest tylko wycinkiem populacji i mogą trafić się różne osoby (czyli wchodzi tu losowość wyników), więc trudno liczyć na to, że skośność i kurtoza będzie równa dokładnie zero. Dlatego musimy wykazać się pewną elastycznością w oczekiwaniu, że wartości statystyk opisowych w próbie będą zero. Innymi słowy, musimy zaakceptować pewne niezerowe (choć bliskie zeru) wartości a nie żądać dokładnych zer.

ZNACZENIE WIELKOŚCI PRÓBY — Trudno jednak nie wspomnieć o wadzie tych reguł kciuka - są one sztywne, czyli niezależne od liczby przebadanych osób. A przecież nawet na chłopski rozum, nawet gdy badana zmienna ma rozkład normalny (np. inteligencja), to wzrost liczby badanych powinien powodować zbliżanie się skośności i kurtozy do tej idealnej, zerowej wartości. Podobnie jest z wykresami. To, co uchodzi w małej próbie, nie powinno przytrafi się w dużej.

REGUŁY KCIUKA Z pomocą przychodzą wskazówki, które mówią, jaki przedział niezerowych wartości skośności i kurtozy można dopuścić jako przedział takich wartości, które jeszcze nie powodują uznania, że badany rozkład nie jest rozkładem normalnym. Nazywam je regułami kciuka - powinny sprawdzać się w większości typowych sytuacji, ale nie mają statusu twierdzenia matematycznego. Dla ścisłości, będziemy mówić o próbkowej skośności (teoretyczna wynosi 0) i próbkowej kurtozie (teoretyczna wynosi 0) oraz o empirycznych wykresach. Wszystko dlatego, aby podkreślić, że liczymy statystyki i tworzymy wykresu z udziałem próby, a nie teoretycznych wartości.

NARZĘDZIA DIAGNOSTYCZNE

  • STATYSTYKI OPISOWE
    • skośność — Przedział niezerowych, lecz wciąż akceptowalnych wartości próbkowej skośności to [–1, 1].


    • kurtoza — Przedział niezerowych, lecz wciąż akceptowalnych wartości próbkowej kurtozy jest nieco szerszy niż dla skośności i wynosi [–2,2].


    Jeśli zobaczysz skośność badanej zmiennej w przedziale między minus 1 a 1, to nie odrzucaj od razu normalności rozkładu. Podobnie, jeśli zobaczysz kurtozę badanej zmiennej w przedziale od minus 2 do 2.  To, że skośność wynosi np. 0,56 a nie 0 jeszcze nie oznacza, że rozkład nie może być normalny. Pamiętaj jednak, że ta sama wartość skośności i kurtozy różnie wygląda na tle małej lub dużej próby. Przykładowo, podczas gdy skośność równa 2,01 w próbie liczącej n = 30 osób jest akceptowalna, to w dużej próbie liczącej n = 30 000 osób jest podejrzanie dużym wynikiem.

  • WYKRESY
    • wykres skrzynkowy (boksplot) — wykres skrzynkowy dla małej próby, N = 10, dla umiarkowanej próby, N = 30, oraz dla dużej próby, N = 1000. Wykres dla dziesięciu osób zupełnie nie przypomina wykresu skrzynkowej rozkładu normalnego, a przecież wiemy, że te dziesięć wartości pochodzi z rozkładu normalnego. Przyczyną jest losowa zmienność, która zaciera charakterystyczną strukturę tego wykresu. Dla trzydziestu wartości boksplot jest przynajmniej symetryczny, a najpiękniejszy z nich jest wówczas, gdy zbierzemy wartości od tysiąca osób.
    • histogram — tutaj również pokazane są histogramy dla trzech typów prób: o bardzo małych liczebnościach, N = 10, dla umiarkowanych prób, N = 30 oraz dla prób o dużej liczebności N = 1000. Histogram rozkładu cechy, nawet jeśli wiadomo, że w populacji jest ona gaussowska, w małej próbie jest w ogólnie podobny do dzwonowej krzywej Gaussa. Cechy charakterystyczne histogramu są widoczne dopiero w dużych próbach.
    • wykres kwantylowy — aby badana zmienna posiadała rozkład normalny, punkty powinny układać się na prostej. Tak dzieje się na trzecim wykresie, ale jednocześnie jest to wykres próby bardzo licznej o N = 1000 obserwacji. W mniejszym próbach musimy zrezygnować z takiego oczekiwania.

KONIECZNOŚĆ STOSOWANIA TESTÓW NORMALNOŚCI? — Narzędzia palpacyjne, takie jak powyżej, to inna oprócz formalnych testów statystycznych metoda badania normalności rozkładu zmiennej. Niestety, badacze są przyzwyczajeni do tego, że testy statystyczne to jedyna poprawna opcja. Tymczasem to po pierwsze nieprawda, jak widać na załączonym obrazku, a po drugie - testy statsytyczne same w sobie obarczone są problemami. Zwróćmy uwagę, że nigdzie nie kontrolujemy liczebności próby, posługując się mglistymi stwierdzeniami, że takie-to-a-taki test jest mocniejszy niż inny. Kierowanie się tylko i wyłącznie istotnością statystyczną testu normalności może sprawić, że badacz popełni błąd. Najlepsze rozwiązanie to łączyć obie metody - palpacyjną i formalną.

DIY - czyli zrób Diagnostykę normalności w SPSS 28. Masz niższą wersję? Nie martw się. Różnice w krokach między tą wersją SPSS a pozostałymi są chyba - nomen omen - nieistotne.

1. Zidentyfikuj zmienną, której normalność chcesz badać. Tutaj ta zmienna nazywa się banalnie - po prostu: Cecha. Następnie wybierz Analiza -> Opis statystyczny -> Eksploracja.

2. Przesuń badaną zmienną z lewego, białego okna na prawe, górne o nazwie Zmienne zależne. Dzięki temu SPSS będzie wiedzieć, którą zmienną diagnozujesz.

Klikając przycisk Statystyki, nic szczególnego nie ma do wyboru. SPSS wie, co ma wybrać. Więc pozostaw zaznaczoną opcję Statystyki opisowe i wciśnij Dalej.

4. Kliknij na drugi od góry przycisk Wykresy. Pojawi się nowe okienko. W panelu Wykresy skrzynkowe pozostaw domyślnie zaznaczoną opcję Poziomy czynnika razem. W panelu Opis odznacz Łodyga-i-liście (tym wykresem nie będziemy zajmować się) i zaznacz Histogram. Następnie, zaznacz okienko Wykresy normalności z testami. Mimo tego, że w tym poście nie zajmujemy się testami normalności, to aby uzyskać wykres kwantylowy (qqplot), musimy zaznaczyć wszystko.

Naciśnij Dalej.

5. Gdy wrócisz do głównego okienka, wybierz OK. To już wszystkie polecenia, jakie są nam potrzebne.






PRZYDAŁ SIĘ TEN ARTYKUŁ? LUBISZ TEN BLOG? A MOŻE CHCESZ COŚ ZROBIĆ DLA MNIE? :) Właśnie prowadzę badania nad adaptacją pewnego psychologicznego kwestionariusza. Zbieram odpowiedzi od osób badanych. Ale, nie, nie chcę prosić Cię o wykonanie analiz :) Chcę poprosić Cię o wzięcie udziału i wypełnienie zestawu 49 pytań, które przygotowałam (wraz z moją współpracowniczką, Amelią). Kwestionariusz FoMO dotyczy zjawiska Lęku przed Odłączenie (Fear of missing out, FoMO), czyli lęku przed tym, że inni w tym momencie przeżywają lepsze chwile niż Ty. Skutkuje to byciem przyklejonym do smartfona, skrolowaniem Fejsbuka, sprawdzaniem Messengera, co chwilę, a dalej - poważniejszym problemami niż suchość oczu. Kwestionariusz psychologiczny musi być porządnie przebadanym narzędziem i liczę na to, żę gdy zbiorę i opracuję dane właśnie taki powstanie ze wszystkimi pożądanymi właściwościami, trafnościami, rzetelnościami i innymi homologacjami. TO CO? POMOŻESZ MI? LINK znajdziesz tutaj: KLIK

P-wartość test

Testuję quiz odnośnie p-wartość. Jeśli ktoś ma ochotę wypróbować, to zapraszam:

Hipoteza zerowa i p-wartość: link pomiędzy nimi.

Jak mają się wyniki istotne statystycznie do hipotezy zerowej? Związek między p-wartością a H0 przedstawiam niżej w trzech aktach.

SPIS TREŚCI:

HIPOTEZA ZEROWA Ogólnie można przyjąć, że hipoteza zerowa mówi o braku związku między zmiennymi (na przykład: brak korelacji, brak różnic między grupami, niezależność dwóch zmiennych).

W większości przypadków taka perspektywa sprawdza się - do czasu jak spotykamy testy normalności.

Weźmy konkretny przykład – różnice międzypłciowe w średnim poziomie zarobków. Chodzi o tzw. gender pay gap. To zjawisko z zakresu ekonomii, które polega na tym, że średni poziom zarobków mężczyzn jest wyższy niż średni poziom zarobków kobiet. Mężczyźni zarabiają więcej niż kobiety na całym świecie. Nie jest to coś, co cieszy, ale badania pokazują, że istnieje w wielu krajach. Dla przykładu, powiedzmy, że chcielibyśmy sprawdzić, jak to jest w Polsce. Mamy zatem dwie kategorie (kobieta/mężczyzna) i zmienną ilościową (wynagrodzenie w złotówkach) – zatem test t-Studenta. Ponadto obserwacje są niezależne, bo trudno losowo przydzielić osoby badane do jednej z dwóch kategorii.

Hipoteza zerowa w teście t-Studenta brzmi H0: μ1 = μ2 Jest to ogólny zapis, pasujący do każdego badania spełniającego wyżej nakreślone warunki. Ponieważ nasz przykład odnosi się do luki płacowej to hipoteza zerowa tutaj brzmi: nie ma różnic między kobietami a mężczyznami w średnim wynagrodzeniu. Można ją zapisać symbolicznie H0: μkobiety = μmężczyźni

Gdyby nie było zmienności, sprawa byłaby prosta - różnica między średnimi zawsze wynosiłaby zero - w każdej z prób - niezależnie, kto badałby ją i w jakim miejscu na Ziemi: czy w Polsce, w Szwecji czy w USA. Zatem bardzo ubogi histogram, a raczej hybryda histogramu i wykresu słupkowego i wyglądałaby tak:

W zdaniach powyżej używam trybu przypuszczającego, ponieważ tak wyglądałby świat bez zmienności. Ta zmienność jest charakterystyczną cechą otaczającego świata. Przecież mężczyźni zarabiają różnie – podobnie jak kobiety. Płace różnią się nawet bez podziału na płeć.  To powoduje, że nawet badając to samo zjawisku, otrzymuje się różne wyniki. Różnica między średnimi zarobkami kobiet i mężczyzn w prawie każdej próbie nie będzie równa zero.

I tu jest właśnie rola statystyki – czy z faktu, że na próbie wyszło, że są różnice, to mogę powiedzieć, że w całej populacji również są różnice? Czy jeśli średnia zarobków kobiet w moim badaniu jest niższa niż średnia zarobków mężczyzn, to jednocześnie w populacji średnia kobiet jest niższa niż średnia zarobków mężczyzn?

HIPOTEZA ZEROWA ... I ROZKŁAD STATYSTYKI TESTOWEJ Hipoteza zerowa robi coś więcej niż tylko siedzi i opowiada o braku związku. Jest to przecież hipoteza statystyczna, a każda hipoteza statystyczna tak naprawdę postuluje pewien rozkład wyników. Jakich wyników? Nie surowych, zebranych przez badacza, znajdujących się w wierszach i kolumnach SPSS-a, ale wyników statystyki testowej. Statystyka testowa to sedno każdego testu statystycznego. Jest to wzór, który przekształca surowe dane – mówiąc metaforycznie, wysysa z nich informację potrzebną podczas weryfikacji hipotez.

Hipoteza zerowa mówi, że ponieważ nie ma związku między zmiennymi, to rozkład wartości statystyki testowej jest taki-to-a-taki (dany określony wzorem). Niestety, SPSS nie pokazuje rozkładów statystyk testowych. Skąd wiadomo, jaki jest ten wzór? Cóż, był to problem tego, który opracowywał test. William Gosset musiał się napracować z testem t-Studenta, aby rozkład wartości statystyki testowej swojego testu znaleźć. Dzięki niemu wiadomo, że jeśli tylko nie ma luki płacowej i średnie zarobki mężczyzn i kobiet są równe, to powinniśmy oglądać taki rozkład wartości statystyki testowej:

Ze względu na zmienność, zamiast wykresu z żółtym, długim i cienkim prostokątem mamy właśnie ten - rozkład t-Studenta. Wiemy o nim, że jest symetryczny, ma nieco cięższe ogony niż rozkład normalny, a jego kształtem rządzi liczba stopni swobody (równa N - 2, czyli liczbie osób badanych pomniejszonej o dwa). Rozkład statystyki testowej to częstość pojawiania się wartości statystyki testowej, tej pojedynczej liczby, do której zostały sprowadzone Twoje dane. Ponadto, kształt tego rozkładu jest właśnie taki, jak wyżej, ponieważ przyjęliśmy, że nie ma różnic w płacach.

Teraz – co z tym rozkładem możemy zrobić? Nie są to surowe dane - ani to rozkład płac kobiet, ani rozkład płac mężczyzn. Histogramy wynagrodzeń wśród obu płci wyglądałyby inaczej. Na przykład jest ich dwa (osobno dla każdej z płci) i nie obejmują wartości ujemnych na osi OX. 

Wychodzi na to, że masz do dyspozycji dwa rodzaje rozkładów: jeden rodzaj to rozkład Twoich danych (czyli surowych wyników osób badanych), a drugi to rozkład przekształconych danych (czyli wartości statystyki testowej aktualnie używanego testu statystycznego).

HIPOTEZA ZEROWA, ROZKŁAD STATYSTYKI TESTOWEJ ... I ISTOTNOŚĆ STATYSTYCZNA — W tej części powiążemy hipotezę zerową i istotność statystyczną. Otóż, omówiony w poprzedniej części rozkład wartości statystyki testowej posłuży do obliczenia p-wartości (p-value), czyli tego, co SPSS nazywa się istotnością statystyczną. Jak to się dzieje? Spójrzmy jeszcze raz na rysunek rozkładu statystyki testowej.

To prawie ten sam rysunek z tym, że teraz dołożyłam wartość statystyki testowej, uzyskaną przez badacza w badaniu - wynosi ona nieco poniżej dwa (różowy punkt na osi OX). Chciałoby się wiedzieć, jakie jest prawdopodobieństwo uzyskania tej wartości. Niestety, nie można po prostu odczytać wartości krzywej nad tym punktem i potraktować jej jako prawdopodobieństwo. W matematyce umówiliśmy się, że rozkłady ciągłe mają taką własność, że prawdopodobieństwo konkretnej wartości statystyki testowej (tego, co leży na osi OX) jest równe zero (mimo, że widzisz coś około jednej dziesiątej). To jest wartość gęstości dla wartości statystyki testowej, ale nie jest to równoznaczne z prawdopodobieństwem - trust me, I'm a mathematician. Wobec tego liczymy pola.

Tu oczywiście wchodzi cała kwestia, jak liczyć owe pole - z lewej strony uzyskanej wartości statystyki testowej? z prawej? obustronnie? Czyli tzw. stronność testu. Zostawimy to teraz, ponieważ zajmujemy się relacją między hipotezą zerową a p-wartością/istotnością statystyczną i dla ułatwienia będziemy liczyć pole z jednej strony (z prawej).

Powierzchnia pola zaznaczona na żółto to p-wartość, w SPSS: istotność statystyczna. Im mniejsze pole, tym bardziej istotny statystycznie wynik. Niestety (trzeci raz w tym poście użyte niestety), język nie jest tutaj naszym sprzymierzeńcem. Jeszcze raz: im mniejsza p-wartość, tym większa istotność statystyczna. Kierunek stopniowania jest odwrotny (mniejsza - większa). Wszystko przez traktowanie p-wartości i istotności statystycznej jako synonimów. Ściśle rzecz ujmując, p-wartość to liczba (pole powierzchni.. to żółte), a istotność statystyczna to stan małej powierzchni tego pola. Gdy powierzchnia tego pola nie przekracza 5%, to wynik testu jest istotny statystycznie.

INTERPRETACJA — Podam teraz dwa wyjaśnienia: to, którego używam (także podczas zajęć) oraz drugie, równoważne. Oba wynikają z tekstu Amerykańskiego Towarzystwa Statystycznego na temat interpretacji p-wartości.
- p-wartość mówi o typowości Twojej wartości statystyki testowej. Innymi słowami, mówi o tym, jak typowe są uzyskane przez Ciebie wyniki, zakładając brak zależności. Jeśli p-wartość jest mniejsza niż 5% (pole powierzchni jest mniejsze niż 5%) a wynik jest istotny statystycznie - wówczas dane są nietypowe dla modelu postulowanego przez hipotezę zerową. Gdy człowiek niesie zakrwawiony nóż, to jest to nietypowe zjawisko dla modelu, że ów człowiek jest niewinny.
- p-wartość świadczy przeciwko hipotezie zerowej. Wyjdźmy od tego, że w ogonach rozkładu znajdują się wyniki nietypowe. To tutaj znajdują się takie wartości statystyki testowej, które dadzą istotność statystyczną. Jeśli p-wartość jest mniejsza niż 5% (pole powierzchni jest mniejsze niż 5%) a wynik jest istotny statystycznie - wówczas wynik statystyki testowej świadczy przeciwko hipotezie zerowej. Upraszczając sprawę – zakrwawiony nóż w rękach świadczy przeciwko niewinności człowieka. Jest to duże uproszczenie, bo hipoteza o niewinności ("ten człowiek jest niewinny") nie jest hipotezą statystyczną, a zwykłym zdaniem, ale przykład ma zilustrować owe świadczenie przeciwko hipotezie zerowej. A teraz przeczytaj uwagę niżej.

UWAGA! P-wartość nie jest to ostatecznym, kategorycznym dowodem na fałszywość hipotezy zerowej. Nie pozwala ona podjąć zero-jedynkowej decyzji, co zrobić z H0. To dlatego nie używamy słowa odrzucić (reject). Jedyne, co możemy powiedzieć to to, że uzyskane przez nas dane są mało kompatybilne z tym, co postuluje hipoteza zerowa. Dalej badacz może wykorzystać wiedzę odnośnie testów statystycznych i ich zachowaniu oraz wielkość efektu, aby przekonać się, czy rzeczywiście jego dane coś pokazują. Pomyśl o tym w ten sposób: rzadki wynik jeszcze nie oznacza stuprocentowej pewności. Wracając do przykładu, być może człowiek był uczniem i niósł zakrawiony nóż na przedstawienie szkolne :-)

W żołnierskich słowach: p-wartość, w języku polskim nazywana istotnością statystyczną, to liczba, która świadczy przeciwko hipotezie zerowej. Trzeba jednak pamiętać o tym, że w dużych próbach, istotne statystycznie są również trywialne efekty (korelacje, różnice, itd.), dlatego tak ważne jest obejrzenie wielkości efektu.

Testy parametryczne i nieparametryczne

CZERWIEC 2024| LJK | ~650 słów


Kryteria podziału testów są różne. Testy różnic - i testy związków. Testy kierunkowe - i bezkierunkowe. Istnieje też podział na testy parametryczne i nieparametryczne. Mogłoby się wydawać, że ten podział zależy od treści hipotezy zerowej (czy dotyczy konkretnego parametru, czy też nie), ale sedno podziału tkwi zupełnie gdzieś indziej.


Wprowadzenie

Jak pewnie wiesz, klasyczne testy statystyczne to maszynki do mielenia danych. Jak każda maszynka, do prawidłowego zadziałania wymaga ona materiału odpowiedniej jakości. Po to, aby w ogóle uruchomić się, lub dobrze zadziałać. Testy statystyczne są pod tym względem bardzo podobne. Cyferki, które są bazie są dla takiego testu tym, czym surowy materiał dla maszynki do mielenia mięsa. Jest przeznaczona do mielenia mięsa, ale zmieli też i warzywa. Kamieni już nie zmieli. Podobnie zachowują się testy. Test nie wie, co symbolizują dane, którymi karmi go badacz. Te jedynki i dwójki mogą reprezentować zarówno ilościową zmienną np. liczbę rodzeństwa, albo zmienną jakościową np. płeć. Z tego powodu, zanim uruchomi się test statystyczny, należy sprawdzić czy dane są odpowiedniej jakości. Czy test, który gdzieś wewnątrz mechanizmu oblicza średnią arytmetyczną, otrzyma dane ilościowe - bo tylko taki typ zmiennej uprawnia do zastosowania testu.

Proces sprawdzania jakości danych nazywa się założeniami testu. Założenia różnych testów są siłą rzeczy różne. Mogą być mniej lub bardziej specyficzne. Na przykład test chi-kwadrat wymaga, aby dane miały jakościowy charakter - i to wszystko. Inny znany test, test t-Studenta dla dwóch prób niezależnych (ang. two-sample t-test independent) ma całą listę wymagań - nie tylko wymaga, aby jedna ze zmiennych była ilościowa, ale również żąda, aby wartości tej zmiennej ilościowej pojawiały się zgodnie z częstością rozkładu normalnego (tj. aby rozkład zmiennej był rozkładem normalnym) i to w obu kategoriach zmiennej jakościowej na raz. To z kolei bardzo duże wymaganie. Czym zatem różni się jeden test od drugiego? Przecież nie może chodzić tylko i wyłącznie o liczbę założeń.


Parametryczność i nieparametryczność testu

I tu wchodzi pewien typ podziału testów pod względem oczekiwań wobec danych. Ten podział przebiega wzdłuż tego, czy dany test wymaga, aby rozkład zmiennej (lub zmiennych) był określonej postaci. Pisząc :"określonej postaci", mam na myśli dokładną postać funkcyjną. Nie chodzi tu posiadanie konkretnej własności takiej jak symetria czy jednomodalność (posiadanie jednej mody) a konkretny wzór rozkład łączący wartości zmiennej z szansami ich wystąpienia. Najczęściej możesz spotkać się z rozkładem normalnym, ale to nie jest jedyny opisany rozkład, jest ich całe mnóstwo - eksponencjalny, Pareto, itd.

Poniższa grafika przedstawia kilka popularnych testów statystycznych przydzielonych do jednej z dwóch kategorii


 

W ten sposób testy parametryczne to takie, które żądają, aby rozkłady zmiennych były konkretne, precyzyjnie określone. W przeciwieństwie do nich testy nieparametryczne nie żądają konkretnej postaci rozkładu. Nie znaczy to jednak, w ogóle nie mają żadnych założeń i można do ich maszynek włożyć dane dowolnego typu i kształtu.


Test U Manna-Whitney'a jako przykład testu nieparametrycznego z założeniami

Świetnym przykładem tego, że traktowanie testu nieparametrycznego jako pozbawionego założeń może prowadzić do błędnych wniosków, jest test U-Manna-Whitney'a. Jest to zamiennik testu t-Studenta dla dwóch grup niezależnych, gdy badacz ma wyrzuty sumienia z powodu zastosowania testu pierwszego wyboru. - Masz małą liczebność próby? Zastosuj test U Manna-Whitney'a. - Masz nierównoliczne grupy? Zastosuj test U Manna-Whitney'a. - Problem z normalnością zmiennej? Zastosuj test U Manna-Whitney'a.

W ten sposób badacz uczy się bezwarunkowego odruchu. Nie trzeba dodawać, że w statystyce bezwarunkowe odruchy nie są najlepszymi odruchami. Wszystko dlatego, że test U-Manna-Whitney'a bywa zamiennikiem testu t-Studenta dla dwóch grup niezależnych, o ile stopień rozproszenia danych jest zbliżony (tj. wariancje są homogeniczne). W przeciwnym wypadku odpowiada jedynie na pytanie, czy szansa na zaobserwowanie wyższych wartości zmiennej zależnej z jednej kategorii od wartości tej samej zmiennej z drugiej kategorii jest taka sama jak szansa na zaobserwowanie wyższych wartości (w odwrotnej kolejności kategorii). Ponieważ czuję, że kompletnie nie wychodzi mi słowny opis matematycznego zapisu P(X > Y) = P(X < Y) (a tak dokładnie brzmi hipoteza zerowa tego testu), dla jasności posłużę się przykładem.

Szansa na zaobserwowanie wyższej empatii u kobiet niż u mężczyzn jest taka sama jak szansa na zaobserwowanie wyższej empatii u mężczyzn niż u kobiet - tak brzmiałaby hipoteza zerowa testu U-Manna Whitney'a w badaniach nad związkami empatii i płci. To zupełnie inna para kaloszy niż średnie nasilenie zmiennej empatia u kobiet jest równe średniemu nasileniu zmiennej empatia u mężczyzn.

Wykres kwantylowy (qqplot) [Interpretacja]

Wykres kwantylowy to układ kropek na płaskiej kartce, które w idealnej sytuacji powinny tworzyć prostą. To proste narzędzie świetnie nadaje się do wizualnej oceny tego, czy rozkład Twojej zmiennej jest podobny do dowolnego rozkładu teoretycznego (najczęściej rozkładu normalnego).

SPIS TREŚCI:

KWANTYLE — są wartościami badanej cechy, które dzielą zebrane dane na równe części. Żeby je wyznaczyć, program najpierw porządkuje próbę w kolejności – najczęściej rosnącej. Kwantyle są nazywane miarami pozycyjnymi, ponieważ rekrutują się z uszeregowanych wartości, gdzie liczy się pozycja w kolejce. Dzielą się kwantyle empiryczne (te, które uzyskuje się z próby) oraz teoretyczne (które wynikają z postaci rozkładu danego wzorem matematycznym).

Jeśli zaś pamiętasz to oprócz tego, co otrzymany podczas analizy danych, jest jeszcze cały świat teoretycznych bytów. Są rozkłady empiryczne, czyli takie które otrzymał badacz, oraz rozkłady teoretyczne. Podobnie i kwantyle mają dwie odmiany: empiryczną i teoretyczną. Dwoista natura czyni z nich bardzo dobre narzędzie diagnostyczne do oceny, czy rozkład empiryczny jest podobny do rozkładu teoretycznego – wykres kwantylowy, który wykorzystuje zarówno kwantyle empiryczne, jak i teoretyczne.

Kwantyle teoretyczne to są takie punkty, które wyznaczają kawałek pola zakreślonego między poziomą osią OX a krzywą nazywaną gęstością rozkładu.

CZYM JEST KWANTYL? — Kwantyl dowolnego rzędu p to takie miejsce na osi poziomej OX, na lewo od którego leży p% rozkładu.

Kwantyl rzędu 0,01 oznacza taką wartość cechy, na lewo od której mamy 1% całego pola. I w drugą stronę, kwantyl rzędu 0,15 wynosi -1. Na lewo od -1 znajduje się 15% rozkładu. Wszystko to dzieje się w okolicznościach rozkładu normalnego standardowego.

RZĄD KWANTYLA MIĘDZY ZEREM A JEDNOŚCIĄ - Ponieważ mówimy o polach i o procentach, to rząd kwantyla jest liczbą, która zawiera się tylko i wyłącznie w przedziale od zera do jeden. Nie ma kwantyla rzędu -1. Oznaczałoby to, że szukamy takiej wartości cechy, na lewo od której znajduje się -1 procent pola, a to fizycznie niemożliwe. Powierzchnia pola nie może być ujemną liczbą.

PRZYKŁAD KWANTYLA — Na poniższym rysunku mamy kwantyl pewnego rzędu.

W rozkładzie standardowym normalnym kwantyl rzędu 0,32 wynosi -0,46. Zgodnie z definicją kwantyla na lewo od -0,46 znajduje się 32% rozkładu.

Narysujmy wszystkie kwantyle rozkładu normalnego standardowego:

Kolejność kwantyli i to, w jakiej odległości są od siebie, powoduje, że dla każdego rozkładu jest ten układ niepowtarzalny i funkcjonuje jak linie papilarne, które podobnie jak dla każdego człowieka są niepowtarzalne dla każdego rozkładu. Dzięki temu kwantyle stanowią podstawę dobrego narzędzia diagnostycznego, w którym otrzymany rozkład empiryczny może być porównany do dowolnego teoretycznego rozkładu.

Najczęściej wykres kwantylowy służy do sprawdzenia, czy rozkład otrzymany przez badacza jest rozkładem normalnym, stąd też kwantyle rozkładu normalnego.

Wykres kwantylowy to wykres o dwóch osiach. Na osi poziomej znajdują się zwykle kwantyle empiryczne rozkładu cechy - te, które uzyskałeś lub uzyskałaś w swoim badaniu. Na osi pionowej będą umieszczone kwantyle rozkładu teoretycznego - tego, do którego chcesz porównać uzyskany przez siebie rozkład.

IDEALNY WYKRES KWANTYLOWY – Jeśli wartości zmiennej, której szansami rządzi rozkład normalny powinien wyglądać tak:

Punkty układają się równo wzdłuż prostej. Dzieje się tak, że kwantyle rozkładu normalnego odpowiadają sobie nawzajem. To jednak sytuacja idealna, natomiast w rzeczywistym świecie trudno uchronić się od losowości, więc taki wykres może wyglądać następująco:

Wykres kwantylowy, który wskazuje na znaczne odstępstwa od rozkładu normalnego może wyglądać na przykład tak: