Statystyka klasyczna i bayesowska #storytime

STYCZEŃ 2023| LJK | ~500 słów

PRZED UŻYCIEM TEKSTU PRZECZYTAJ ULOTKĘ LUB ... SKONSULTUJ SIĘ Z AUTOREM — Tekst, który zaraz przeczytasz, jest literacką wersją porównania dwóch szkół statystyki: klasycznej i bayesowskiej. Literacką, więc jego celem jest wzbudzenie ciekawości odbiorcy i oddanie odczuć kogoś, kto przenosi się z jednego sposobu uprawiania statystyki na drugi. Nie jest to typowo podręcznikowe porównanie w tabelce z dwoma kolumnami, więc po ostatniej kropce nie popędzisz od razu robić analizy. Takie posty pojawią się na blogu jakiś czas. Na razie zobacz, jak to jest zmieniać szkołę.


NAPIS NAD WARSZTATEM JEST DUŻY I WYRAŹNY. Zapisano go bezszeryfową czcionką – taką, jaką zwykle używa się, gdy nazwa ma poważnie brzmieć. Ale teraz go nie widać - jest zbyt ciemno i litery giną w mroku. Z ciemności wyłania się Researcher, wchodzi szybkim krokiem do pomieszczenia i od razu zakrywa oczy ręką. Jaskrawo świecące żarówki oślepiają, a to boli. Może dlatego noworodki krzyczą tuż po narodzinach. Zanim oczy przyzwyczają się do światła, mija kilka sekund. Wreszcie powoli wyłaniają się jakieś kształty. Researcher rozgląda się. Warsztat jak warsztat. Jest stół, są narzędzia. Półki wypełnione papierzyskami. Szafy, szuflady i szafki. Wszystko wygląda tak samo, a jakby inaczej.

Gdyby to był jego warsztat, dane – całe naręcza danych – leżałyby przy blacie najbardziej oświetlonego stołu. Na blacie stałaby maszyna, która u góry ma okrągły, plastikowy wsyp, a z tyłu wylot wytworzonego z danych produktu. Z boku ma też wąską szczelinę, w którą wkłada się specjalną matrycę - wzornik pokazujący, jak dane powinny układać się zgodnie z taką czy inną hipotezą. W warsztatach jego typu najczęściej używa się matrycy hipotezy zerowej, która pokazuje układ danych, gdy tylko działa tylko przypadek. Gdy z maszyny wyleci produkt, bierze się takie narzędzie podobne do licznika Geigera i ogląda jak częsty jest to okaz. Ale jego warsztatem napisano ”statystyka klasyczna”. Ten tutaj to warsztat statystyki bayesowskiej.

Wszystko jest tutaj inne. Dane znajdują się w takim samym kontenerze, ale główny blat stołu zajmuje inna maszyna z innymi pokrętłami i jedną dużą korbą. Ilustrowana instrukcja, taka jak z IKEA, pokazuje mechanizm działania maszyny. Z lewej strony znajduje się płytka. Teraz jest pusta. Korbą kręci się, tak aby to, co będzie na płytce wsunęło się do środka maszyny. Następnie zwalnia się przycisk wstrzymujący dane wsypane od góry i z prawej strony wysuwa się płytka, na której leży jakiś poładowany kształt, jakby ulepiony z gliny. Rozkład a priori – odczytuje Researcher.

To, co ma znaleźć się na lewej płytce w ogromnych ilościach leży w szklanych szafach przy biurku. Opis na drzwiach łatwo odczytać – rozkład a priori, uprzednia wiedza badacza. W przezroczystych pojemnikach znajduje się plastyczny materiał, z którym maszyna syntetyzuje dane – rozumuje Researcher i sięga po jeden z pojemników. Wszystkie opatrzono etykietami: informative prior, Gaussian prior. Researcher niby zna niektóre pojęcia, ale do tej pory inaczej z nimi postępował. Na przykład taki Gaussian oznacza rozkład gaussowski, normalny. Cecha miała rozkład normalny, gdy w populacji jej wyniki układały się w pewien szczególny sposób: tych blisko średniej było najwięcej, a im dalej od średniej, tym rzadziej. Nie trzeba go było modyfikować. Dziwne – myśli Researcher. Na jednej półce stoi samotnie pojedyncze pudełko – uniform prior, rozkład jednostajny, wszystkie wartości mają jednakową szansę przytrafienia się. Ach, to w czymś takim Laplace zaklął niewiedzę czy też ignorancję badacza. Researcher chwilę obraca je w palcach i delikatnie odstawia na miejsce.

Zaraz, zaraz – gwałtownie odwraca głowę w kierunku głównego stołu. - A gdzie w tym warsztacie jest signifikantometr, istotnościomierz? Który przyrząd służy do pomiaru istotności statystycznej wyniku? Przegląda jeszcze raz wszystkie narzędzia, przeszukuje szuflady, nie zwracając na to, że grzebie w cudzym. To niemożliwe – stwierdza ze zdziwieniem. – W warsztacie statystyki bayesowskiej nie ma istotności statystycznej.

Lęk przed odłączeniem, FoMO - polska adaptacja kwestionariusza

STYCZEŃ 2023| LJK | ~150 słów

LĘK PRZED ODŁĄCZENIEM (Fear of missing out, FoMO) to obawa przed tym, że inni właśnie w tym momencie doświadczają lepszych chwil niż Ty. FoMO ma szereg konsekwencji psychologicznych, zwykle niezbyt dobrych, np. wieczne siedzenie z telefonem w ręku i skrolowanie Fejsbuka. Aby prowadzić dobre badania nad FoMO należy mieć dobre narzędzie do jego pomiaru... no, właśnie - i dlatego pracujemy nad polską adaptacją kwestionariusza mierzącego poziom FoMO. Kwestionariusz już istnieje, ale w anglojęzycznej wersji. Teraz trzeba przenieść go na warunki polskie. Trafność, rzetelność. Studenci psychologii po wykładzie z psychometrii będą wiedzieć, o co chodzi.
Gdyby każdy, kto czyta tego bloga, wziął udział w moim badaniu, zbieranych danych zajęłoby mi jeden dzień.
Badanie składa się z trzech części, zawierających w sumie 49 pozycji. Zwykle są to krótkie zdania, do których należy się ustosunkować za pomocą typowej w badaniach psychologicznych skali od zdecydowanie nie zgadzam się do zdecydowanie zgadzam się - rzecz jasna, poza płcią. Jeśli masz kilka minut wolnego czasu i chcesz mi pomóc, kliknij w ten LINK.

 

Diagnostyka normalności: Liczby i rysunki

Rozkład normalny to podstawowy rozkład w statystyce. Mówimy, że taka-to-a-taka cecha ma rozkład normalny. Że założenia testów różnych testów statystycznych: testu t-Studenta oraz analizy wariancji ANOVA wymagają rozkładu normalnego. Że model jest dobry, gdy rozkład błędów jest normalny. Skąd jednak badacz ma wiedzieć, czy zebrane przez niego liczbowe wartości zmiennej układają się zgodnie z krzywą Gaussa? W tym poście piszę, jak należy sprawdzać, czy cecha w zebranej przez Ciebie próbie może mieć rozkład zbliżony do normalnego. Jeśli chcesz przejść od razu do narzędzi, kliknij tutaj: KLIK.

SPIS TREŚCI:

WPROWADZENIE — W każdej dziedzinie jest zbiór pojęć rozpoznawanych poza nią. W psychologii jest to np. procesy poznawcze. W statystyce takim pojęciem funkcjonującym w zbiorowej świadomości jest rozkład normalny łatwo zapamiętywalny ze względu na charakterystyczny, dzwonowaty kształt. Wiele lat temu uważano, że rozkład normalny stanowił dobry model zjawisk społecznych. Obecnie odchodzi się od tego myślenia, ale nie zmienia to jego popularności, zwłaszcza że analizy, jakie wykorzystują badacze, opierają się na tym rozkładzie. Więcej informacji na temat rozkładu normalnego znajdziesz w poście  KLIK. Tutaj ograniczymy się do tylko części potrzebnej do zrozumienia, jak działają narzędzia diagnostyczne służące do - jak sama wskazuje - diagnozy tego, czy badana cecha ma rozkład normalny. Takie zadanie często stoi przed badaczem i najprawdopodobniej szukałby on jakiegoś testu statystycznego. Wiadmo, jak statystyka, to testy. Badacze mają nawyk testowania wszystkiego w dobrym i złym tego słowa znaczeniu, więc nic dziwnego, że jako pierwsze przychodzą do głowy testy statystyczne. Istnieją jednak inne nie-testowe metody oceny normalności rozkładu — i o tym jest ten post.

DIAGNOSTYKA NORMALNOŚCI A TYP POMIARU — Narzędzia służące do oceny normalności rozkładu stosujemy tylko i wyłącznie wtedy, gdy wiemy, że mierzona przez nas zmienna czy badana cecha ma najwyższy w skali Stevensa, ilościowy typ pomiaru, np. jest to czas reakcji, wiek, długość, szerokość. Często przyjmuje się, że wyniki ogólne w kwestionariuszach również charakteryzują się tym typem pomiaru. Chodzi o to, że narzędzia, jakie zaraz poznasz, działają dla tych zmiennych, których wartości reprezentują matematycznie rozumiane liczby. Liczby, które można dodawać, mnożyć, dzielić, a nie "liczby" ujęte w cudzysłów, bardziej znaki graficzne, jak dla zmiennej nominalnej albo porządek jak dla zmiennej porządkowej. Rozkład normalny mogą posiadać jedynie zmienne ilościowe. Nie badamy normalności dla płci (kobieta, mężczyzna, niebinarna) czy wykształcenia (mierzonego kategoriami: podstawowe, średnie, wyższe)

CZY ISTNIEJE JEDEN ROZKŁAD NORMALNY? Patrząc na powyższy rysunek, widzimy tylko jeden z możliwych rozkładów normalnych. Taki, który ma parametry 0 i 1. Kreskowaną linią zaznaczono szczyt tej krzywej, który jednocześnie jest średnią. Ponieważ zamiast zera i jedynki może stać tutaj absolutnie dowolna liczba rzeczywista, to rozkładów, o których można powiedzieć, że są normalne, jest nieskończenie wiele. Dlaczego jest ich nieskończenie wiele, a jakby jeden? Wszystkie łączy ten sam wzór ogólny. Posiadając wspólną matematyczną formułę, tworzą jedną rodzinę. Jedyne, co się w niej zmienia, to drobiazgi zwane parametrami - to co na rysunku jest zerem i jedynką. Ogólny wzór pozwala narysować krzywą Gaussa przypominającą dzwon (choć czasem trudno go zobaczyć).

Na podobnej zasadzie działa funkcja liniowa np. y = x + 2 lub y = -x - 1.



W każdym wzorze zamiast jedynek i dwójek mogłaby stać dowolna inna liczba, a i tak nadal byłaby to funkcja liniowa z wykresem w postaci linii prostej. Wszystkie spełniają tzw. ogólny wzór postaci: y = a*x+b. Podobnie, rozkłady normalne mają jeden wspólny wzór, choć nieco bardziej skomplikowany niż ten na funkcję liniową. Widzisz go w górnym lewym rogu poniższej ilustracji:


Rozkład, którego rysunek widzisz, jest jednym z wielu rozkładów normalnych, ale jest to charakterystyczny członek tej rodziny - tzw. rozkład standardowy normalny N(0,1), gdzie zero to pierwszy parametr zwany średnią, a jeden to drugi parametr zwany odchyleniem standardowym.

Wspólny wzór powoduje, że mimo różnic w wyglądzie, członkowie rodziny rozkładów normalnych dzielą podobne własności i to właśnie wykorzystują narzędzia diagnostyczne. Rozsądne byłoby pomyśleć tak: jeśli oczekujemy, aby badana cecha (lub szerzej - zmienna) miała rozkład normalny, to powinna się w rozsądnym stopniu wykazywać tymi właściwościami.

Na przykład, jeśli chcesz sprawdzić, czy masz do czynienia z psem, to sprawdzasz, czy dany obiekt szczeka, ma ogon i chodzi na czterech łapach (lub w odwrotnej kolejności). Wszystkie nieuszkodzone psy mają te właściwości.

NARZĘDZIA DIAGNOSTYCZNE — Narzędzia diagnostyczne dzielą się na liczbowe i na graficzne. Te pierwsze po prostu liczby, a profesjonalnie rzecz mówiąc: statystyki opisowe. Te drugie to wykresy. O ile wskazanie teoretycznych wartości statystyk liczbowych nie jest trudne, problemem staje się to, jak pokazać działanie empirycznych narzędzi na teoretycznym tworze, jakim jest rozkład normalny. Poradzimy sobie, stosując mały trik. Skoro przyjmuje się, że rozkład teoretyczny jakieś cechy to rozkład w całej populacji, to weźmiemy przeogromną próbę i na takiej zbadamy zachowanie narzędzi. W ten sposób będziemy mogli zbliżyć się do teoretycznego rozkładu normalnego i jednocześnie poznać narzędzia diagnostyczne.
Oto lista narzędzi wraz z omówieniem ich zachowania wśród rozkładów teoretycznych (niżej jest lista z omówieniem zachowania w próbie)

  • STATYSTYKI OPISOWE
    • skośność - miara asymetrii rozkładu. Rozkład normalny ma zerową skośność. Więcej na ten temat znajdziesz w poście: KLIK
    • kurtoza - miara koncentracji i obecności obserwacji odstających. Rozkład normalny ma zerową kurtozę. Więcej na ten temat znajdziesz w poście: KLIK
  • WYKRESY
    • histogram — wykres pokazujący ogólny kształt rozkładu poprzez zestaw prostokątów, których szerokość to przedział liczbowy, a wysokość to liczba obserwacji, które znalazły się w tym przedziale. Więcej o histogramie: KLIK. Mimo tego, że rozkładu teoretycznego nie przedstawia się za pomocą histogramu, a za pomocą gładkiej linii reprezentującą gęstość lub kropek reprezentujących funkcję prawdopodobieństwa (mówimy o teoretycznych sprawach), to przeogromna próba będzie substytutem populacji. Powinna się wpasowywać w krzywą Gaussa.
    • wykres skrzynkowy (boksplot) - wykres, pokazujący jeden prostokąt z wąsami. Rozkład normalny tworzy wykres postaci:
      Jest on symetryczny względem czarnej poziomej linii reprezentującej medianę. Wąsy są w równej odległości od dolnej i górnej krawędzi skrzynki. Rozkład normalny posiada też obserwacje odstające (outliery) - a to ze względu na regułę 3 sigma. Więcej o boxplocie: KLIK
    • wykres kwantylowy wykres przestawiający punkty.
      Na osiach znajdują się kwantyle rozkładu badanej cechy oraz kwantyle rozkładu normalnego. Więcej o wykresie kwantylowym: KLIK

ZACHOWANIE NARZĘDZI W PRÓBIE — Przeanalizujemy teraz każde z narzędzi i omówimy jego zachowanie w próbie. Przechodząc z teorii do empirii, należy pamiętać, że są dwie rzeczy, które mają wpływ na to, że najczęściej jedno z drugim nie zgadza się i powoduje, że nie możemy oczekiwać tych samych wyników w próbie.

LOSOWA ZMIENNOŚĆ — Wiemy, że rozkład normalny ma zerową skośność i zerową kurtozę, a wykresy mają określony wygląd. Czy w związku z tym możemy oczekiwać, że w próbie będzie dokładnie tak samo? Nie. Te wymagania są zbyt idealne, aby pojawiły się w naszym świecie empirycznym. Rozkład normalny jest przecież rozkładem teoretycznym – zerowa skośność i zerowa kurtoza nie wynika z czyjegoś doświadczenia, a z precyzyjnych matematycznych obliczeń. Trzeba jednak pamiętać, że jest to wynik teoretyczny. Oczekiwania, co do tego, co pojawi się w zebranej przez badacza próbie, muszą być łagodniejsze.

Najłatwiej wytłumaczyć to sobie w następujący sposób: gdybyśmy zgromadzili wszystkie osoby (tj. przebadali całą populację) i wówczas policzyli skośność i kurtozę, to powinna ona wynosić zero - zero jest populacji. Ale próba jest tylko wycinkiem populacji i mogą trafić się różne osoby (czyli wchodzi tu losowość wyników), więc trudno liczyć na to, że skośność i kurtoza będzie równa dokładnie zero. Dlatego musimy wykazać się pewną elastycznością w oczekiwaniu, że wartości statystyk opisowych w próbie będą zero. Innymi słowy, musimy zaakceptować pewne niezerowe (choć bliskie zeru) wartości a nie żądać dokładnych zer.

ZNACZENIE WIELKOŚCI PRÓBY — Trudno jednak nie wspomnieć o wadzie tych reguł kciuka - są one sztywne, czyli niezależne od liczby przebadanych osób. A przecież nawet na chłopski rozum, nawet gdy badana zmienna ma rozkład normalny (np. inteligencja), to wzrost liczby badanych powinien powodować zbliżanie się skośności i kurtozy do tej idealnej, zerowej wartości. Podobnie jest z wykresami. To, co uchodzi w małej próbie, nie powinno przytrafi się w dużej.

REGUŁY KCIUKA Z pomocą przychodzą wskazówki, które mówią, jaki przedział niezerowych wartości skośności i kurtozy można dopuścić jako przedział takich wartości, które jeszcze nie powodują uznania, że badany rozkład nie jest rozkładem normalnym. Nazywam je regułami kciuka - powinny sprawdzać się w większości typowych sytuacji, ale nie mają statusu twierdzenia matematycznego. Dla ścisłości, będziemy mówić o próbkowej skośności (teoretyczna wynosi 0) i próbkowej kurtozie (teoretyczna wynosi 0) oraz o empirycznych wykresach. Wszystko dlatego, aby podkreślić, że liczymy statystyki i tworzymy wykresu z udziałem próby, a nie teoretycznych wartości.

NARZĘDZIA DIAGNOSTYCZNE

  • STATYSTYKI OPISOWE
    • skośność — Przedział niezerowych, lecz wciąż akceptowalnych wartości próbkowej skośności to [–1, 1].


    • kurtoza — Przedział niezerowych, lecz wciąż akceptowalnych wartości próbkowej kurtozy jest nieco szerszy niż dla skośności i wynosi [–2,2].


    Jeśli zobaczysz skośność badanej zmiennej w przedziale między minus 1 a 1, to nie odrzucaj od razu normalności rozkładu. Podobnie, jeśli zobaczysz kurtozę badanej zmiennej w przedziale od minus 2 do 2.  To, że skośność wynosi np. 0,56 a nie 0 jeszcze nie oznacza, że rozkład nie może być normalny. Pamiętaj jednak, że ta sama wartość skośności i kurtozy różnie wygląda na tle małej lub dużej próby. Przykładowo, podczas gdy skośność równa 2,01 w próbie liczącej n = 30 osób jest akceptowalna, to w dużej próbie liczącej n = 30 000 osób jest podejrzanie dużym wynikiem.

  • WYKRESY
    • wykres skrzynkowy (boksplot) — wykres skrzynkowy dla małej próby, N = 10, dla umiarkowanej próby, N = 30, oraz dla dużej próby, N = 1000. Wykres dla dziesięciu osób zupełnie nie przypomina wykresu skrzynkowej rozkładu normalnego, a przecież wiemy, że te dziesięć wartości pochodzi z rozkładu normalnego. Przyczyną jest losowa zmienność, która zaciera charakterystyczną strukturę tego wykresu. Dla trzydziestu wartości boksplot jest przynajmniej symetryczny, a najpiękniejszy z nich jest wówczas, gdy zbierzemy wartości od tysiąca osób.
    • histogram — tutaj również pokazane są histogramy dla trzech typów prób: o bardzo małych liczebnościach, N = 10, dla umiarkowanych prób, N = 30 oraz dla prób o dużej liczebności N = 1000. Histogram rozkładu cechy, nawet jeśli wiadomo, że w populacji jest ona gaussowska, w małej próbie jest w ogólnie podobny do dzwonowej krzywej Gaussa. Cechy charakterystyczne histogramu są widoczne dopiero w dużych próbach.
    • wykres kwantylowy — aby badana zmienna posiadała rozkład normalny, punkty powinny układać się na prostej. Tak dzieje się na trzecim wykresie, ale jednocześnie jest to wykres próby bardzo licznej o N = 1000 obserwacji. W mniejszym próbach musimy zrezygnować z takiego oczekiwania.

KONIECZNOŚĆ STOSOWANIA TESTÓW NORMALNOŚCI? — Narzędzia palpacyjne, takie jak powyżej, to inna oprócz formalnych testów statystycznych metoda badania normalności rozkładu zmiennej. Niestety, badacze są przyzwyczajeni do tego, że testy statystyczne to jedyna poprawna opcja. Tymczasem to po pierwsze nieprawda, jak widać na załączonym obrazku, a po drugie - testy statsytyczne same w sobie obarczone są problemami. Zwróćmy uwagę, że nigdzie nie kontrolujemy liczebności próby, posługując się mglistymi stwierdzeniami, że takie-to-a-taki test jest mocniejszy niż inny. Kierowanie się tylko i wyłącznie istotnością statystyczną testu normalności może sprawić, że badacz popełni błąd. Najlepsze rozwiązanie to łączyć obie metody - palpacyjną i formalną.

DIY - czyli zrób Diagnostykę normalności w SPSS 28. Masz niższą wersję? Nie martw się. Różnice w krokach między tą wersją SPSS a pozostałymi są chyba - nomen omen - nieistotne.

1. Zidentyfikuj zmienną, której normalność chcesz badać. Tutaj ta zmienna nazywa się banalnie - po prostu: Cecha. Następnie wybierz Analiza -> Opis statystyczny -> Eksploracja.

2. Przesuń badaną zmienną z lewego, białego okna na prawe, górne o nazwie Zmienne zależne. Dzięki temu SPSS będzie wiedzieć, którą zmienną diagnozujesz.

Klikając przycisk Statystyki, nic szczególnego nie ma do wyboru. SPSS wie, co ma wybrać. Więc pozostaw zaznaczoną opcję Statystyki opisowe i wciśnij Dalej.

4. Kliknij na drugi od góry przycisk Wykresy. Pojawi się nowe okienko. W panelu Wykresy skrzynkowe pozostaw domyślnie zaznaczoną opcję Poziomy czynnika razem. W panelu Opis odznacz Łodyga-i-liście (tym wykresem nie będziemy zajmować się) i zaznacz Histogram. Następnie, zaznacz okienko Wykresy normalności z testami. Mimo tego, że w tym poście nie zajmujemy się testami normalności, to aby uzyskać wykres kwantylowy (qqplot), musimy zaznaczyć wszystko.

Naciśnij Dalej.

5. Gdy wrócisz do głównego okienka, wybierz OK. To już wszystkie polecenia, jakie są nam potrzebne.






PRZYDAŁ SIĘ TEN ARTYKUŁ? LUBISZ TEN BLOG? A MOŻE CHCESZ COŚ ZROBIĆ DLA MNIE? :) Właśnie prowadzę badania nad adaptacją pewnego psychologicznego kwestionariusza. Zbieram odpowiedzi od osób badanych. Ale, nie, nie chcę prosić Cię o wykonanie analiz :) Chcę poprosić Cię o wzięcie udziału i wypełnienie zestawu 49 pytań, które przygotowałam (wraz z moją współpracowniczką, Amelią). Kwestionariusz FoMO dotyczy zjawiska Lęku przed Odłączenie (Fear of missing out, FoMO), czyli lęku przed tym, że inni w tym momencie przeżywają lepsze chwile niż Ty. Skutkuje to byciem przyklejonym do smartfona, skrolowaniem Fejsbuka, sprawdzaniem Messengera, co chwilę, a dalej - poważniejszym problemami niż suchość oczu. Kwestionariusz psychologiczny musi być porządnie przebadanym narzędziem i liczę na to, żę gdy zbiorę i opracuję dane właśnie taki powstanie ze wszystkimi pożądanymi właściwościami, trafnościami, rzetelnościami i innymi homologacjami. TO CO? POMOŻESZ MI? LINK znajdziesz tutaj: KLIK

Hipoteza zerowa i p-wartość: link pomiędzy nimi.

Jak mają się wyniki istotne statystycznie do hipotezy zerowej? Związek między p-wartością a H0 przedstawiam niżej w trzech aktach.

SPIS TREŚCI:

HIPOTEZA ZEROWA Ogólnie można przyjąć, że hipoteza zerowa mówi o braku związku między zmiennymi (na przykład: brak korelacji, brak różnic między grupami, niezależność dwóch zmiennych).

W większości przypadków taka perspektywa sprawdza się - do czasu jak spotykamy testy normalności.

Weźmy konkretny przykład – różnice międzypłciowe w średnim poziomie zarobków. Chodzi o tzw. gender pay gap. To zjawisko z zakresu ekonomii, które polega na tym, że średni poziom zarobków mężczyzn jest wyższy niż średni poziom zarobków kobiet. Mężczyźni zarabiają więcej niż kobiety na całym świecie. Nie jest to coś, co cieszy, ale badania pokazują, że istnieje w wielu krajach. Dla przykładu, powiedzmy, że chcielibyśmy sprawdzić, jak to jest w Polsce. Mamy zatem dwie kategorie (kobieta/mężczyzna) i zmienną ilościową (wynagrodzenie w złotówkach) – zatem test t-Studenta. Ponadto obserwacje są niezależne, bo trudno losowo przydzielić osoby badane do jednej z dwóch kategorii.

Hipoteza zerowa w teście t-Studenta brzmi H0: μ1 = μ2 Jest to ogólny zapis, pasujący do każdego badania spełniającego wyżej nakreślone warunki. Ponieważ nasz przykład odnosi się do luki płacowej to hipoteza zerowa tutaj brzmi: nie ma różnic między kobietami a mężczyznami w średnim wynagrodzeniu. Można ją zapisać symbolicznie H0: μkobiety = μmężczyźni

Gdyby nie było zmienności, sprawa byłaby prosta - różnica między średnimi zawsze wynosiłaby zero - w każdej z prób - niezależnie, kto badałby ją i w jakim miejscu na Ziemi: czy w Polsce, w Szwecji czy w USA. Zatem bardzo ubogi histogram, a raczej hybryda histogramu i wykresu słupkowego i wyglądałaby tak:

W zdaniach powyżej używam trybu przypuszczającego, ponieważ tak wyglądałby świat bez zmienności. Ta zmienność jest charakterystyczną cechą otaczającego świata. Przecież mężczyźni zarabiają różnie – podobnie jak kobiety. Płace różnią się nawet bez podziału na płeć.  To powoduje, że nawet badając to samo zjawisku, otrzymuje się różne wyniki. Różnica między średnimi zarobkami kobiet i mężczyzn w prawie każdej próbie nie będzie równa zero.

I tu jest właśnie rola statystyki – czy z faktu, że na próbie wyszło, że są różnice, to mogę powiedzieć, że w całej populacji również są różnice? Czy jeśli średnia zarobków kobiet w moim badaniu jest niższa niż średnia zarobków mężczyzn, to jednocześnie w populacji średnia kobiet jest niższa niż średnia zarobków mężczyzn?

HIPOTEZA ZEROWA ... I ROZKŁAD STATYSTYKI TESTOWEJ Hipoteza zerowa robi coś więcej niż tylko siedzi i opowiada o braku związku. Jest to przecież hipoteza statystyczna, a każda hipoteza statystyczna tak naprawdę postuluje pewien rozkład wyników. Jakich wyników? Nie surowych, zebranych przez badacza, znajdujących się w wierszach i kolumnach SPSS-a, ale wyników statystyki testowej. Statystyka testowa to sedno każdego testu statystycznego. Jest to wzór, który przekształca surowe dane – mówiąc metaforycznie, wysysa z nich informację potrzebną podczas weryfikacji hipotez.

Hipoteza zerowa mówi, że ponieważ nie ma związku między zmiennymi, to rozkład wartości statystyki testowej jest taki-to-a-taki (dany określony wzorem). Niestety, SPSS nie pokazuje rozkładów statystyk testowych. Skąd wiadomo, jaki jest ten wzór? Cóż, był to problem tego, który opracowywał test. William Gosset musiał się napracować z testem t-Studenta, aby rozkład wartości statystyki testowej swojego testu znaleźć. Dzięki niemu wiadomo, że jeśli tylko nie ma luki płacowej i średnie zarobki mężczyzn i kobiet są równe, to powinniśmy oglądać taki rozkład wartości statystyki testowej:

Ze względu na zmienność, zamiast wykresu z żółtym, długim i cienkim prostokątem mamy właśnie ten - rozkład t-Studenta. Wiemy o nim, że jest symetryczny, ma nieco cięższe ogony niż rozkład normalny, a jego kształtem rządzi liczba stopni swobody (równa N - 2, czyli liczbie osób badanych pomniejszonej o dwa). Rozkład statystyki testowej to częstość pojawiania się wartości statystyki testowej, tej pojedynczej liczby, do której zostały sprowadzone Twoje dane. Ponadto, kształt tego rozkładu jest właśnie taki, jak wyżej, ponieważ przyjęliśmy, że nie ma różnic w płacach.

Teraz – co z tym rozkładem możemy zrobić? Nie są to surowe dane - ani to rozkład płac kobiet, ani rozkład płac mężczyzn. Histogramy wynagrodzeń wśród obu płci wyglądałyby inaczej. Na przykład jest ich dwa (osobno dla każdej z płci) i nie obejmują wartości ujemnych na osi OX. 

Wychodzi na to, że masz do dyspozycji dwa rodzaje rozkładów: jeden rodzaj to rozkład Twoich danych (czyli surowych wyników osób badanych), a drugi to rozkład przekształconych danych (czyli wartości statystyki testowej aktualnie używanego testu statystycznego).

HIPOTEZA ZEROWA, ROZKŁAD STATYSTYKI TESTOWEJ ... I ISTOTNOŚĆ STATYSTYCZNA — W tej części powiążemy hipotezę zerową i istotność statystyczną. Otóż, omówiony w poprzedniej części rozkład wartości statystyki testowej posłuży do obliczenia p-wartości (p-value), czyli tego, co SPSS nazywa się istotnością statystyczną. Jak to się dzieje? Spójrzmy jeszcze raz na rysunek rozkładu statystyki testowej.

To prawie ten sam rysunek z tym, że teraz dołożyłam wartość statystyki testowej, uzyskaną przez badacza w badaniu - wynosi ona nieco poniżej dwa (różowy punkt na osi OX). Chciałoby się wiedzieć, jakie jest prawdopodobieństwo uzyskania tej wartości. Niestety, nie można po prostu odczytać wartości krzywej nad tym punktem i potraktować jej jako prawdopodobieństwo. W matematyce umówiliśmy się, że rozkłady ciągłe mają taką własność, że prawdopodobieństwo konkretnej wartości statystyki testowej (tego, co leży na osi OX) jest równe zero (mimo, że widzisz coś około jednej dziesiątej). To jest wartość gęstości dla wartości statystyki testowej, ale nie jest to równoznaczne z prawdopodobieństwem - trust me, I'm a mathematician. Wobec tego liczymy pola.

Tu oczywiście wchodzi cała kwestia, jak liczyć owe pole - z lewej strony uzyskanej wartości statystyki testowej? z prawej? obustronnie? Czyli tzw. stronność testu. Zostawimy to teraz, ponieważ zajmujemy się relacją między hipotezą zerową a p-wartością/istotnością statystyczną i dla ułatwienia będziemy liczyć pole z jednej strony (z prawej).

Powierzchnia pola zaznaczona na żółto to p-wartość, w SPSS: istotność statystyczna. Im mniejsze pole, tym bardziej istotny statystycznie wynik. Niestety (trzeci raz w tym poście użyte niestety), język nie jest tutaj naszym sprzymierzeńcem. Jeszcze raz: im mniejsza p-wartość, tym większa istotność statystyczna. Kierunek stopniowania jest odwrotny (mniejsza - większa). Wszystko przez traktowanie p-wartości i istotności statystycznej jako synonimów. Ściśle rzecz ujmując, p-wartość to liczba (pole powierzchni.. to żółte), a istotność statystyczna to stan małej powierzchni tego pola. Gdy powierzchnia tego pola nie przekracza 5%, to wynik testu jest istotny statystycznie.

INTERPRETACJA — Podam teraz dwa wyjaśnienia: to, którego używam (także podczas zajęć) oraz drugie, równoważne. Oba wynikają z tekstu Amerykańskiego Towarzystwa Statystycznego na temat interpretacji p-wartości.
- p-wartość mówi o typowości Twojej wartości statystyki testowej. Innymi słowami, mówi o tym, jak typowe są uzyskane przez Ciebie wyniki, zakładając brak zależności. Jeśli p-wartość jest mniejsza niż 5% (pole powierzchni jest mniejsze niż 5%) a wynik jest istotny statystycznie - wówczas dane są nietypowe dla modelu postulowanego przez hipotezę zerową. Gdy człowiek niesie zakrwawiony nóż, to jest to nietypowe zjawisko dla modelu, że ów człowiek jest niewinny.
- p-wartość świadczy przeciwko hipotezie zerowej. Wyjdźmy od tego, że w ogonach rozkładu znajdują się wyniki nietypowe. To tutaj znajdują się takie wartości statystyki testowej, które dadzą istotność statystyczną. Jeśli p-wartość jest mniejsza niż 5% (pole powierzchni jest mniejsze niż 5%) a wynik jest istotny statystycznie - wówczas wynik statystyki testowej świadczy przeciwko hipotezie zerowej. Upraszczając sprawę – zakrwawiony nóż w rękach świadczy przeciwko niewinności człowieka. Jest to duże uproszczenie, bo hipoteza o niewinności ("ten człowiek jest niewinny") nie jest hipotezą statystyczną, a zwykłym zdaniem, ale przykład ma zilustrować owe świadczenie przeciwko hipotezie zerowej. A teraz przeczytaj uwagę niżej.

UWAGA! P-wartość nie jest to ostatecznym, kategorycznym dowodem na fałszywość hipotezy zerowej. Nie pozwala ona podjąć zero-jedynkowej decyzji, co zrobić z H0. To dlatego nie używamy słowa odrzucić (reject). Jedyne, co możemy powiedzieć to to, że uzyskane przez nas dane są mało kompatybilne z tym, co postuluje hipoteza zerowa. Dalej badacz może wykorzystać wiedzę odnośnie testów statystycznych i ich zachowaniu oraz wielkość efektu, aby przekonać się, czy rzeczywiście jego dane coś pokazują. Pomyśl o tym w ten sposób: rzadki wynik jeszcze nie oznacza stuprocentowej pewności. Wracając do przykładu, być może człowiek był uczniem i niósł zakrawiony nóż na przedstawienie szkolne :-)

W żołnierskich słowach: p-wartość, w języku polskim nazywana istotnością statystyczną, to liczba, która świadczy przeciwko hipotezie zerowej. Trzeba jednak pamiętać o tym, że w dużych próbach, istotne statystycznie są również trywialne efekty (korelacje, różnice, itd.), dlatego tak ważne jest obejrzenie wielkości efektu.

Wykres kwantylowy (qqplot) [Interpretacja]

Wykres kwantylowy to układ kropek na płaskiej kartce, które w idealnej sytuacji powinny tworzyć prostą. To proste narzędzie świetnie nadaje się do wizualnej oceny tego, czy rozkład Twojej zmiennej jest podobny do dowolnego rozkładu teoretycznego (najczęściej rozkładu normalnego).

SPIS TREŚCI:

KWANTYLE — są wartościami badanej cechy, które dzielą zebrane dane na równe części. Żeby je wyznaczyć, program najpierw porządkuje próbę w kolejności – najczęściej rosnącej. Kwantyle są nazywane miarami pozycyjnymi, ponieważ rekrutują się z uszeregowanych wartości, gdzie liczy się pozycja w kolejce. Dzielą się kwantyle empiryczne (te, które uzyskuje się z próby) oraz teoretyczne (które wynikają z postaci rozkładu danego wzorem matematycznym).

Jeśli zaś pamiętasz to oprócz tego, co otrzymany podczas analizy danych, jest jeszcze cały świat teoretycznych bytów. Są rozkłady empiryczne, czyli takie które otrzymał badacz, oraz rozkłady teoretyczne. Podobnie i kwantyle mają dwie odmiany: empiryczną i teoretyczną. Dwoista natura czyni z nich bardzo dobre narzędzie diagnostyczne do oceny, czy rozkład empiryczny jest podobny do rozkładu teoretycznego – wykres kwantylowy, który wykorzystuje zarówno kwantyle empiryczne, jak i teoretyczne.

Kwantyle teoretyczne to są takie punkty, które wyznaczają kawałek pola zakreślonego między poziomą osią OX a krzywą nazywaną gęstością rozkładu.

CZYM JEST KWANTYL? — Kwantyl dowolnego rzędu p to takie miejsce na osi poziomej OX, na lewo od którego leży p% rozkładu.

Kwantyl rzędu 0,01 oznacza taką wartość cechy, na lewo od której mamy 1% całego pola. I w drugą stronę, kwantyl rzędu 0,15 wynosi -1. Na lewo od -1 znajduje się 15% rozkładu. Wszystko to dzieje się w okolicznościach rozkładu normalnego standardowego.

RZĄD KWANTYLA MIĘDZY ZEREM A JEDNOŚCIĄ - Ponieważ mówimy o polach i o procentach, to rząd kwantyla jest liczbą, która zawiera się tylko i wyłącznie w przedziale od zera do jeden. Nie ma kwantyla rzędu -1. Oznaczałoby to, że szukamy takiej wartości cechy, na lewo od której znajduje się -1 procent pola, a to fizycznie niemożliwe. Powierzchnia pola nie może być ujemną liczbą.

PRZYKŁAD KWANTYLA — Na poniższym rysunku mamy kwantyl pewnego rzędu.

W rozkładzie standardowym normalnym kwantyl rzędu 0,32 wynosi -0,46. Zgodnie z definicją kwantyla na lewo od -0,46 znajduje się 32% rozkładu.

Narysujmy wszystkie kwantyle rozkładu normalnego standardowego:

Kolejność kwantyli i to, w jakiej odległości są od siebie, powoduje, że dla każdego rozkładu jest ten układ niepowtarzalny i funkcjonuje jak linie papilarne, które podobnie jak dla każdego człowieka są niepowtarzalne dla każdego rozkładu. Dzięki temu kwantyle stanowią podstawę dobrego narzędzia diagnostycznego, w którym otrzymany rozkład empiryczny może być porównany do dowolnego teoretycznego rozkładu.

Najczęściej wykres kwantylowy służy do sprawdzenia, czy rozkład otrzymany przez badacza jest rozkładem normalnym, stąd też kwantyle rozkładu normalnego.

Wykres kwantylowy to wykres o dwóch osiach. Na osi poziomej znajdują się zwykle kwantyle empiryczne rozkładu cechy - te, które uzyskałeś lub uzyskałaś w swoim badaniu. Na osi pionowej będą umieszczone kwantyle rozkładu teoretycznego - tego, do którego chcesz porównać uzyskany przez siebie rozkład.

IDEALNY WYKRES KWANTYLOWY – Jeśli wartości zmiennej, której szansami rządzi rozkład normalny powinien wyglądać tak:

Punkty układają się równo wzdłuż prostej. Dzieje się tak, że kwantyle rozkładu normalnego odpowiadają sobie nawzajem. To jednak sytuacja idealna, natomiast w rzeczywistym świecie trudno uchronić się od losowości, więc taki wykres może wyglądać następująco:

Wykres kwantylowy, który wskazuje na znaczne odstępstwa od rozkładu normalnego może wyglądać na przykład tak:

Test t-Studenta dla zależnych

LISTOPAD 2023| LJK | ~2300 słów

Test t-Studenta dla grup zależnych (ang. t-Student's test for paired/dependent/matched data) to test wykorzystywany do porównania średnich nasileń zmiennej ilościowej w przypadku, gdy zebrane obserwacji można połączyć w pary. Wyniki w parze dotyczą tej samej zmiennej ilościowej.

SPIS TREŚCI:

PORÓWNANIA MIĘDZY DWIEMA GRUPAMI to najpowszechniejszy schemat badawczy w całym świecie badawczym. Dane pochodzące z takiego schematu można poddać obróbce statystycznej na dwa sposoby. Jeden z nich dotyczy obserwacji niezależnych, gdy badana cecha jest mierzona w obrębie dwóch różnych, wykluczających się kategorii np.: kobieta i mężczyzna (nie można być na raz kobietą i mężczyzną). Drugi dotyczy obserwacji zależnych. W takim badaniu korelacyjnym czy eksperymencie, osobno zbieramy osoby do jednej grupy (np. kontrolnej) i osobno do drugiej (np. eksperymentalnej). Drugi schemat badania polega na tym, że ta sama grupa osób badanych przechodzi przez pierwszy i drugi warunek badania, np. pretest i posttest. Ten pierwszy przykład danych pasuje do testu t-Studenta dla dwóch grup niezależnych KLIK. W tym poście zajmiemy się tym drugim przypadkiem.

TEST t-STUDENTA dla zależnych grup (albo par) znajduje zastosowanie w prostych eksperymentach: najpierw mierzymy wyjściowy poziom interesującej nas zmiennej. Potem osoby badane poddajemy działaniu eksperymentalnemu - obejrzeniu filmu mającego wywołać określone emocje, spożyć jakiś specyfik, wyobrazić sobie coś. Następnie znowu mierzymy poziom tej samej zmiennej, na którą to działanie eksperymentalne miało mieć wpływ. Chcemy sprawdzić, czy eksperyment coś zmienił, czyli to działanie terapeutyczne wprowadziło coś nowego. 

HIPOTEZA ZEROWA I ALTERNATYWNA TESTU t-STUDENTA DLA GRUP ZALEŻNYCH
HIPOTEZA ZEROWA — Hipoteza zerowa w teście t-Studenta dla prób zależnych mówi o równości średnich poziomów - czy nasileń - zmiennej zależnej między dwoma pomiarami. Przy czym - uwaga - nie chodzi o równość dwóch średnich arytmetycznych w dwóch zebranych próbach. Hipoteza zerowa jest hipotezą statystyczną i dotyczy populacji. Znak równości jest postawiony między średnimi nasileniami zmiennej zależnej w całej interesującej nas populacji zbadanej dwukrotnie.

H0: μ1 = μ2

Hipoteza zerowa w teście t-Studenta dla prób zależnych jest niemal identyczna z hipotezą zerową testu t-Studenta dla prób niezależnych. Różnica polega na tym, że to jest ta sama grupa osób badanych, więc dwukrotnie mierzymy średni poziom tej samej zmiennej między pomiarami. Indeks dolny nie oznacza zatem numeru poziomu czynnika a numer pomiaru.

JAK CZYTAĆ TEN ZAPIS? Ogólnie rzecz biorąc, w procedurze testowania istotności statystycznej hipotezy zerowej, hipoteza zerowa mówi o braku efektu. Chcąc przykroić ją na potrzeby dwukrotnego pomiaru tej samej zmiennej ilościowej, ów brak efektu możemy rozumieć jako niepowodzenie w manipulacji eksperymentalnej. Manipulacja nie przyniosła pożądanego efektu: wyniki zmiennej zależnej ani średnio nie wzrosły, ani średnio nie spadły, wciąż pozostając na tym samym poziomie.


Pamiętaj, że równość średnich wyrażona w hipotezie zerowej nigdy nie dotyczy równości średnich w próbie. Do tego celu (sprawdzenia, czy te średnie są równe w próbie) wystarczy spojrzeć na statystyki opisowe.

A teraz będą dziać się czary z danymi. W trakcie wykonywania analiz testu t-Studenta dla powtarzanych pomiarów z surowych danych przechodzimy na inny poziom.

HIPOTEZA ALTERNATYWNA — hipoteza alternatywna często bywa statystycznym odpowiednikiem hipotezy badawczej. Odpowiednikiem, czyli przełożeniem hipotezy badawczej na język symboli statystycznych. Hipoteza alternatywna również dotyczy średnich nasileń (poziomów) tej samej zmiennej zależnej między dwoma pomiarami, a znak arytmetyczny jaki stoi pomiędzy mógłby być znakiem mniejszości, większości, albo nierówności. W ten sposób mamy trzy możliwości:

  • LEWOSTRONNA H1: μ1 < μ2 — pod wpływem działania eksperymentalnego wzrasta średnie nasilenie badanej zmiennej
  • OBUSTRONNA H1: μ1 ≠ μ2 — działanie eksperymentalne zmienia średnie nasilenie badanej zmiennej, ale nie wiadomo, czy podwyższa, czy obniża
  • PRAWOSTRONNA H1: μ1 > μ2 — pod wpływem działania terapeutycznego spada średnie nasilenie badanej zmiennej. 

TRANSFORMACJA DANYCH – Jeszcze zanim dane wejdą do analiz, dane przechodzą pewną transformację. Polega ona na odjęciu wyników z jednego pomiaru od wyników z drugiego pomiaru. Dwa zestawy wyników zostają sprowadzone do jednego zawierającego różnice. Dla każdej obserwacji zostaje obliczona różnica między pomiarami. I to na niej wykonuje się test t-Studenta dla grup zależnych.

Zobacz, przenosząc średnią zmiennej zależnej drugiego pomiaru μ2 na lewą stronę, otrzymujemy różnicę średnich między pomiarami μ1 - μ2. Wyrażenie po lewej stronie zostaje porównane do zera μ1 - μ2 = 0.

HIPOTEZA ZEROWA W NOWEJ ODSŁONIE - Ponieważ wykonaliśmy operację na surowych danych i zmieniliśmy ich strukturę, hipoteza zerowa również zmieni swoją postać. Zamiast porównywać średnie oryginalnej zmiennej w dwóch pomiarach, średnią różnic zmiennej zależnej między dwoma pomiarami jest porównana do zera. Arytmetycznie nie jest to duża zmiana.

H0: μD = 0

Czyli wprawdzie w próbie nie oczekujemy, że wszystkie średnie będą równe zero, ale że średnia różnic między pomiarami w populacji już tak. To tak, jak gdyby przebadać całą ludzkość dwa razy, odjąć wyniki od siebie i oczekiwać, że średnia różnic dla całej populacji ani drgnie.

HIPOTEZA ALTERNATYWNA — Hipoteza alternatywna H1 w paradygmacie NHST wygląda bardzo mgliście. Z grubsza, można ją zapisać:”H1 nieprawda, że H0”, więc zaprzeczenie H1: μ1 ≠ μ2 oznacza brak równości między średnimi zmiennej zależnej między pomiarami. Gwoli ścisłości, my zajmujemy się średnimi różnic, więc wypadałoby napisać H1: μD ≠ 0

ZAŁOŻENIA TESTU t-STUDENTA DLA GRUP ZALEŻNYCH
Każdy test statystyczny dane powinny mieć odpowiedni format, aby dało się ten test zastosować. FORMAT DANYCH: jakie założenia powinny spełniać dane w teście t-Studenta. Należy mieć na uwadze, że oględzinom poddajemy nie surowe dane z obu pomiarów, a wynik ich transformacji (przekształcenia), czyli różnice między pomiarami. To dlatego, że hipoteza zerowa o braku różnic między średnimi wartościami w pomiarach H0: μ1 = μ2 stała się hipotezą zerową o zerowej średniej różnicy między pomiarami H0: μD = 0. Tu koncentrujemy się na nowym, pojedynczym zestawie wyników i okaże się, że z różnych możliwych oczekiwań co do do rozkładu zmiennej zależnej zostaje jedynie normalność rozkładu.

NORMALNOŚĆ ROZKŁADU (RÓŻNIC) - Kiedy przekształcimy dane z dwóch kolumn i powstanie nam trzecia kolumna, będzie ona zmienną, której normalność badamy. Wygląda na to, że badamy normalność rozkładu nie surowych wyników - dwóch odrębnych zmiennych - a różnic między pomiarami. Badanie normalności oznacza, że badamy, czy występowanie poszczególnych wyników jest podyktowane prawem rozkładu normalnego. Rozkład normalny to specyficzny przepis na pojawianie się obserwacji. Mówi on, że najczęściej będą pojawiać się wyniki z okolicy średniej, a czym "dziwniejsza" obserwacja, tym mniejsza szansa, że wystąpi.

Jeśli chcesz dowiedzieć się, jak diagnozować normalność tymi metodami, zajrzyj do posta pt. Diagnostyka normalności: KLIK

HOMOGENICZNOŚĆ WARIANCJI - W porównaniu z testem t-Studenta dla niezależnych, w wariancie tego testu dla grup zależnych, nie obowiązuje nas badanie homogeniczności wariancji badanej cechy. Skupiając się na różnicach między pomiarami, skupiamy się na jednym zestawie danych. Pewnie nikt nie zauważył, jak gładko przeszliśmy z testu t-Studenta dla dwóch prób do testu t-Studenta dla jednej próby. Tak - test t-Studenta dla prób zależnych to tak naprawdę test t-Studenta dla jednej próby (one sample t-test), gdzie tą jedną próbą są różnice. Nie ma grup, w których mielibyśmy porównywać wariancje. Zostaje tylko badanie normalności rozkładu, ale różnic między pomiarami.

STATYSTYKA TESTOWA TESTU t-STUDENTA DLA GRUP ZALEŻNYCH
Zanim omówimy statystykę testową – a potem jej rozkład – zobaczmy, co dzieje się z danymi. W pojedynczej kolumnie znajdują się różnice między pomiarami. Wcześniej zrezygnowaliśmy z surowych danych i została nam jedna kolumna z transformowanymi danymi tj. z różnicami między pomiarami. Co by się teraz stało, gdybyśmy policzyli średnią arytmetyczną tych różnic? Czego moglibyśmy spodziewać się po tej liczbie?

Gdyby średnia arytmetyczna różnic wynosiła zero, oznaczałoby to, że – średnio rzecz biorąc – manipulacja eksperymentalna nie przyniosła żadnego efektu. Drugi pomiar jest ogólnie (średnio) taki sam jak pierwszy pomiar. Nie znaczy to oczywiście, że każda osoba ma dwa jednakowe wyniki w obu pomiarach, ale że średnie arytmetyczne oryginalnej zmiennej zależnej są równe.

Ktoś mógłby pospieszyć się i powiedzieć: niech ta średnia różnic będzie statystyką testową testu t-Studenta dla zależnych. Problem jednak jest taki sam, w teście t-Studenta dla niezależnych. Średnia arytmetyczna jakiejkolwiek zmiennej nie widzi zmienności wyników.Wobec czego średnia arytmetyczna jest dzielona przez błąd standardowy. Ten iloraz jest właśnie czymś, co nazywamy statystyką testową w teście t-Studenta dla prób zależnych a proces dzielenia jednego przez drugie jest nazywany studentyzacją.

Wszystkie warianty testu t-Studenta posiadają tę samą ideę statystyki testowej. Punktem wyjścia do jej stworzenia było to, że nie można polegać tylko i wyłącznie na porównywaniu dwóch średnich. Zwykła różnica między średnimi nie oddaje tak tego, co naprawdę dzieje się w danych. która polega na odejściu od różnicy między surowymi średnimi arytmetycznymi przy jednoczesnej tzw. studentyzacji tej różnicy (między średnimi). Najpierw trzeba zatem zrozumieć czym jest tzw. studentyzacja średniej.

STUDENTYZACJA
Studentyzacja średniej arytmetycznej to nic innego jak podzielenie tej średniej przez błąd standardowy (średniej). Błąd standardowy interpretuje się w kategoriach dobroci precyzji oszacowania. Co to znaczy? Wyjdźmy od tego, że średnia arytmetyczna w próbie jest tylko pewnym oszacowaniem średniej w populacji. O ile nie mamy przebadanej całej populacji, musimy się pogodzić z dozą niepewności wynikającą z faktu, że posiadamy wiedzę tylko o wycinku populacji. Ta miara niepewności to właśnie błąd standardowy. Precyzyjniej rzecz ujmując, błąd standardowy to miara tego, jak dobrym oszacowaniem średniej w populacji μ jest uzyskana w próbie średnia arytmetyczna. Do tego stworzono odpowiedni wzór, który zawiera informacją zarówno o stopniu rozproszenia wyników, jak i o liczbie jednostek badanych. Nawet na chłopski rozum można wywnioskować, że im więcej jednostek badanych, tym bardziej precyzyjne są nasze wskaźniki. Zaś im bardziej rozproszone wyniki osób badanych (pot. zamulone), tym mniejsza precyzja. Kiedy podzieli się średnią arytmetyczną lub różnicę między średnimi arytmetycznymi przez jej błąd standardowy, otrzymamy jedną liczbę. Będzie to wskaźnik tego, jak dobrze oszacowana poprzez średnią w próbie jest średnia w populacji.

Gdy już wiemy, jak połączyć informację z danych i wyrazić ją w postaci statystyki testowej, pojawia się kolejne pytanie - jak często zdarza się ta wartość statystyki testowej?

JAK CZĘSTO ZDARZA SIĘ WARTOŚĆ STATYSTYKI TESTOWEJ?
Dlaczego w ogóle zadajemy to pytanie? Cóż w statystyce klasycznej istnieje określony sposób postępowania podczas weryfikacji hipotez. Mamy bazę danych, której wyniki mają posłużyć do weryfikacji postawionej hipotezy badawczej. Słuchajcie, z tymi danymi coś trzeba zrobić. A ponieważ będziemy dokonywać wnioskowania o całej populacji, to musimy wyjść poza zwykły opis próby i sięgnąć po bardziej zaawansowane narzędzia niż statystyki opisowe. Pomysł jest taki, że sprawdzić, jak prawdopodobne są te wyniki. Co mam na myśli, używając w poprzednim zdaniu słowa: "wyniki"? Oczywiście, może mi chodzić o surowe wyniki osób badanych, które są w bazie danych. Może chodzić o przekształcone wyniki do różnic między pomiarami, ale ściśle rzecz ujmując chodzi mi o wartość statystyki testowej. Zadaję pytanie, jak prawdopodobna jest uzyskana w teście wartość statystyki testowej t-Studenta. I tu wchodzimy na kolejny krąg statystycznego wtajemniczenia: nie da się tak po prostu spytać o prawdopodobieństwo.

Nie, nie chodzi o jakieś matematyczne czary-mary. Chodzi o kontekst. Zdarzenia są bardziej prawdopodobne w jednym kontekście, i mniej prawdopodobne w innym. Pytanie o wartość statystyki testowej odbywa się również w pewnym kontekście - prawdziwości hipotezy zerowej. A więc, tak naprawdę zadajemy następujące pytanie: jeśli nie byłoby różnic między pomiarami, to jak prawdopodobna jest uzyskana wartość statystyki testowej? Inaczej mówiąc, jeśli manipulacja eksperymentalna nie działa, to jak typowa jest uzyskana wartość statystyki testowej? Na to pytanie odpowiada się za pomocą rozkładu wartości statystyki testowej. W tym wariancie testu t-Studenta jest to rozkład t-Studenta.



Własności rozkładu t-Studenta
  • jest charakteryzowany przez liczbę stopni swobody (ang. degrees of freedom). Różne stopnie swobody powodują nieco odmienne kształty tego rozkładu.
  • liczba stopni swobody jest związana z liczbą jednostek badanych, tj. df = N - 1, gdzie N to liczba jednostek badanych
  • im więcej jednostek badanych, tym większa liczba stopni swobody i tym bardziej rozkład t-Studenta przypomina rozkład normalny
  • Na podstawie rozkładu wartości statystyki testowej obliczana jest tzw. istotność statystyczna, czyli p-wartość (ang. p-value). P-wartość jest miarą zgodności danych z hipotezą zerową testu statystycznego, na podstawie którego ją obliczono (tu: testu t-Studenta dla grup zależnych). Z technicznego punktu widzenia, jest tym prawdopodobieństwem wystąpienia otrzymanej w teście wartości statystyki testowej - o ile manipulacja eksperymentalna nie przynosi żadnego skutku.

    Sama p-wartość - sama istotność statystyczna - nie daje podstaw do twierdzenia, czy hipoteza badawcza została potwierdzona. Do tego trzeba wykonać nieco więcej kroków.

    WIELKOŚĆ EFEKTU — Ponieważ istotny statystycznie wynik nie jest synonimem dużej siły zależności między zmiennymi (tu oznaczałoby to, że manipulacja eksperymentalna powoduje dużą zmianę zmiennej zależnej między pomiarami), to badacz musi zwrócić się do innego narzędzia - po wielkość efektu (ang. effect size). Wielkość efektu to miara siły związku między zmiennymi i w przypadku porównań między dwoma średnimi (nasileniami) najczęściej wykorzystuje się wielkość efektu d-Cohena.

    WIELKOŚĆ EFEKTU d-COHENA — d oznacza difference (pol. różnica). Małe d nie oznacza zwykłej różnicy między średnimi zmiennej zależnej w dwóch pomiarach - a standaryzowaną. Tu znów powtarza się wątek niemożności porównań samych średnich. Średnia arytmetyczna nie zawiera informacji o rozproszeniu obserwacji wokół niej (od tego jest odchylenie standardowe). To powoduje, że dwie średnie mogą różnić się znacząco co do samego wyniku odejmowania, np. 1000 - 1 = 9999, ale z uwagi na znaczne rozproszenie obserwacji ta różnica niknie. Stąd rozsądnym rozwiązaniem problemu rzetelnego porównania dwóch grup jest uwzględnić zarówno średnie arytmetyczne, jak i rozproszenia. I tak powstało d-Cohena.

    WŁASNOŚCI WIELKOŚCI EFEKTU d-COHENA
    • jest to pojedyncza liczba
    • przyjmuje wartości od minus nieskończoności do plus nieskończoności
    • gdy jest równa zero, wówczas średnie arytmetyczne w dwóch pomiarach są sobie równe
    • aby dowiedzieć się, czy otrzymana w badaniu wielkość efektu jest mała czy duża, należy skorzystać z progów (ang. benchmarków), np. systemu progów Cohena

    ROZMIARÓWKA — poniżej znajduje się system progów stworzony przez Cohena w 1988.

    DUŻA od .80 do plus nieskończoności
    UMIARKOWANA od .50 do .80
    MAŁA od .20 do .50
    MAŁA od -.50 do .20
    UMIARKOWANA od -.80 do -.50
    DUŻA od minus nieskończoności do -.80

    Od końca lat osiemdziesiątych ubiegłego stulecia minęło już trochę czasu i system Cohena zestarzał się. W wielu subdziedzinach psychologii powstały nowe, bardziej adekwatne do specyfiki badań w takiej poddziedzinie. Podaję go tutaj, ponieważ mimo wszystko jest nadal najczęściej wykorzystywanym systemem progów.

    Pewnie spytasz, czy Cohenowi nic nie pomyliło się. Wygląda na to, że duże wielkości efektu zajmują największy obszar osi liczb rzeczywistych - to jest od minus nieskończoności do minus ośmiu dziesiątych i od ośmiu dziesiątych wzwyż. Otóż, Cohen nie popełnił błędu. Nic mu się nie pomyliło. W psychologii wielkości efektu lokują nie są ogromne, zwykle lokują się blisko zera.