Test t-Studenta

Test t-Studenta jest najpopularniejszym testem stosowanym w psychologii ze względu nie tylko na prostotę wykonania w programie statystycznym, ale także na to, że odpowiada najprostszemu schematowi badawczemu: porównaniom między dwoma grupami.

SPIS TREŚCI:

SUROWA RÓŻNICA MIĘDZY ŚREDNIMI - Mogłoby się wydawać, że porównanie dwóch grup polega na porównaniu średnich arytmetycznych (badanej zmiennej). Wystarczy odjąć jedną średnią od drugiej i w ten sposób uzyskać informację o wielkości różnic międzygrupowych. Tak łatwo jednak nie jest. Przecież w obrębie każdej z grup wyniki są zróżnicowane - osoby w grupach różnią się między sobą. Nie jest tak, że indywidualne wyniki są równe średniej arytmetycznej (zob. rysunek niżej).

Być może to banalne stwierdzenie, ale badaniach empirycznych zmienność wyników jest czymś normalnym i spodziewanym. Nie dość, że występują różnice między całymi grupami (np. kobiety i mężczyźni różnią się pod względem wzrostu), to jeszcze wewnątrz grup osoby różnią między sobą (np. kobiety również różnią się wzrostem, są kobiety mają 162 cm i 198 cm). Zróżnicowanie wyników indywidualnych przejawia się poprzez różne odchylenia standardowe tej samej zmiennej (np. wzrostu) mierzonego oddzielnie dla dwóch grup. Wobec tego odejmowanie tylko i wyłącznie średnich arytmetycznych nie jest miarodajne.

Porównaj dwa poniższe rysunki. Obserwacje z grupy pierwszej są zaznaczone na niebiesko, obserwacje z grupy drugiej zaznaczone są na zielono. Czarną linią ciągłą zaznaczono średnie arytmetyczne, a dwukierunkowa strzałka to różnica między średnimi arytmetycznymi. Pierwszy rysunek pokazuje, że obserwacje nie zachodzą na siebie, ponieważ pomiędzymi nimi jest jeszcze trochę przestrzeni. Grupy są rozdzielone. Żadna osoba z grupy niebieskiej nie uzyskała tak wysokiego wyniku, aby można było ją zaliczyć do grupy zielonej. I w drugą stronę, żadna osoby z grupy zielonej, nie uzyskała wyniku tak niskiego, który sięgnąłby do wyników grupy niebieskiej.

Na kolejnym rysunku dwukierunkowa strzałka jest tej samej długości, symbolizując tę samą wartość różnicy między średnimi. Jednak obserwacje z obu grup zachodzą na siebie. Są osoby z grupy niebieskiej, których wynik sięgnął wyżej niż kilka osób z grupy. Jest jedna osoba z grupy niebieskiej, której wynik jest wyższy niż średnia arytmetyczna grupy zielonej.

Gdyby nie kreski i kolory można byłoby uznać, ze w zasadzie obserwacje nie różnią się pod względem wyników. A więc analizując wyniki osób badanych rozdzielonych do dwóch kategorii, nierozsądnie byłoby pominąć zmienność tych wyników w obrębie każdej z grup. Zarówno test t-Studenta, jak i wielkość efektu uwzględnia i różnicę między średnimi, i rozproszenie.

BADANIA KORELACYJNE CZY EKSPERYMENTALNE? — Test t-Studenta można zastosować do wyników pochodzących z badań zarówno eksperymentalnych, w których osoby badane przydzielasz losowo do jednej z dwóch grup (kontrolnej i eksperymentalnej), quasi-eksperymentalnych, w których wygląda tak, jakby zadziałał przypadek w dobieraniu osób badanych do warunku eksperymentalnego i kontrolnego (np. płeć), oraz korelacyjnych, w których nie manipulujesz żadną zmienną.

NOMENKLATURA: CZYNNIK I ZMIENNA ZALEŻNA — W związku z charakterystycznym schematem badań, z jakim jest związany test t-Studenta, pojawia się specyficzna nomenklatura. Zmienna, która grupuje obserwacje do grup, nazywa się czynnikiem. Zmienna, której średnie arytmetyczne liczymy, nazywa się zmienną zależną. Warto zapamiętać to nazewnictwo, zwłaszcza, że używa go jeden z popularniejszych programów do analizy danych (SPSS).

Będąc jednym z klasycznych testów statystycznych przeprowadzanych w paradygmacie NHST, test t-Studenta posiada następujący schemat: hipoteza zerowa plus dość mgliście sformułowana hipoteza alternatywna, maszynka do mielenia danych zwana statystyką testową, wartości tej statystyki testowej mają rozkład (zwany rozkładem statystyki testowej), na podstawie którego oblicza się typowość uzyskanego wyniku (w postaci p-wartości) i na końcu oblicza się jeszcze wielkość efektu d Cohena. To jest szybki skrót z posta o mechanice klasycznych testów statystycznych zaś odnośnie wnioskowania znajduje się w serii postów.

HIPOTEZA ZEROWA w teście t-Studenta mówi o równości dwóch średnich (badanej cechy) w dwóch populacjach - między dwoma teoretycznymi średnimi.

Teoretyczne średnie można symbolicznie zapisać μ1 to średnia cechy w jednej populacji oraz μ2 to średnia cechy w drugiej populacji. W ten sposób hipoteza zerowa w teście t-Studenta symbolicznie przedstawia się następująco:

H0: μ1 = μ2
OZNACZENIA — μ1 [czyt. mi jeden] to średni poziom cechy w pierwszej podpopulacji, μ2 [czyt. mi dwa] to średni poziom cechy w drugiej podpopulacji.

INTERPRETACJA — Ten symboliczny zapis można rozumieć w następujący sposób: H0: średni poziom cechy jest równy w obu populacjach. Możliwa jest też nieco inaczej brzmiąca interpretacja: dwie próby pochodzą z tego samego rozkładu. Zauważ, że użyte w zapisie są greckie litery μ oznaczające, że chodzi o populację. To powoduje, że ten drugi zapis bywa mylący i sugeruje, że chodzi o porównanie dwóch próbek. Na chłopski rozum, byłby to zbędny zabieg - po co wytaczać całe testowanie hipotez, aby stwierdzić, czy dwie średnie z dwóch prób są sobie równe lub różne? Przecież wystarczy porównać dwie liczby do tego.

CO JEST ISTOTNE STATYSTYCZNIE? RÓŻNICA W GRUPACH ... CZY W POPULACJACH? — Czasem skrótowo mówi się o istotności (statystycznej) średnich w dwóch grup, np. w tekście jest napisane:"analiza pokazała jedną istotnie statystyczną różnicę między kobietami a mężczyznami". Ten sposób formułowania wyników, sprawia, że bardzo łatwo pomyśleć, że szukamy przymiotnika określającego różnicę w średnich arytmetycznych między osobami w grupach.

Podczas weryfikacji hipotez statystycznych to, co nas interesuje to populacja, a nie próba. Ta składająca się z dwóch grup próba służy jako środek do przeniesienia wniosku z próby na populację. Aby zauważyć niezerową różnicę między średnimi arytmetycznymi nie potrzeba żadnej weryfikacji hipotez. Jeśli średnia arytmetyczna n = 10 pomiarów wzrostu w grupie kobiet wynosi 168,2 cm a średnia arytmetyczna n = 10 pomiarów wzrostu w grupie mężczyzn wynosi 178,6 cm, to widzimy, że te średnie różnią się. Różnica między nimi wynosi 10,4 cm - kobiety i mężczyźni w tej dwudziestoosobowej próbie różnią się pod względem średnich wzrostu. Aby przenieść ten wniosek z próby na całą populację kobiet i mężczyzn, wykorzystuje się weryfikację hipotez.

HIPOTEZA ALTERNATYWNA jest w NHST zwykle dość mgliście sformułowana i brzmi: H1: średni poziom cechy w obu podpopulacjach nie jest sobie równy. Symboliczny zapis przedstawia się w ten sposób:

H1: μ1 ≠ μ2
Obecność takiej niewyraźnej hipotezy alternatywne widać jedynie w tym, czy wybieramy test jedno- , czy dwustronny. Od 28. wersji SPSS dostępne są dwie wersje testu t-Studenta (dotychczas była jedna i nie było żadnej filozofii).

Jednostronny test t-Studenta to test, który sugeruje nierówność w hipotezie alternatywnej, czyniąc z nią tzw. kierunkową hipotezę statystyczną.

H1: μ1 < μ2

Kierunkowość wskazuje na konkretny kierunek zależności: uważamy, że średnia w jednej populacji będzie wyższa niż w drugiej populacji. Zamiast: kobiety i mężczyźni różnią się od siebie (bezkierunkowa), to hipoteza brzmi: "średni poziom badanej cechy wśród kobiet jest wyższy niż u mężczyzn".
W miejsce braku równości pojawia się znak nierówności (mniejsze, większe).

Zauważ, że te symbole użyte w hipotezie zerowej i alternatywnej to greckie znaczki. Oznaczają one, że chodzi o równość średnich w populacji, nie zaś w próbie. Kiedy zbierzesz dwie grupy, to najczęściej będą się różnić średnimi arytmetycznymi. Do zauważenia różnicy między dwiema liczbami nie potrzebujesz testów statystycznych – wystarczy je zobaczyć. To, do czego stosujesz testy statystyczne, to przeniesienie wniosków z próby na populację, a więc czy z tego faktu, że różnią się dwie próby, można powiedzieć, że różnią się dwie populacje, z których te próby pochodzą.

FORMAT DANYCH — w podręcznikach zwany założeniami danego testu, a chodzi o to, co nam potrzeba, aby program statystyczny ruszył z obliczeniami. Dane muszą spełniać kilka warunków, które dla wygody i łatwości zapamiętania warto pogrupować w trzy kategorie. Pierwsza kategoria warunków odnosi się do schematu badawczego. Druga określa typ zmiennej (tj. skale Stevensa) a trzecia kategoria ma charakter probabilistyczny – od danych będziemy żądać pewnego kształtu rozkładów. Te warunki są potrzebne, abyśmy mogli zarówno wykonać test t-Studenta, jak również wyciągnąć poprawne wnioski na podstawie otrzymanych cyferek. .

PIERWSZA KATEGORIA: NIEZALEŻNOŚĆ OBSERWACJI – Niezależność obserwacji sprowadza się do ilości pomiarów dokonanych na osobach badanych. Osoby badane możemy badać raz, przydzielając do jednej z dwóch grup, albo dwa razy - już bez podziału na grupy. Jeden i drugi sposób stworzy dwa zestawy wyników. Pierwszy przypadek to przykład niezależnych obserwacji (nie mylić z niezależnością zmiennych). Obserwacja może należeć: albo tylko do grupy kontrolnej, albo tylko do eksperymentalnej. Być albo kobietą, albo mężczyzną. Są to dwa rozłączne warunki: albo A albo B.
Drugi przypadek to przykład zależnych obserwacji. Łatwiej o nich pomyśleć, jak o powtarzanych pomiarach. Badane osoby przechodzą przez badanie dwukrotnie, więc (nieco sztuczną) grupą jest kolejność pomiaru: pierwszy pomiar, drugi pomiar. Na przykład szybkość przyswajania wiedzy przed spożyciem kofeiny i po spożyciu kofeiny.
Obok tego badacz może przebadać jedną grupę badanych i porównać ich średni poziom z innym, teoretycznym poziomem odniesienia. Na przykład: lekarz medycyny może sprawdzić, czy osoby dotknięte schizofrenią mają książkowe ciśnienie krwi 120/80.

WARIANTY TESTU T-STUDENTA: Możliwość wyboru schematu badania (obserwacje niezależne vs. zależne) powoduje, że istniejeą warianty testu t-Studenta:

  • dla jednej próby (one-sample t-test) – to taki wariant, w którym jest jedna grupa, której to średni poziom porównujesz do jakiegoś teoretycznego kryterium, np. czy średnie tętno seniorów wynosi 60 uderzeń na minutę.
  • dla dwóch prób niezależnych (two sample t-test) – osoby badane są rozdzielone do dwóch grup i każda z nich jest badana tylko jeden raz, np. zbadano poziom uprzedzenia do wybranej mniejszości u osób mieszkających przy zachodniej i wschodniej granicy Polski.
  • dla dwóch prób zależnych (paired data) – badani zostali poddani badaniu dwukrotnie, np. zbadano tętno przed i po treningu.

W tym poście omawiamy test t-Studenta dla grup niezależnych.

DRUGA KATEGORIA: TYP POMIARU zmiennych — Mechanizm testu t-Studenta jest tak skonstruowany, aby badać dwie średnie. Chodzi o to, że wzór, który stanowi sedno tego testu, przyjmuje tylko średnie, odchylenia standardowe i liczebności obu próg. Dane powinny być rozdzielone na dwie kategorie, zaś wybrana cecha powinna umożliwiać obliczanie średniej arytmetycznej na swoich wartościach. Wobec tego, jedna zmienna powinna być jakościowa, a druga - ilościowa. Według skal Stevensa: zmienna, która grupuje osoby badane, powinna być nominalna lub porządkowa o dwóch kategoriach. Druga zmienna powinna być zmienna przedziałowa lub ilorazowa.

Test t-Studenta nie obsłuży takich danych, w których obie zmienne są jakościowe. Nie da rady nim badać związków między płcią a ręcznością (raczej chi-kwadrat). Zmienna musi dawać możliwość policzenia średniej na jej wartościach. Co oznacza, że jeśli pamiętasz skale Stevensa, to musi być zmienną mierzoną na skali interwałowej albo na skali ilorazowej. Druga zmienna musi dawać możliwość rozdzielenia osób badanych do grupy.

Przykłady badań, gdzie test t-Studenta jest użyteczny:

  • czy poziom inteligencji emocjonalnej różni się między kobietami i mężczyznami?
  • czy nasilenie ekstrawersji wśród aktorów i osób wykonujących zawód bibliotekarza?
  • czy deprywacja kontroli prowadzi do ruminacji?
  • czy aktywizacja wizerunku rodzica ma wpływ na odraczanie gratyfikacji wśród dzieci?

Dwa pierwsze przykłady to schematy quasieksperymentalne, dwa ostatnie – eksperymentalne, w każdym z nich mamy tylko dwie grupy: wyznaczoną przez płeć, przez typ zawodów oraz kontrolną i eksperymentalną.

Test t-Studenta NIE nadaje się do:

  • porównań między więcej niż trzema grupami (idź do: ANOVA)
  • sprawdzenia zależności między płcią i stopniem upośledzenia (zmienna nominalna + zmienna porządkowa)
  • sprawdzenia czy występuje związek między płcią a zaburzeniem np. czy kobiety częściej występuje schizofrenia (zmienna nominalna + zmienna nominalna)
  • związek między samooceną a narcyzmem (zmienna przedziałowa+zmienna przedziałowa)

TRZECIA KATEGORIA: WYMAGANIA PROBABILISTYCZNE — testy statystyczne wykorzystują dane w pośredni sposób – przekształcając je do pojedynczej liczby zwanej wartością statystyki testowej. Statystyka testowa ma również rozkład swoich wartości – jedne zdarzają się częściej, a inne rzadziej. Ten rozkład musi być odpowiednim, ponieważ to na jego podstawie wyciągamy poprawne wnioski. A żeby mieć dobry rozkład, to dane, które wchodzą do statystyki testowej, muszą spełniać trzecią kategorię założeń: normalność rozkładu zmiennej zależnej oraz homogeniczność wariancji.

NORMALNOŚĆ ROZKŁADU cechy w obu grupach. Żądamy, aby w jednej i w drugiej grupie, wartości badanej cechy pojawiały się zgodnie z rozkładem normalnym. Chcemy zobaczyć coś takiego:

Żądanie normalności rozkładu badanej cechy to bardzo mocne żądanie – biorąc pod uwagę fakt, że rozkład normalny w badaniach psychologicznych nie jest często spotykany. Trudno oczekiwać, żeby każda badana cecha miała rozkład normalny, bo przecież test t-Studenta jest najpopularniejszym testem. Musi być jakiś sposób na to, że móc go wykonać, nawet jeśli rozkład cechy nie jest normalny. Z pomocą przychodzi Centralne Twierdzenie Graniczne.

Mechanizm testu t-Studenta tak naprawdę potrzebuje normalności rozkładu statystyki testowej, a nie tego, aby sama cecha miała rozkład normalny. Jeśli wiesz, że badana cecha ma w populacji rozkład normalny, to nie ma najmniejszych obaw - statystyka testowa test t-Studenta ma rozkład dokładnie taki powinna mieć, aby analizy były rzetelne. Jeśli ten rozkład cechy nie jest normalny, to dzięki Centralnemu Twierdzeniu Granicznego i przy dostatecznie dużej liczebności próby można postępować tak, jakby statystyka testowa posiadała pożądany rozkład normalny i procedować z analizami. Oczywiście, zawsze pozostaje pytanie, jak duża próba jest duża.

DIAGNOSTYKA NORMALNOŚCI ROZKŁADU - Jest pięć podstawowych charakterystyk potrzebnych do sprawdzenia, czy dany rozkład jest rozkładem normalnym: skośność, kurtoza, boxplot, qqplot, histogram.

Jeśli chcesz dowiedzieć się, jak diagnozować normalność tymi metodami, zajrzyj do posta pt. Diagnostyka normalności: KLIK

HOMOGENICZNOŚĆ (JEDNORODNOŚĆ) WARIANCJI — oznacza jednakowość rozproszeń wyników w obu grupach. Badacz posiada wyniki pomiarów cechy w jednej i w drugiej grupie. Jest zainteresowany ich średnimi – czy może wnioskować, że populacje, z których grupy wywodzą się, są takie same, czy też różne. Podczas dokonywania jakichkolwiek porównań ważne jest to, żeby nie porównywać gruszek z jabłkami, tzn. aby badane grupy różniły się co najwyżej jedną charakterystyką (średnią), nie zaś pozostałymi. Różne rozproszenia (np. odchylenie standardowe) oznaczałoby, że grupy są zbyt różne. Nie dokonuje się porównania między zdolnościami poznawczymi między dorosłymi a przedszkolakami – to zbyt różne etapy w życiu. Z tego powodu oczekujemy jednakowej wariancji w podpopulacjach z jakich wybrano dwie grupy.

I znów – trudno oczekiwać, żeby odchylenie standardowe w jednej i w drugiej grupie było jednakowe. Na przykład odchylenie standardowe badanej cechy w grupie kontrolnej SD = 1,20, zaś w w drugiej – SD = 1,4. Ponieważ mamy do czynienia ze zjawiskami losowymi, których wyniku nie da się z góry przewidzieć, to i nie możemy oczekiwać równości między odchyleniami standardowymi. Musimy się zatem wykazać pewną elastycznością. Innymi słowy, kiedy możemy przejść do porządku dziennego nad niezerową różnicą między odchyleniami standardowymi, a kiedy jest to problem?

Mamy tutaj dwie ścieżki postępowania: albo poprzez oglądanie tych miar rozproszenia, albo poprzez kolejny test istotności statystycznej. SPSS, niestety, promuje pewne zachowania, które nie są do końca są dobre (tzw. testoza – testuj wszystko, co możesz).

SPOSÓB 1 [REGUŁA KCIUKA] — Pierwszy to poprzez podzielenie większej odchylenia standardowego przez mniejsze i sprawdzenie czy wynik tego ilorazu znajduje się poniżej 2. Chodzi o to, że Jeśli odchylenie standardowe
SPOSÓB 2 [TEST STATYSTYCZNY] — Są co najmniej dwa testy homogeniczności wariancji: Levene'a i Bartletta. Oba z nich mają tą samą hipotezę zerową H0: σ1 = σ2 - wariancja zmiennej zależnej w jednej populacji (reprezentowana przez pierwszą zbadaną grupę) jest równa wariancji zmiennej zależnej w drugiej podpulacji (reprezentowanej przez drugą zbadaną grupę). Mocno podkreślam, że próby są tutaj jedynie środkiem do wnioskowania o populacjach, bo siłą rzeczy odchylenia standardowe (czyli pierwiastek z wariancji) uzyskane w badaniu będą różne.

Problem z testem Levene’a czy Bartletta jest taki sam jak ze wszystkimi testami istotności statystycznej – nie kontrolując liczebności próby, nie za bardzo wiadomo, co ich wynik oznacza. A na dodatek, brakuje im wielkości efektu, zatem tym bardziej trudno ocenić, czy istotny statystycznie wynik testu Levene’a naprawdę pokazuje różne wariancje, czy też nie. Ponadto, takie wielokrotne testowanie wzmacnia testozę wśród badaczy, czyli tendencję do testowania wszystkiego, co się da, byleby nie podjąć własnej decyzji. SPSS jest mistrzem w promowaniu takiego zachowania, ponieważ z tabelek wyświetlanych przez program w outpucie mamy jedynie wynik testu statystycznego i p-wartość. Dzięki temu bardzo trudno jest zapisać wynik testu. Do poprawnego zapisu potrzebujemy jeszcze stopni swobody (degrees of freedom), a nigdzie ich nie ma.

Po spełnieniu założeń (tych superrestrykcyjnych z normalnością rozkładu badanej cechy w obu grupach) otrzymujemy dane, które w teorii wyglądają mniej więcej tak, jak na poniższym rysunku. Są to dwa rozkłady normalne, które różnią się jedynie przesunięciem na osi poziomej OX - czyli średnią.

Maszynka zwana STATYSTYKĄ TESTOWĄ — Dane wraz z hipotezą testową wkładamy do wzoru na statystykę testową. Ten wzór można opisać krótko jako standaryzowaną różnicę między średnimi, czyli stosunek różnicy między średnimi przez rozproszenie. Problem jaki pozostaje, to jak zmierzyć rozproszenie w obu grupach. Na postać mianownika wpływa równoliczność grup i równość wariancji. Zatem licznik pozostaje takie sam, a mianownik zmienia się w zależności od okoliczności.

Poniższy wzór to jeden ze wzorów na statystykę testową testu t-Studenta: grupy są równoliczne, zaś wariancja jest homogeniczna.

WYNIK STATYSTYKI TESTOWEJ – to pojedyncza liczba. Ten wynik może być mały albo duży. Ujemny lub dodatni. Zauważ, że we wzorze na statystykę testową, w jej liczniku mamy różnicę między średnimi arytmetycznymi. Jeśli średnie są bardzo blisko siebie, to cała wartość statystyki testowej będzie mała.

Ale na obliczeniu wartości statystyki testowej analiza nie kończy się. Ponieważ dane są losowe, to i wyniki statystyki testowej też są losowe. Część z nich jest częstsza, a część z nich jest rzadsza. Ponieważ wartości statystyki testowej mają różne szanse wystąpienia, możemy mówić o rozkładzie statystyki testowej w teście t-Studenta.

ROZKŁAD STATYSTYKI TESTOWEJ – w teście t-Studenta zależy tylko od liczby osób biorących udział w badaniu. Jest to rozkład t-Studenta z pewną liczbą stopni swobody. To na jego podstawie oblicza się p-wartość.

Badacz otrzymuje konkretną wartość statystyki testowej, musi ocenić, czy jest to częsty wynik, gdyby przyjąć, że hipoteza zerowa jest prawdziwa. Zadajemy zatem pytanie, czy otrzymany przez nas wynik jest typowy lub nie, jeśli populacje są sobie równe. Odpowiedź na to pytanie jest w kategoriach prawdopodobieństwa i nazywamy ją albo p-wartością, albo (za SPSS-em) istotnością statystyczną. Więcej na temat p-wartość znajdziesz tutajL KLIK

WIELKOŚĆ EFEKTU - Ponieważ wynik istotny statystycznie może być wynikiem nieistotnym praktycznie, to do oceny siły związku między zmiennymi stosujemy wielkość efektu. Wielkość efektu jest miarą siły zjawiska i w przypadku porównań między dwiema grupami oznacza ona to, jak bardzo średnie badanej cechy różnią się od siebie. Więcej na ten temat znajdziesz w poście o wielkości efektu KLIK

Warto też powiedzieć, że żeby obejrzeć wielkość efektu w jakimkolwiek badaniu, nie trzeba jednoczęsnie korzystać z testów istotności statystycznej. Test t-Studenta i wielkość efektu to dwie różne rzeczy.

MIANOWNIK — Skoro różnica między średnimi nie wystarcza, to należy ją podzielić przez jakiś mianownik. Co można włożyć do owego mianownika? Można na przykład zmierzyć wariancję wszystkich wyników bez dzielenia ich na dwie kategorie. Ale takie postępowanie powoduje, że nagle wszystkie wyniki odnosimy do ich ogólnej średniej, a zatem dla jednej i dla drugiej zmieniamy poziom odniesienia, jakim do tej pory była średnia arytmetyczna w danej grupie. Zatem takie postępowanie nie jest dobre.

MIANOWNIK: POŁĄCZONA WARIANCJA [d-COHENA] — W takim razie można spróbować czegoś, co nazywa się wariancją połączoną (pooled variance). Najprościej rzecz ujmując - uśredniamy wariancje i to jest właśnie wielkość efektu d Cohena (d oznacza difference, różnica). Dzięki temu, wyniki odnoszone są do swoich własnych średnich arytmetycznych, a my mamy uchwyconą zmienność wyników w obu grupach.

WIELKOŚĆ EFEKTU d-COHENA — Jest to tzw. standaryzowana różnica między średnimi, gdzie standaryzacja po prostu oznacza podzielenie różnicy między średnimi arytmetycznymi przez rozproszenie wyników bez względu na to, do jakiej grupy należą.

MIANOWNIK: WARIANCJA W GRUPIE KONTROLNEJ [delta Glassa] — technicznie rzecz biorąc, jest to metoda najprostsza. Polega na włożeniu do mianownika zmienności jednej z grupy: tej, która ma być grupą odniesienia. To postępowanie ma sens, gdyby badacza interesowało zestawianie grup i w przypadku badań eksperymentalnych to ma sens. Jedna z nich jest kontrolna, a druga – eksperymentalna, więc siłą rzeczy różnicę między średnimi arytmetycznymi odnosi się do grupy kontrolnej, a dokładniej: względem zmienności wyników w tej grupie. Zatem dla wielkości efektu delta Glassa w mianowniku znajduje się zwykle odchylenie standardowe s jednej z grup.

Wybierając jedną z wielkości efektu, otrzymujemy pojedynczą liczbę (zwaną wartością wielkości efektu d-Cohena/delty Glassa). To może być -0,33 albo 1,25.

ROZMIARÓWKA — Mała wielkość efektu to te wartości, które zaczynają się od |0.20|.
Umiarkowana wielkość efektu to te wartości, które przekraczają |0.50|.
Duża wielkość efektu to ta powyżej |0.80|.

DODATKOWE INFORMACJE — Jakie wartości mogą przybierać wyniki wzorów na wielkości efektu d Cohena czy delta Glassa? Poniższe własności wynikają wprost z tych wzorów. W liczniku znajduje się różnica między średnimi, zaś w mianowniku pierwiastek. Skoro pierwiastek może być tylko dodatni, to jedynym co ogranicza to różnica w odejmowaniu. A zatem - pełna dowolność.

  • Wielkości efektu osiągają wyniki zarówno ujemne, jak i dodatnie..
  • W zasadzie nie są niczym ograniczone: wielkość efektu d Cohena czy delta Glassa mogą wynosi -5,23 albo +3,26

DO IT YOURSELF: JAK WYKONAĆ TEST T-STUDENTA W SPSS? — W SPSS-ie klikamy kolejno: Analiza -> Porównywanie średnich. Musimy wybrać zmienną kodującą podział na grupy (np. "Płeć") oraz oczywiście, badaną cechę, czyli kolumnę np. ''MFQ_HARM_AVG''. Tak nazwana jest kolumna oznaczająca wartości zmiennej.


Wybieramy Test t dla prób niezależnych.
Pojawia się okno dialogowe test t dla prób niezależnych.
Musimy teraz wskazać, która zmienna to zmienna zależna, dla której można policzyć średnie w dwóch grupach. Oraz która zmienna to zmienna dwuwartościowa, która grupuje (dlatego grupująca) obserwacje w dwie rozłączne grupy. Można tę zmienną nazwać też czynnikiem.

Kiedy wybierasz zmienną grupującą, to musisz wskazać, jak zakodowano te grupy. U mnie jest tak, że jeśli obserwacją jest kobieta, to ma przypisane 0. A jeśli to mężczyzna, to ma przypisane 1.
Napiszę to na wszelki wypadek, bo niektórzy biorą ten podział osobiście. Żaden podział nie będzie dobry i ktoś się obrazi. Więc... skoro tak... to ja ułatwiam sobie zapamiętywanie pod względem podobieństw anatomicznych :-)


Zmienne wybrane. Naciskamy enter i pojawia się tabelka, w której są dwa testy.



Dlaczego o tym mówimy? Bo wybór odpowiedniego wiersza z tabelki SPSS-owskiej przedstawiającej wyniki testu t-Studenta zależy od wyniku testu Levene'a. I pewnie też ocena na kolokwium czy egzaminie).


W pierwszej i drugiej kolumnie jest statystyka testowa i jej istotność statystyczna. Analizę zaczynamy właśnie od tego testu, dlatego, że w zależności od jego wyniku będziemy interesować się pierwszym lub drugim wierszem w tej tabeli.

P-wartość w teście Levene'a ma wartość dużo niższą od poziomu istotności alfa równego 0.05, stąd pewnie zgodnie z taką szkołą można uznać, że wariancje w grupach nie są równe.

Skoro nie są rówe, to będziemy odczytywać wyniki znajdujące się w drugim wierszu tej tabeli.


Obserwacje odstające (outliery)

STYCZEŃ 2023| LJK | ~2000 słów

WPROWADZENIE — Odkąd tylko zaczęto zbierać dane, powracało pytanie, co należy zrobić, gdy jakaś obserwacja swoją wartością mocno odstaje od pozostałych – czy jest ona elementem zjawiska, obserwacją, która może się pojawić, ponieważ charakter zjawiska dopuszcza taką możliwość, czy raczej jest błędem w pomiarze, literówką powstałą podczas wpisywania danych do bazy. Weźmy kilka obserwacji: 1,6,2,8,9,100,2,3 – wartość sto od razu rzuca się , ale czy wolno ją po prostu usunąć? Gdyby było pewne, że jest to błąd w zapisie, sprawa rozwiązałaby się sama.

OUTLIERY TO OBSERWACJE ODSTAJĄCE. Out znaczy na zewnątrz, a lier jest od leżenia. Outlier znaczy leżący na zewnątrz. Śmieszne, że u nas w Polsce odstająco się stoi, a w angielskim leży.

WZÓR NA OUTLIERY — Czasami pada pytanie o wzór na outliery. Jedyny wzoropodobny produkt, jaki mi przychodzi do głowy to uwzględniający rozstęp międzykwartylowym, IQR (interquartile range). Wartości, które znajdują się powyżej 1,5·IQR (rozstęp międzykwartylowy) od każdego z kwartyli, to właśnie obserwacje odstające outliery. Widać je szczególnie wyraźnie na wykresie skrzynkowym (boksplocie), gdzie mamy skrzynkę, wąsy i inne dodatkowe elementy.

Długość skrzynki wyznacza rozstęp międzykwartylowy (jest to różnica między górny kwartylem Q3 a dolnym kwartylem Q1). Koniec każdego z wąsa znajduje się w odległości 1,5 · IQR odejmowanego raz od dolnego, a raz od górnego kwartyla. Jeśli obserwacja nie wejdzie w zakres między dolnym a górnym wąsem, to uznaje się, że jest obserwacją odstającą.

Programy statystyczne zaznaczają takie obserwacje różnymi kółkami i gwiazdkami. SPSS postępuje w ten sposób, że kółkami zaznaczone są takie obserwacje, które wprawdzie znalazły się poza zasięgiem wąsów, ale mieszczą się w zasięgu dwukrotnej długości wąsa. Gwiazdkami zaznaczone są takie, którymi nie można sięgnąć nawet dwukrotną długością wąsa. Więcej znajdziesz w poście o wykresie skrzynkowym i diagnostyce normalności.

Według tej samej filozofii, na jakiej oparła się ta zasada, przyjmujemy też pewne założenie o rozkładzie cechy. A mianowicie to, że badana cecha ma (teoretycznie) rozkład normalny. Zarówno podstawą tego wzoru, jak i boksplota przyjmuje się rozkład normalny jako rozkład odniesienia. Nie zawsze to założenie da się utrzymać.

OUTLIERY KOJARZĄ SIĘ Z NIETYPOWOŚCIĄ - Ale nietypowość trzeba jakoś zrozumieć, zdefiniować, określić. Można by pomyśleć, że kluczem do zrozumienia nietypowości outlierów jest po prostu sama ich wartość. Przecież najczęściej spotyka się właśnie tak definiowane outliery jako obserwacje, które są różne (odległe) od pozostałych. Ich nietypowość jest mierzona różnicą między ich wartością a na przykład średnią arytmetyczną. Im dalej od średniej, tym bardziej nietypowo. Tymczasem nietypowość bierze się nie z samej wartości, np. 1,72, a z tego, jak często taka wartość może się zdarzyć.

PRZYKŁAD — Ocena 5 z klasówki sama w sobie nie oznacza nic - jest zależna od kontekstu. Raz przecież piątka jest typowa (na przedmiotach łatwiejszych, np. plastyka... chyba), a raz jest nietypowa, jak na przedmiotach ścisłych. Przepraszam w tym miejscu wszystkich nauczycieli fizyki, matematyki i chemii za to, że straszę Waszymi przedmiotami, ale sami wiecie, jak jest. Są to przedmioty, które wymagają więcej wkładu ze strony ucznia (ze strony nauczyciela też), więc siłą rzeczy, częstość piątek jest inna niż na takiej religii.
Aby nieco odejść od przedmiotów w szkole możemy wykorzystać całkiem pospolitą cechę, jaką jest wzrost. Mój wzrost to 171 cm. Czy to obserwacja typowa czy odstająca? Zależnie od tego, na jakim tle ją porównywać.
W przedszkolu większość zerówkowiczów mieści się w przedziale między 110 a 140 centymetrów. Z moim 170 byłabym przedszkolakiem-gigantem, dlatego, że 90 % populacji siedmiolatków osiąga wzrost w przedziale między 110 a 140 centymetrów. Pozostałe 10% jest albo z lewej strony tego przedziału (poniżej 110) albo z prawej strony tego przedziału (powyżej 140). Mój aktualny wzrost znajduje się wiele powyżej górnej granicy. Powiecie, że to niemożliwe, aby taki przedszkolak trafił się? Ogólnie to prawda, to byłby naprawdę rzadki okaz przedszkolaka, ale Gigant z Illinois żył naprawdę i w wieku siedmiu lat miał 178 centymetrów - to nawet więcej ode mnie teraz. Ja i Rober Wadlow (ów Gigant z Illinois) jesteśmy outlierami z prawej strony typowego wzrostu przedszkolaka. Z prawej, bo osiągamy jak na przedszkolaka bardzo wysoki wzrost.
Przenieśmy się teraz do innej grupy. W grupie dorosłych ze swoimi 170 centymetrami jestem typową obserwacją. Zaś w grupie koszykarek byłabym outlierem z lewej strony. Większość koszykarek jest wyższa niż ja. Tak więc, o ile mój wzrost jest jedną z możliwych wartości, jaką można spotkać w gatunku homo sapiens, o tyle to, czy jest obserwacją typową zależy od grupy, od częstości występowania pozostałych wartości. Outlierowość zależy od rozkładu. Zgodnie z powyższym, może się zdarzyć, że cały zbiór składa się z outlierów, bo zamiast zbadać wzrost dorosłych, ktoś trafił do grupy przedszkolaków i jedyną obserwacją, która należy do dorosłych, jest wychowawczyni.

OUTLIERY JEDNO- I WIELOWYMIAROWE — Obserwacja może być outlierem w obrębie jednej lub wielu zmiennych na raz. Weźmy przykład wzrostu przedszkolaków. Ja pośród przedszkolaków różniłabym się wzrostem – byłabym outlierem w zmiennej Wzrost. Ale wzrost to nie jedyna różnica między mną a przedszkolakami - różnię się też wagą, długością rąk, nóg, a mówię tu tylko o cechach antropometrycznych. Jeśli dana obserwacja jest różna od pozostałych pod jednym względem to jest jednowymiarowym outlierem. Jeśli pod więcej niż jednym względem, to jest wielowymiarowym outlierem.

ROZKŁADY SKŁONNE DO POSIADANIA OUTLIERÓW I ROZKŁADY ODPORNE —Są takie cechy, które same z siebie produkują outliery, ze względu na to, że taki mają rozkład. To zależy od kształtu ogonów rozkładu. Jeśli pamiętasz ogólną budowę rozkładów, to wiesz, że można wyróżnić szczyt, ramiona i ogony. Wiesz też, że krzywa ilustrująca rozkład cechy nigdy nie może przekroczyć osi OX (dlatego, że prawdopodobieństwo nie przyjmuje wartości ujemnych).

Jeśli teraz dana cecha ma rozkład, którego ogony szybko dotykają osi OX, wygaszając się po drodze, taka cecha (zmienna) jest ma rozkład odporny na outliery (outlier-resistant). W przeciwnym wypadku rozkład takiej cechy jest rozkładem mającym skłonność do posiadania outlierów (outlier prone). Paradoksalnie to, co zostało powiedziane o rozkładach odpornych na outliery, spełnia rozkład normalny, którego ramiona bardzo szybko zbliżają się do osi OX z jednej i z drugiej strony szczytu.

Z reguły trzech sigma wynika, że rozkład normalny ma szansę równe niecałe 1%, aby pojawiła się obserwacja spoza przedziału +/- trzy odchylenia standardowe od średniej. A im dalej przesunięta od średniej, tym jeszcze mniejsza szansa przytrafiania się. Tyle, że dużą rolę w tym wszystkim gra wielkość próby. Jeśli w dużej próbie, którą podejrzewasz, że wartości pochodzą z rozkładu normalnego, nie pojawiają się żadne obserwacje odstające (kółka, gwiazdki), to znaczy, że nie masz do czynienia z rozkładem normalnym.

Ale 'być odpornym na outliery' a 'nie mieć outlierów' to dwie różne sprawy. Rozkładem, który nie ma szans generować outliery, jest na przykład rozkład jednostajny. Cecha ma rozkład jednostajny, gdy wszystkie jej wartości mają teoretycznie jednakową szansę pojawienia się - to jest jednokrotny rzut monetą, kostką wielościenną. W ten sposób, żadna z wartości nie ma możliwości stać się gigantem ani też karłem.

OBSERWACJE ODSTAJĄCE I WPŁYWOWE — Strach przed outlierami bierze się z tego, że mogą one zaburzać modele statystyczne, na przykład model regresji liniowej. Mogą, ale nie muszą – sprawa jest bardziej złożona. Outlier nie zawsze psuje wszystko, zależy to od tego, czy jednocześnie jest obserwacją wpływową. Obserwacja wpływowa to taka obserwacja, która wywiera duży wpływ na postać modelu statystycznego - na jego współczynniki, w tym: współczynniki regresji. Obserwację wpływową najłatwiej zrozumieć przez to, co się dzieje z modelem po jej usunięciu. A więc, jest to obserwacja, której usunięcie powoduje dużą zmianę współczynników modelu.

Zobaczmy to na rysunku. Wykres przedstawia wykres rozproszenia (rozrzutu, scatterplot) dwóch zmiennych. Każdy pojedynczy punkt to obserwacja i gdy mamy do czynienia z analizą dwóch zmiennych, to słowo obserwacja odnosi się do dwóch wartości – po jednej na każdą zmienną. Mając wykres rozproszenia, chmurę punktów przebijamy linią regresji o określonym wzorze. Gdzie mogą znajdować się obserwacje wpływowe? Cóż, trudno szukać obserwacji wpływowych w środku samej chmury punktów. Usunięcie jednej typowej obserwacji nie spowoduje wielkiej zmiany, bo zawsze wokół są podobnie typowe sąsiadki. Zatem, aby obserwacja byłaby obserwacją wpływową należy szukać jej gdzieś dalej poza chmurą punktów - na rysunku ma kolor fioletowy.

I to, gdzie leży obserwacja odstająca (outlier), ma znaczenie, czy jednocześnie jest obserwacją wpływową. Jeśli obserwacja odstająca leży na linii regresji lub blisko w jej okolicach - jak ta fioletowa obserwacja - wówczas nie ma ona potencjału na bycie obserwacją wpływową. Jej usunięcie niewiele zmieniłoby ułożenie linii regresji. Nadal leżałaby mniej więcej w tym samym miejscu.

Inaczej sytuacja przedstawia się w tym przypadku:

Jeśli obserwacja odstająca znajduje się daleko od linii regresji, wówczas ma tendencje do przyciągania tej linii w swoim kierunku, zaburzając charakter zależności. Ta czerwona linia to linia regresji  zaburzona przez obserwację odstającą leżącą w zupełnie innym miejscu niż poprzednio. Może zdarzyć się tak, że nieświadomy obecności wpływowego outliera badacz dojdzie do wniosku, że linia regresji jest prawie równoległa do osi poziomej OX, czyli dany predyktor nie ma znaczenia. Może też uznać, że związek między zmiennymi jest większy niż naprawdę jest (na przykład przy analizie korelacji).

Gdy nie zidentyfikujemy obserwacji wpływowych, może okazać się, że nasz model opiera się w dużej mierze na jednej obserwacji.

DETEKCJA OUTLIERÓW, czyli jak znaleźć obserwacje odstające? — Sposobów na znajdowanie outlierów jest kilka. Dzielą się one na metody wizualne, liczbowe i testy.

  • WIZUALNE: boksplot, identyfikuje outliery po tym, że znajdują się poza wąsami wykresu skrzynkowego. Była o tym mowa w tym poście, ale nieco wyżej.
  • LICZBOWE: standaryzacja wyników - wyniki surowe przekształcamy do wyników standaryzowanych, zwanych wynikami z. Oznacza to, że od każdej surowej wartości osoby badanej odejmujemy średnią i dzielimy przez odchylenie standardowe. Następnie tak przekształcone wartości porównujemy z wartościami rozkładu normalnego standardowego. Wiemy, że działa dla niego reguła trzech sigma, więc jeśli jakiejś osobie badanej przytrafi się wynik z = 2,74, to wiemy, że jest to wynik, który znalazł się wśród takich, które mają 5% szansę pojawienia się.
  • TESTY: test Grubbsa, który bada, czy dany zestaw wyników ma przynajmniej jeden outlier. Minusem tego testu jest to, że porównuje cechę z rozkładem normalnym. Nie jest to jedyny test outlierów, ale w SPSS-ie nie ma żadnych testów.

Najłatwiej jest oczywiście z jednowymiarowymi outlierami - takie od razu widać podczas wstępnych analiz za pomocą narzędzi statystyki opisowej.

CO ZROBIĆ Z OUTLIERAMI? — Wiemy już, że nie można ich wyrzucić tak po prostu. Bycie outlierem nie oznacza od razu bycia pierwszym do usunięcia, ale nie ma jednego dobrego przepisu na postępowanie z nimi, o ile nie jest to wyraźny outlier wynikający z tego, że dana obserwacja nie miała prawa się przytrafić. Jak to się dzieje? Jeśli skala oodpowiedzi rozpina się między 1 (zdecydowanie się nie zgadzam) a 7 (zdecydowanie się zgadzam), to odpowiedź 77 jest zdecydowanie outlierem.

  • Po pierwsze - przyjrzeć się danym. Czy dana cecha może przyjść taką wartość? Gdy odpowiedź jest przecząca, wówczas można rozważyć usunięcie wartości w tej komórce.
  • Po drugie - sprawdzić, ile wyniosłaby dana statystyka z outlierem, a ile bez outliera? Będziesz wówczas wiedzieć, jak bardzo dana obserwacja ma wpływ na wyniki analiz.
  • Po trzecie - stosować metody odporne na outliery, w tym metody nieparametryczne.

STATYSTYKI ODPORNE NA OUTLIERY — Jeśli zdecydujemy się nie wyrzucać obserwacji odstających, nadal mamy pole manewru podczas wykonywania analiz. Istnieją statystyki odporne na outliery. Najprostszym przykładem statystyk opisowych jest moda, a także mediana. Średnia arytmetyczna sama w sobie nie jest odporna na obserwacje odstające, ale możemy przygotować próbę tak, aby wykluczyć wpływ outlierów.
Można to zrobić na dwa sposoby. Po pierwsze można usunąć obserwacje odstające i obliczyć średnią arytmetyczną na pomniejszonym zbiorze obserwacji. Wówczas taka średnia arytmetyczna nazywa się średnią ucinaną (trimmed mean) i outliery nie mają wpływu na jej wartość.

Obok tego, istnieje też sposób bez zmniejszania wielkości próby. Porządkujemy rosnąco obserwacje. Jasną rzeczą jest to, że w takim szeregu outlier będzie albo najmniejszą, albo największą obserwacją. Po uporządkowaniu zastępujemy outliera wartością sąsiadującą z nim najbliżej w tym szeregu. Dopiero na tak zmodyfikowanym zbiorze wartości obliczamy średnią arytmetyczną. Nazywa się ona wówczas średnią winsorowską. Winsorowską – bo pierwszą osobą, która wpadła na ten pomysł, był Charles Winsor (bez d w środku, nie jak zamek Windsor).

Statystyką mierzącą zależność między dwoma zmiennymi i jednocześnie odporną na obserwacje odstające jest współczynnik korelacji rho Spearmana, który jest przecież tym, samym co współczynnik r Pearsona, tyle, że liczonym na rangach obserwacji. Skoro mówimy o współczynniku rho Spearmana, należy też wspomnieć o całej gałęzi statystyki, jaką są metody nieparametryczne. Ale to i tak dopiero wstęp do statystyki odpornej na outliery.

Ignorowanie lub wyrzucanie go może skończyć się źle dla nas. Możemy nasze wnioskowanie oprzeć na części danych, tej części, która mówi złą historię. Znamy to z własnego życia - ile to razy źle odczytaliśmy czyjeś zachowanie i myśleliśmy, że istnieje coś, co nie istniało. Ryzykujemy zawód i rozczarowanie. W Internecie krąży charakterystyczny obrazek wymownie oddający co się dzieje, gdy tworzymy model nie zwracając uwagi na obserwację odstającą.

Współczynnik korelacji i jego odmiany

- Po co są współczynniki korelacji?
- Skąd mam wiedzieć, jaki współczynnik korelacji wybrać?
- Współczynnik korelacji liniowej r Pearsona.
- Co to jest związek liniowy?
- Jakie jest zakres wartości współczynnika korelacji r Pearsona?
- Interpretacja dodatniego i ujemnego współczynnika korelacji.
- Różnica między liniowymi związkami a monotonicznymi.
- Liniowe, monotoniczne i niemonotoniczne związki - przykłady.
- Współczynnik korelacji rho Spearmana: na czym polega ta nieparametryczność oraz co to jest rangowanie danych.
- Współczynnik tau-b Kendalla. Rangi wiązane – co z tym zrobić? Przykład.
- Testy istotności różnych współczynników.
- Trzy specjalne okazje: korelacje zerowe, związki nieliniowe i jedna zmienna stała.
- Jaka wartość współczynnika korelacji jest dobra?
- Czy można policzyć współczynnik korelacji r Pearsona dla zmiennej ilorazowej i nominalnej?
Nie może też zabraknąć:
- DIY: Zrób sobie analizę korelacji w SPSS-ie
Na koniec:
- macierz korelacji - podstawowa wersja.



Po co są współczynniki korelacji?
Po to, aby zbadać, jak bardzo dwie zmienne lubią się.
Dlaczego ważne jest to lubienie? Mięsem w statystyce jest zmienność (i stąd miary rozproszenia, np. wariancja) oraz współzmienność (to może nawet bardziej interesujące, bo dotyczy więcej niż jednej zmiennej). Uczymy się, aby mierzyć, ważyć, badać stopień współzależności między dwoma, trzema i więcej zmiennymi. Liczymy współczynniki korelacji, aby sprawdzić jak bardzo zmienne są ze sobą związane. Robimy modele, tak aby móc choć w jakiejś części capnąć zmienność.


Skąd mam wiedzieć, jaki współczynnik korelacji wybrać?
To zależy od kilku rzeczy.
Po pierwsze: od tego, co chcesz zobaczyć. Wiem, że akurat w poście wprowadzającym do współczynników korelacji to jest wyższa para kaloszy, ale chciałabym, abyś to pamiętała: Ty też masz wpływ na dobór narzędzi.
Po drugie: typ zmiennej (ciągły lub dyskretny) oraz skala pomiarowa w dużym stopniu determinują wybór odpowiedniego współczynnika.
Po trzecie: rozkład, z jakiego pochodzą dane. Dzięki temu można też testować istotność statystyczną współczynnika.
Po czwarte: część współczynników korelacji jest jednocześnie miernikiem wielkości tego związku. Czyli możesz dzięki niemu określić wielkość tej zależności (effect size).
Po piąte: co powiedział Tobie prowadzący (jeśli jeszcze studiujesz i masz zaliczenie). No, tak...

A teraz czas na niektóre, najpopularniejsze współczynniki korelacji.


Współczynnik korelacji liniowej r Pearsona.
Zaczniemy od idealnej sytuacji. Obie zmienne są mierzone na skali ilorazowej, są ciągłe i na dodatek związek między nimi jest liniowy. I tu pierwszy schodek - co to jest związek liniowy?


Związek liniowy.
Jeśli mamy związek liniowy pomiędzy dwoma zmiennymi, to znaczy linia prosta dobrze oddaje chmurę punktów, to liczymy współczynnik r Pearsona. Jak sama nazwa wskazuje: współczynnik korelacji liniowej r Pearsona, dlatego liniowość jest ważna.
Te dane są bardzo mocno skoncentrowane. Powinno to znaleźć odzwierciedlenie w wartości współczynnika korelacji.


A jakie wartości może przyjąć współczynnik korelacji r Pearsona?
Współczynnik korelacji r Pearsona może przyjmować wartości od -1 do 1. Czyli jest ograniczony do pewnego przedziału, ale może mieć wartości dodatnie oraz ujemne.
Skoro mamy końce przedziału, to pewnie one coś oznaczają. I tak jest istotnie. Im bliżej 1, tym ten związek między zmiennymi mocniejszy. Ale kiedy piszę tu związek, to nie mam na myśli związków przyczynowo-skutkowych. Szczerze mówiąc, myślę o tym raczej w kategoriach koncentracji punktów, ich bliskości w tej chmurze.

Interpretacja dodatniego i ujemnego współczynnika korelacji.
Jeśli współczynnik korelacji jest dodatni (po prawej stronie), to zachodzi takie zjawisko: mniejszym wartościom zmiennej X odpowiadają mniejsze wartości zmiennej Y oraz wyższym wartościom zmiennej X odpowiadają wyższe wartości zmiennej Y.
Jeśli współczynnik korelacji jest ujemny (po lewej stronie), to zachodzi takie zjawisko: mniejszym wartościom zmiennej X odpowiadają wyższe wartości zmiennej Y oraz niższym wartościom zmiennej X odpowiadają wyższe wartości zmiennej Y.

Chciałoby się powiedzieć, że zależność jest prostoliniowa, ale to słowo jest zarezerwowane gdzie indziej. Chciałoby się też powiedzieć, że jest wprost proporcjonalna zależność, ale to wyrażenie też jest zarezerwowane.
Jeśli współczynnik korelacji jest dodatni, to zachodzi takie zjawisko: mniejszym wartościom zmiennej X odpowiadają mniejsze wartości zmiennej Y oraz wyższym wartościom zmiennej X odpowiadają wyższe wartości zmiennej Y.
Obie sytuacje są prostoliniowe i wprost proporcjonalne. Może w mniejszym stopniu prostoliniowe, bo punkty nie leżą idealnie na prostej, ale wyjaśnię o co chodzi o wprost proporcjalne.
Tak, ja wiem, że te dwie sytuacje są niejako komplementarne, uzupełniające się, i słowa wprost oraz odwrotnie byłyby na miejscu. Ale obie te zależności są wprost proporcjonalne. To po prostu oznacza, że w pierwszym przypadku tempo rośnięcia jest dodatnie, a w drugim – ujemne.
Jeśli zaś wiemy, że te zmienne mają rozkład normalny, to jeszcze lepiej, bo możemy przeprowadzić test istotności takiego współczynnika (o tym będzie niżej, przy testach istotności statystycznej).


Różnica między liniowymi związkami a monotonicznymi.
W związkach liniowych wartości zmiennych przesuwają się w tym samym kierunku w tym samym tempie. To może być szybkie tempo, może być i wolne, ale jest ono stałe (bez czasowych przestojów lub przyspieszeń).
Monotoniczność to coś luźniejszego niż liniowość. W związkach nieliniowych, to tempo nie jest aż takie ważne. Ważne jest, aby było, może zmieniać się, ale jeśli porusza się do góry, to do góry, a jak do dołu, to do dołu. Mogą być przestoje, nawet długie, ale nie ma zawracania, jeśli ruch jest do przodu i nie ma nawet krótkiego wzlatywania, jeśli opada).
Co się pali, to się jednocześnie nie odradza, a co dojrzewa, zarazem nie młodnieje. Jak coś szybuje w górę, to nie opada, a co spada w dół, nie podnosi się. Ani. Na. Jedną. Chwilę. To istota monotoniczności.


A teraz garść przykładów - każdy z innej beczki.
Liniowe związki (tempo przyrostu jest stałe) - przykłady:
- składniki do ciasta a wielkość ciasta – jeśli weźmiesz dwa razy więcej składników, masz dwa razy więcej ciasta,
- droga a prędkość – jeśli jedziesz ze stałą prędkością, to długość pokonanej drogi rośnie w trybie stałym,
- napełnianie wanny – woda leje się w stałym tempie (przynajmniej u mnie, u Was nie? ;-)
Macie tak, że z kranu woda leje się, a w wannie nic nie przybywa albo woda napełnia się tak, jakby ktoś od czasu do czasu dolewał znienacka kubeł wody?
Monotoniczne związki (ale nie: czysto liniowe, tempo zmiany jest różne, ale wciąż albo opadające albo unoszące się) - przykłady:
- doświadczenie życiowe a wiek;
- w miarę upływu lat mamy coraz więcej doświadczeń, ale są okresy przestoju, natomiast nie da się zabrać nam doświadczeń... pewnych rzeczy odzobaczyć się po prostu nie da;
- inteligencja a czas – rośnie do pewnego momentu, a potem jest faza plateau.
Jak rośnie, to rośnie. Rośnie wolno jak ciasto, rośnie szybko jak dzieci, ale rośnie. Maleje jak cierpliwość, albo maleje powoli. Ważne, że w stałym tempie, ze stałym krokiem jest ten ruch. Wydaje mi się, że związki w psychologii bywają bardziej monotoniczne niż liniowe.
Niemonotoniczne związki - przykłady:
- efektywność ćwiczeń fizycznych a ilość wykonanych powtórzeń - po pewnym czasie ciało przyzwyczaja się do ćwiczeń i nie męczysz się już tak bardzo, ale też już nie chudniesz. Przy ćwiczeniach z Lewą czy z Chodą pojawia się w końcu takie plateau;
- waga człowieka a czas – czasem chudniemy, czasem tyjemy, czasem waga jest stała;
- temperatura człowieka w czasie - czasem mamy gorączkę, czasem nam zimno;
- pieniądze na koncie w czasie - wypłata, wydatek, wypłata, premia, większy dodatek... i tak w kółko;
- oddech człowieka w czasie – to jest piękna sinusoida, posłuchaj swojej: wdech/wydech, wdech/wydech;
- i wiele innych...
U-kształtne, W-kształtne, odwrócone U-kształtne, gwiazdki, trójkąty i inne pokraki.
Podsumowując, jeśli masz dane, które są: mierzone na skali interwałowej lub ilorazowej (a bosko byłoby, aby były ciągłe), a jeśli na dokładkę pochodzą z rozkładu normalnego, to uderzaj we współczynnik korelacji liniowej r Pearsona*. Jeśli jednak ta zależność jest nieco luźniejsza, monotoniczna, ale nie: dokładnie liniowa, to można byłoby rozważyć współczynnik korelacji rho Spearmana.
*Pewien problem pojawi się przy testowaniu takiego współczynnika. Liczenie współczynnika to jedno, a testowanie to drugie.


Współczynnik korelacji rho Spearmana.
Mówi się, że to współczynnik korelacji robiony na danych rangowanych i że jest nieparametrycznym odpowiednikiem współczynnika korelacji r Pearsona. Co to znaczy?
Najpierw dowiemy się, co to znaczy tutaj ta nieparametryczność współczynnika. A potem powiem, o co chodzi z tym rangowaniem danych.
Nieparametryczność.
Nieparametryczność oznacza tutaj, że nie zakładamy, z jakiego rozkładu pochodzą dane. Napisałam dużo wyżej, przy współczynniku r Pearsona, że najlepiej aby dane pochodziły z rozkładu normalnego. To jest założenie odnośnie postaci danych. Nie każde będą ją spełniać. I oto tu tak jest.

Rangowanie danych.
To oznacza przypisywanie numerów porządkowych wartościom zbadanej przez Ciebie zmiennej. Te numery porządkowe, inaczej niż numery w dzienniku, będziemy traktować jak liczby, czyli jakby były skalą co najmniej interwałową.


To jest takie szort intro do rangowania.
Wiem, że możecie spotkać się z innym sposobem rangowania w tutorialach dostępnych w Internecie. Wynik będzie ten sam (bo musi), ale według mnie to jest dużo cudowania z tym wyciąganiem danych z tabel albo z zastanej kolejności, szeregowaniem ich i jeszcze raz w ustawianiem w starej kolejności. Moja metoda jest prosta: zrób sobie drugą kolumnę obok tej oryginalnej, znajdź najniższą wartość, wpisz w tę stworzoną kolumnę numer 1. Potem znajdź drugą najniższą wartość, wpisz obok 2... i tak do najwyższej wartości, której wpiszesz de facto liczbę zbadanych osób (moc zbioru to się profesjonalnie nazywa). Ja się zawsze gubiłam, jak mi kazali rozbijać oryginalny szyk, porządkować, przypisywać kolejność, a potem wracać do starego uporządkowania.
Dla mnie to jest ściąganie butów i spodni, jeśli chcę się tylko podrapać po zadku, ale kto wie – może dla Ciebie to zadziała.
Możesz policzyć sobie współczynnik korelacji r Pearsona między punktami z testu z polskiego oraz punktami testu z matmy (czyli korelacja między X a Y). Jeśli jednak wiesz, że ta zależność niekoniecznie jest liniowa (wykres rozproszenia załączam niżej), albo wiesz, że dane pochodzą z rozkładów inny niż normalny, to zapraszam do policzenia korelacji rho Spearmana między X a Y (co jest wykonaniem współczynnika r Pearsona między rangami, między RX a RY).
Korelacja r Pearsona dla X oraz Y wynosi 0.733
Korelacja rho Spearmana dla X oraz Y wynosi 0.7
Tak, jak już pisałam można policzyć sobie korelację r Pearsona dla RX i RY i powinno wyjść to samo co w korelacji rho Spearmana dla X i Y: i tak jest, mi wychodzi 0.7
Dlaczego? Bo rho Spearmana = r Pearsona + RX i RY.
Spearman tak naprawdę przebiera obserwacje w koszulki z liczbami i na tych liczbach oblicza współczynnik korelacji r Pearsona. Przebieranie w koszulki z numerami jest nazywane rangowaniem. Dlatego trzeba uważać, co koduje wyjściowa zmienna (czym jest? Czy są to punkty w teście psychologicznym, czasy reakcji, czy poziomy jakiegoś czynnika). Jeśli to są poziomy wykształcenia, to po rękach dostaniesz, jak tkniesz je współczynnikiem rho Spearmana. Porządkowe mają swój własny świat korelacji.
Dobrze, a teraz wklep w Internet takie zapytanie: rho Spearman for ordinal data. Wyskoczy dużo wyników pokazujących, że można zastosować rho Spearmana do zmiennych porządkowych (skoro można wprowadzić porządek, to można rangować). Nie ma sensu kopać się z koniem, przynajmniej dla mnie, tutaj na blogu. Pokazuję Ci, że rho Spearmana robi to, co można robić z danymi interwałowymi i ilorazowymi (dzieli i mnoży), że omija zakaz dzielenia i mnożenia dla zmiennych porządkowych. Chyba najlepszym wyjściem w tym momencie jest być podejrzliwym, jeśli przykłada się rho Spearmana do zmiennych mierzonych na skali porządkowej.
Tak czy inaczej, to pokazuje, że statystyka to nie jest zbiór algorytmów i bywa, że zdania są podzielone. Tak, jak z ciastami. Każdy ma swój przepis po babci. Po prostu niektórym te ciasta wychodzą smaczniejsze. Ale wiem – to frustrujące i męczące.


Tau-b Kendalla (czyt. tau-be, jak gołąb po niemiecku).
Czasami problem jest z rangami. Akurat mój przykład z testami z polskiego i matmy był bardzo przyjemny, bo nikt nie dostał takiej samej liczby punktów, ale kiedy dwie osoby dostają ten sam wynik, to robi się supeł, tzw. wiązanie (tie). To mogą być też więcej niż dwie osoby. Na przykład są takie egzaminy, gdzie połowa roku oblewa i ma dwóje. Wtedy to jest jeden wielki kołtun (ale po statystycznemu nadal tylko wiązanie).

Rangi wiązane – co z tym zrobić? Przykład.
Pięć osób pisało test z fizyki. Wyniki punktacji to: 10, 15, 11, 7 i 10. Test był na 20 punktów (to nie ma teraz znaczenia, ale dodaję, aby złapać kontekst). Gdyby chcieć to po bożemu porangować, to byłby problem, bo dwie osoby mają ten sam wynik. Co się robi? Jest na to bardzo prosty sposób. Najpierw robisz po bożemu. Potem sumujesz te rangi, które odpowiadają związanym wynikom. Następnie dzielisz przez liczbę wspólników. Wszystkim przypisujesz tę uwspólnioną rangę.
Przeżyjmy to jeszcze raz – tym razem w tabeli:

Współczynnik korelacji rho Spearmana trochę gorzej sobie radzi, gdy mamy rangi wiązane (pogrubione komórki w tabeli). Jeśli jest ich niewiele, to pewnie nie ma to dużego problemu. Ale gdy jest ich już troszkę za dużo, to lepiej zrezygnować z rho, a zrobić gołębia Kendalla. (Chodzi mi o współczynnik korelacji tau-b Kendalla). Interpretacja jest taka sama. Czyli im bliżej do 1 lub -1, tym ściślejszy związek. Im bliżej zera, tym gorzej.

Testy istotności różnych współczynników.
Większość współczynników korelacji posiada opcję testowania istotności statystycznej. Ogarniemy to od początku, czyli od współczynnika korelacji liniowej r Pearsona. Skoro wymagamy, aby zmienne pochodziły z rozkładu normalnego, to czemu by nie skorzystać z tego i nie zatestować sobie coś? A dokładniej to zatestować hipotezę zerową o tym, że ten współczynnik korelacji r Pearsona w populacji jest równy zero. Piszę 'w populacji', bo przecież Ty teraz policzyłaś go na próbie. Ale chcemy móc uogólnić to na populację. Zakładamy o tej populacji, gdzie wyniki mają rozkład normalny (bardziej skrupulatnie: cechy ma rozkład normalny).
No, i o!
Hipoteza zerowa zawsze w takich testach to jest porównywanie do zera. Jeśli p-wartość wyniesie więcej niż 0.05, to współczynnik korelacji jest nieistotny statystycznie. Cholera wie, jak to prosto zinterpretować. Na pewno wiadomo, jak tego nie interpretować (Słoń różowy statystycznie).

Trzy specjalne okazje: korelacje zerowe, związki nieliniowe i jedna zmienna stała.
W tej części chciałabym pokazać trzy specjalne sytuacje.

1. Pierwsza z nich przedstawia klasykę, czyli współczynnik korelacji równy zero. Zmienne X i Y są niezależne, więc korelacja między nimi jest zerowa.

2. Druga z nich to związek nieliniowy. Jest jakiś zakres wartości zmiennej X, dla których obserwujemy wzrost wartości zmiennej Y, a potem następuje spadek. Bardzo dużym wartościom zmiennej X odpowiadają małe wartości zmiennej Y.
Te zmienne są zależne. Gdyby były niezależne obserwowalibyśmy kleksa złożonego z punktów, jak na rysunku wcześniej. A tutaj jest inaczej.
Problem jest taki, że współczynniki korelacji r Pearsona i rho Spearmana będą pokazywać 0 (albo bardzo niewielką wartość). Dlatego tak ważne jest zajrzeć sobie w dane i zrobić wykres rozrzutu (rozproszenia, ang. scatterplot).

Tu wszędzie są wykresy rozrzutu: na jednej osi są wartości zmiennej X, a na drugiej osi są wartości zmiennej Y. To nie ma znaczenia, która jest gdzie (na tym etapie).


3. Trzecia sytuacja to taka, w której jedna ze zmiennych jest stała: każda obserwacja ma tę samą wartość. Na przykład pacjenci w gabinecie ginekologicznym to tylko kobiety (czy z urodzenia, czy z - że tak to ujmę - z nabycia). W takim wypadku nie ma co mówić o współzmienności. Na poniższym wykresie widać, że wartości zmiennej X zmieniają się, od 1 do ponad 10. Tymczasem wartość zmiennej igrek jest ciągle na tym samym poziomie - trochę mniej niż 4.


Jaka wartość współczynnika korelacji jest dobra?
To nie jest tak, że im wyższy współczynnik korelacji, tym lepiej. Przykro mi, ale czasami chciałabym, aby nie było żadnej korelacji, na przykład między miłością rodzicielską o kolejnością urodzeń, sukcesem zawodowym a miejscem urodzenia, płcią a szczęściem. Czasem - inaczej - nastawiamy się, że istnieje związek na przykład między szczęściem a pieniędzmi, a tymczasem ta korelacja jest niewielka.

Na pewno gdzieś widziałaś taką tabelkę:

Wartości oraz określenia takich interpretacji to zmienna losowa zależna od wykładowcy, książki, strony w Internecie. Ogólnie: osoby, którą pytasz. Ja chciałabym, abyś wiedziała, że to, jak zinterpretować daną korelację zależy przede wszystkim od tego, co badasz.

W tej tabeli przypatrz się uważnie wierszowi z zerem. Umieściłam tam wykrzyknik. Niech Cię ręka boska broni od uznania niezależności zmiennych losowych, bo taki czy inny współczynnik korelacji wyszedł zero. Patrz w dane! A ku pamięci - zerknij jeszcze raz na przykład numer dwa.

Niektórzy jeszcze piszą/mówią, że istotność statystyczna jest bardzo ważna. Nie, moi drodzy, nie jest aż tak ważna, jak ważne wydaje się być słowo istotny statystycznie. Pisałam o tym esej, że to tylko słowo. Podłóż sobie różowy statystycznie, aby nie dać się uwieść. Korelacja na poziomie 0.001 może być istotna statystycznie i korelacja na poziomie 0.9999 może być nieistotna statystycznie, jest to naprawdę nie-takie-proste pojęcie do ogarnięcia.


Moja jedna zmienna jest ilorazowa (np. czas reakcji), a druga nominalna (wyznawana wiara). Czy mogę policzyć współczynnik korelacji r Pearsona dla takich zmiennych?
Nie. Dlatego, że obie zmienne muszą być ilorazowe. W zasadzie to typ słabszej skali ma decydujący głos w wyborze odpowiedniego współczynnika.


Zrób sobie korelację w SPSS.
Zanim zaczniemy czarować korelację w SPSS-ie, obejrzyjmy bazę. To jest stworzona przeze mnie baza z pięcioma zmiennymi. Jest to pięć cech charakterystycznych herbaty - wymyśliłam je ponieważ potrzebowałam dobrego przykładu do analizy składowych głównych (PCA) i pomyślałam, że skorzystam z niej w poście o korelacjach.
Pięć zmiennych: kolor (mierzone stopniem nasycenia czernią), czas (parzenia), gorycz (mierzona nasyceniem goryczą), teina (zawartość teiny w gramach na milimetr sześcienny) i cena. Są to zmienne ciągłe. Jeszcze raz: wymyślone. Służą mi do określenia pojęcia herbatowość. Są ze sobą związane i dzisiaj naszym zadaniem jest zbadać jak bardzo.
Uruchamiamy SPSS-a. Idziemy zrobić herbatę i po naszym powrocie pokazuje się taki oto widok. Oto:
BAZA...

1. Następnie wchodzimy w Analizy->Korelacje->Parami. Tak jak na grafice niżej.

Dlaczego parami? Bo będziemy sprawdzać stopień związania między dwiema zmiennymi. Albo inaczej: między każdymi dwiema, które wybierzemy.

2. Pokazuje się okienko z analizami.
Po lewej stronie jest lista zmiennych. Ja akurat mam tylko pięć zmiennych w bazie i wezmę je wszystkie wrzucę do korelacji. Tak więc zaznaczę wszystkie pięć zmiennych i przeniosę do okienka po prawej stronie.

Pod spodem są trzy sekcje.
Sekcja Współczynniki korelacji - musisz tu odpowiedzieć na pytanie czyją korelację chcesz liczyć - a może wszystkie na raz, albo tylko dwie z trzech dostępnych w klikalnym menu. Domyślnie jest r Pearsona. Mi to odpowiada, ponieważ mam zmienne, które są ciągłe.

Następnie jest rodzaj Testu istotności: jedno- czy dwustronny. O co chodzi? To jest związane z kierunkowością testów istotności statystycznej. Ja sobie zwykle zostawiam domyślną opcję, dwustronną.

Na końcu, dla ułatwienia: oznaczenie korelacji istotnych statystycznie. To znaczy, że jeśli p-wartość Twojego testu istotności statystycznej wybranego współczynnika korelacji jest mniejsza niż któregoś z progów: 0.05, 0.01, 0.001 to pojawią się odpowiednie gwiazdki.

3. Dalej klikamy przycisk Opcje - zobaczymy co tam siedzi.


Są dwie sekcje: pierwsza to są obliczenia na wartościach Twoich zmiennych. Zaznaczę sobie jeden kwadracik: średnie i odchylenia standardowe. Powinna mi wyjść taka tabelka, gdzie w wierszach będą kolejne zmienne (kolor, czas, gorycz...). A w dwóch kolumnach: średnie oraz odchylenie standardowe (policzone dla każdej z osobna). Może na razie sobie podarujemy iloczyny wektorowe, mi kojarzą się z fizyką.

Druga sekcja dotyczy traktowania zmiennych w sytuacji, gdy ktoś nie odpowiedział na pytanie, nie wklepało się czy cokolwiek innego tam się stało, co spowodowało, że w danym wierszu brakuje zwyczajnie wyniku.
Akurat u mnie nie ma takiej sytuacji, bo jest to sytuacja symulowana i zadbałam o to, aby sto hipotetycznych osób udzieliło odpowiedzi (nazywają się razem generowaniem obserwacji, to jest przydatne, ale to temat na zupełnie innego posta). W praktyce zawsze znajdzie się ktoś, kto nie odpowie, albo jego wyniki będą zafałszowane już na dzień-dobry. Albo diabli wzięli jego wynik. I jest tzw. brak danych (missing value).
Masz do wyboru: wywalić całą kolumnę, albo wywalić tylko te wiersze, w których brakuje jednej obserwacji, gdy algorytm liczy współczynnik korelacji. Ta pierwsza opcja wydaje się być niezbyt rozsądna - ot, tak położyć krzyżyk na całej kolumnie. Całej. A warto wspomnieć, że czasami cała kolumna liczy na przykład 1000 obserwacji. Można mieć wyrzuty sumienia, co?
Zostawmy tę domyślną opcję, zwłaszcza jeśli nie przerobiliśmy tematu missing values.

4. Klikamy OK w głównym okienku (pod sekcją z oznaczeniem istotności korelacji) i SPSS zaczyna trawić dane. Zwykle idzie to szybko i pokazuje się okno z wynikami.

Mam dwie tabelki - jedna została opisana w punkcie 2. To są podstawowe charakterystyki opisowe pięciu zmiennych. A pod tą tabelką jest druga, już ta właściwa. Gdyby pousuwać wiersze zawierajace istotność statystyczną i N, liczbę obserwacji biorących udział w obliczaniu współczynnika korelacji, to mogłabym nazwać tę tabelę macierzą korelacji. Z tymi dodatkowymi wierszami to jest prawie-prawie macierz korelacji. Wiem, że ktoś może uznać to za czepianie się, ale wyobraźcie sobie, że mówię Wam, że w jakiejśtam technice bierzemy pod uwagę macierz korelacji. I na bank znajdzie się ktoś, kto zrozumie, że mam na myśli wzbogaconą macierz, taką jak z tego raportu. Otóż nie, czysta macierz korelacji zawiera tylko i wyłącznie współczynniki korelacji, bez dodatkowych informacji.
Warto zauważyć, że macierz korelacji, ta tutaj (po usunięciu wierszy z Istotnością statystyczną i N), jest macierzą kwadratową. Czyli liczba wierszy jest równa liczbie kolumn. Nie odkryłam Ameryki - to prawda. Warto to jednak mieć gdzieś z tyłu głowy. Tak samo, jak warto mieć z tyłu głowy fakt, że laptopy chodzą na prąd i jak coś nie idzie to najpierw trzeba sprawdzić, czy urządzenie jest podłączone do prądu.
Na głównej przekątnej znajdują się 1. Dlaczego? Dlaczego współczynnik korelacji między Iksiem a Iksiem wynosi 1. Mimo, że czasami wydaje się inaczej, jesteś zgodny w 100% sam ze sobą, nie?
Macierz kwadratowa posiada jedną przekątną główną. Z lewej do prawej na skos. Wiem, że można na skos poprowadzić w drugą stronę. To nie jest główna przekątna.
Reszta uwag jest na rysunku.



Macierz korelacji - podstawowa wersja
Na koniec jeszcze raz - macierz korelacji - bez zbędnych wierszy z istotnością statystyczną i liczbą obserwacji.
To są te same dane, te same współczynniki korelacji. To jest dokładnie to, co ja mam na myśli, mówiąc (pisząc) macierz korelacji.