Test t-Studenta dla dwóch grup niezależnych (ang. two-sample t-test)

Test t-Studenta jest najpopularniejszym testem stosowanym w psychologii ze względu nie tylko na prostotę wykonania w programie statystycznym, ale także na to, że odpowiada najprostszemu schematowi badawczemu: porównaniom między dwoma grupami.

SPIS TREŚCI:

Wprowadzenie: Dlaczego nie można analizować jedynie średnich arytmetycznych?

SUROWA RÓŻNICA MIĘDZY ŚREDNIMI - Mogłoby się wydawać, że porównanie dwóch grup polega na porównaniu średnich arytmetycznych (badanej zmiennej). Wystarczy odjąć jedną średnią od drugiej i w ten sposób uzyskać informację o wielkości różnic międzygrupowych. Tak łatwo jednak nie jest. Przecież w obrębie każdej z grup wyniki są zróżnicowane - osoby w grupach różnią się między sobą. Nie jest tak, że indywidualne wyniki są równe średniej arytmetycznej (zob. rysunek niżej).

Być może to banalne stwierdzenie, ale badaniach empirycznych zmienność czy zróżnicowanie wyników jest czymś normalnym i spodziewanym. Nie dość, że występują różnice między całymi grupami (np. kobiety i mężczyźni różnią się pod względem wzrostu), to jeszcze wewnątrz grup osoby różnią między sobą (np. kobiety również różnią się wzrostem, są kobiety mają 162 cm i 198 cm). Zróżnicowanie wyników indywidualnych przejawia się poprzez różne odchylenia standardowe tej samej zmiennej (np. wzrostu) mierzonego oddzielnie dla dwóch grup. Wobec tego odejmowanie tylko i wyłącznie średnich arytmetycznych nie jest miarodajne.

Porównaj dwa poniższe rysunki. Obserwacje z grupy pierwszej są zaznaczone na niebiesko, obserwacje z grupy drugiej zaznaczone są na zielono. Czarną linią ciągłą zaznaczono średnie arytmetyczne, a dwukierunkowa strzałka to różnica między średnimi arytmetycznymi. Pierwszy rysunek pokazuje, że obserwacje nie zachodzą na siebie, ponieważ pomiędzy nimi jest jeszcze trochę przestrzeni. Grupy są rozdzielone. Żadna osoba z grupy niebieskiej nie uzyskała tak wysokiego wyniku, aby można było ją zaliczyć do grupy zielonej. I w drugą stronę, żadna osoby z grupy zielonej, nie uzyskała wyniku tak niskiego, który sięgnąłby do wyników grupy niebieskiej.

Na kolejnym rysunku dwukierunkowa strzałka jest tej samej długości, symbolizując tę samą wartość różnicy między średnimi. Jednak obserwacje z obu grup zachodzą na siebie. Są osoby z grupy niebieskiej, których wynik sięgnął wyżej niż kilka osób z grupy. Jest jedna osoba z grupy niebieskiej, której wynik jest wyższy niż średnia arytmetyczna grupy zielonej.

Gdyby nie kreski i kolory można byłoby uznać, ze w zasadzie obserwacje nie różnią się pod względem wyników. A więc analizując wyniki osób badanych rozdzielonych do dwóch kategorii, nierozsądnie byłoby pominąć zmienność tych wyników w obrębie każdej z grup. Zarówno test t-Studenta, jak i wielkość efektu uwzględnia i różnicę między średnimi, i rozproszenie.


O teście t-Studenta dla dwóch grup niezależnych

BADANIA KORELACYJNE CZY EKSPERYMENTALNE? — Test t-Studenta można zastosować do wyników pochodzących z badań zarówno eksperymentalnych, w których osoby badane przydzielasz losowo do jednej z dwóch grup (zwykle nazywanymi kontrolną i eksperymentalną), quasi-eksperymentalnych, w których wygląda tak, jakby zadziałał przypadek w dobieraniu osób badanych do warunku eksperymentalnego i kontrolnego (np. płeć), oraz korelacyjnych, w których nie manipulujesz żadną zmienną.

Ta uwaga wydaje się oczywista, ale napiszmy to jasno - testu t-Studenta można stosować zarówno w warunkach eksperymentalnych, jak i nieeksperymentalnych. Dawno, dawno temu panował ścisły podział w metodach statystycznych wobec rodzaju badań. Badania korelacyjne analizowano za pomocą współczynników korelacji. Badania eksperymentalne - za pomocą testu t-Studenta lub rozszerzenia tego testu o nazwie ANOVA. Ten podział był podyktowany typem skal pomiarowych zmiennych, jakie produkowały badania. Korelacyjne produkowały zmienne ilościowe. Eksperymentalne - i jedne, i drugie. W ten sposób na wiele lat utrwalił się podział, że dane pochodzące z badań korelacyjnych analizujemy współczynnikami korelacji (tudzież regresją) a z eksperymentalnych - testem t-Studenta lub ANOVA. Dzisiaj ta reguła straciła na aktualności. Co więcej, dane przecież nie wiedzą skąd pochodzą (tj. z jakiego typu badań), więc wszystko jest podyktowane potrzebą badacza.

NOMENKLATURA: CZYNNIK I ZMIENNA ZALEŻNA — W związku z charakterystycznym schematem badań, z jakim jest związany test t-Studenta, pojawia się specyficzna nomenklatura. Zmienna, która przydziela obserwacje do jednej z grup nazywa się czynnikiem. Grupy - czy też kategorie - tworzone przez czynniki zwane są poziomami czynnika. Zmienna, której średnie arytmetyczne porównujemy między kategoriami czynnika, nazywa się zmienną zależną. W ten sposób używamy frazy:"czynnik różnicujący średnie zmiennej zależnej", gdy mamy na myśli fakt, że osoby z różnych kategorii różnią się średnimi arytmetycznymi zmiennej, którą badamy.

MECHANIZM TESTOWANIA STATYSTYCZNEGO — Będąc jednym z klasycznych testów statystycznych przeprowadzanych w paradygmacie NHST, test t-Studenta posiada charakterystyczny schemat przepływu danych.
Punktem wyjścia - i okularami przez które patrzy się na cały proces - jest hipotezę zerowa o braku różnic międzygrupami. Ponieważ nie pracuje się na surowych danych, są one przetwarzane przez maszynkę zwaną statystyką testową t-Studenta do pojedynczej liczby zwanej wartością statystyki testowej. Wartościami tejże statystyki rządzi rozkład zwany rozkładem statystyki testowej. To on stanowi podstawę dalszych obliczeń. Polegają one na zadaniu pytania o to, jak typowa jest wartość uzyskanej statystyki testowej t a odpowiedź przychodzi w postaci p-wartości/istotności statystycznej. Na końcu, aby zabezpieczyć się przeciwko hurraoptymistycznym wnioskom wyciągniętym na podstawie istotności statystycznej, oblicza się miarę siłę zjawiska, tzw. wielkość efektu, którą w teście t-Studenta jest d-Cohena. To jest szybki skrót z posta o mechanice klasycznych testów statystycznych.


Hipoteza zerowa H0

W klasycznym testowaniu hipotez statystycznych, a dokładniej w podejściu NHST, każda hipoteza zerowa H0 przedstawia pewien szczególny model rzeczywistości. Jest to rzeczywistość, w której zmienne nie łączy żaden związek. W przypadku testu t-Studenta, hipoteza zerowa H0 mówi o tym, że wskazany przez badacza czynnik nie ma nic wspólnego z interesującą go zmienną zależną. Profesjonalnie mówiąc, czynnik nie różnicuje średnich zmiennej zależnej.

Skoro nie różnicuje, czyli średnie są takie same, to symboliczny zapis hipotezy zerowej H0 w teście t-Studenta przedstawia się następująco:

H0: μ1 = μ2

μ1 [czyt. mi jeden] to średni poziom cechy w pierwszej podpopulacji (w pierwszym poziomie czynnika);
μ2 [czyt. mi dwa] to średni poziom cechy w drugiej podpopulacji (w drugim poziomie czynnika).

Należy przy tym zwrócić uwagę na to, że w zapisie hipotezy zerowej H0 użyto greckich liter: μ1 i μ2, co pokazuje, że mamy do czynienia nie ze średnimi w próbach, a w populacjach.

Gdyby chodziło o badanie równości średnich w próbach, zapis hipotezy zerowej przybrałby taką postać: H0: x̄1 = x̄2, gdzie symbolami x z kreską, x̄, oznacza się średnie w próbach. Na chłopski rozum, testowanie hipotez w próbie to zbędne ceregiele - po co wytaczać całe testowanie hipotez, żeby stwierdzić, czy dwie średnie z dwóch prób są sobie równe lub różne? Przecież wystarczy porównać wartości średnich i wszystko stanie się jasne.

INTERPRETACJE HIPOTEZY ZEROWEJ H0 | Treść hipotezy zerowej można interpretować na co najmniej trzy różne, lecz pokrewne sposobów. Nie są to na tyle duże różnice, żeby każda z tych opcji mówiła zupełnie o czymś innym, ale na tyle różne, żeby pokazać różnorodność aspektów, na jakich można się skupić.

🔵 Po pierwsze można na hipotezę zerową patrzeć przez pryzmat średnich nasileń badanej cechy mierzonych w dwóch różnych kategoriach. Tu hipoteza zerowa H0 odnosi się do braku różnic między dwoma teoretycznymi średnimi, czyli średni poziom zmiennej zależnej (czyli danej cechy ilościowej) jest jednakowy w obu populacjach.

🔵 Po drugie, można skoncentrować się na relacji między zmiennymi, między czynnikiem i zmienną zależną i skoro czynnik oraz zmienna zależna są niezależne względem siebie, to treść hipotezy zerowej można rozumieć w następujący sposób: zmienna zależna nie reaguje na czynnik.

🔵 Po trzecie można przenieść uwagę na jednostki populacji, w tle pozostawiając cechę i kategorie. Wówczas możemy powiedzieć, że H0: dwie próby pochodzą z tego samego rozkładu. Nieważne, czy osoba badana jest w jednej, czy w drugiej populacji - średnie nasilenie cechy będzie miała takie samo.

CO JEST ISTOTNE STATYSTYCZNIE? RÓŻNICA W GRUPACH ... CZY W POPULACJACH? — Czasem skrótowo mówi się o istotności (statystycznej) średnich w dwóch grup, np. w tekście jest napisane:"analiza pokazała jedną istotnie statystyczną różnicę między kobietami a mężczyznami". Ten sposób formułowania wyników, sprawia, że bardzo łatwo pomyśleć, że szukamy przymiotnika określającego różnicę w średnich arytmetycznych między osobami w grupach. Tymczasem sprawa przedstawia się zupełnie inaczej.

Podczas weryfikacji hipotez statystycznych interesuje nas przede wszystkim populacja, a nie próba. Ta składająca się z dwóch grup próba służy jako środek do przeniesienia wniosku z próby na populację. Aby zauważyć niezerową różnicę między średnimi arytmetycznymi nie potrzeba żadnej weryfikacji hipotez. Jeśli średnia arytmetyczna n = 10 pomiarów wzrostu w grupie kobiet wynosi 168,2 cm a średnia arytmetyczna n = 10 pomiarów wzrostu w grupie mężczyzn wynosi 178,6 cm, to widzimy, że te średnie różnią się. Różnica między nimi wynosi 10,4 cm - kobiety i mężczyźni w tej dwudziestoosobowej próbie różnią się pod względem średnich wzrostu. Ale - może tak też jest i w całej populacji kobiet i mężczyzn? Aby przenieść wniosek o zróżnicowaniu wzrostu z próby na całą populację, wykorzystuje się weryfikację hipotez statystycznych.


Hipoteza alternatywna H1

W procedurze testowania istotności statystycznej hipotezy zerowej NHST hipoteza alternatywna H1 jest mgliście sformułowana i brzmi ~H0, czyli średni poziom badanej zmiennej nie jest równy. Tę nieprawdę-że-ha-zero można w teście t-Studenta można przedstawić w trzech odsłonach, której niżej omówimy.

1️⃣ H1: μ1 < μ2
Ten zapis wyraża taką myśl: średnie nasilenie badanej zmiennej jest niższe w pierwszym poziomie czynnika niż w drugim. Ponieważ znaczek nierówności jest dziubkiem skierowany w lewą stronę, to mówimy, że hipoteza jest
lewostronna.

PRZYKŁAD | Gdybyśmy badali różnice międzypłciowe pod względem wzrostu a poziomy zmiennej Płeć zakodowali następująco: 1 = kobieta, 2 = mężczyzna, to wówczas taki zapis hipotezy alternatywnej H1 można byłoby odczytać w ten sposób: średnia Wzrostu u kobiet jest niższa niż u mężczyzn.

2️⃣ H1: μ1 ≠ μ2
W tym zapisie umieszczono brak równości średnich. Oznacza on nie tyle, że każda obserwacja z pierwszego poziomu czynnika jest inna od każdej obserwacji z drugiego poziomu czynnika, ale to, że średnio rzecz ujmując mamy do czynienia z różnymi nasileniami badanej zmiennej zależnej. Ponieważ między greckimi literami μ1 i μ2 znajduje się znak nierówności, to o tej hipotezie alternatywnej H1 mówimy, że jest
obustronna.

PRZYKŁAD | Gdybyśmy badali różnice w inteligencji między kobietami a mężczyznami a poziomy zmiennej Płeć zakodowalibyśmy następująco:1 = kobieta, 2 = mężczyzna, to powyższy zapis hipotezy alternatywnej można byłoby odczytać następująco: średnia inteligencji u kobiet i u mężczyzn jest różna. Nie wiadomo, kto ma jej więcej, ale jest różna.

3️⃣ H1: μ1 > μ2
Trzecia opcja zapisu hipotezy alternatywnej H1 mówi o nierówności, ale w drugą stroną z kolei mówimy, że średnie nie są sobie równe. Ponieważ znaczek nierówności jest dziubkiem skierowany w prawą stronę, to mówimy, że hipoteza jest
prawostronna.

PRZYKŁAD | Gdybyśmy badali różnie w empatyczności między kobietami a mężcyznami a poziomy zmiennej Płeć zakodowali 1 = kobieta, 2 = mężczyzna, to ten symboliczny zapis hipotezy alternatywnej H1 oznaczałby, że średni poziom Empatii jest u kobiet wyższy niż u mężczyzn.

Wybór odpowiedniej hipotezy alternatywnej H1 - stosownie do przewidywanej zależności - jest bardzo ważny, ponieważ wpływa na ważny wskaźnik - na p-wartość (istotności statystycznej). Kierunek zależności wyrażony w hipotezie alternatywnej H1 przekłada się na tzw. stronę testu statystycznego. Np. lewostronnej hipotezie alternatywnej H1 odpowiada lewostronny test i lewostronnie obliczona p-wartość. Jeśli istnieją trzy wersje hipotezy alternatywnej (lewo-, prawo- i obustronna), to również istnieją trzy sposoby obliczenia p-wartości (lewo-, prawo- i obustronna). Oznacza to, że trzech badaczy przewidujący trzy różne formy zależności otrzyma trzy różne p-wartości.

➡️ W programie SPSS przez 27 wersji istniała tylko jedna p-wartość (tzw. obustronna, choć w programie tak tego nie nazywano). Od 28. wersji programu SPSS dołączono tzw. Jednostronne P i Dwustronne P, co nałożyło na badacza znajomość tych zagadnień. Niestety, połączenie lewostronnej i prawostronnej p-wartości w jedną zwaną wcale nie pomaga.


Założenia testu t-Studenta dla dwóch grup niezależnych

Jak się można domyślać, test statystyczny ruszy dopiero, gdy dane będą odpowiedniej jakości. Dane muszą spełniać kilka warunków, które dla wygody i łatwości zapamiętania warto pogrupować w trzy kategorie. Pierwsza kategoria warunków odnosi się do schematu badawczego. Druga - do pomiaru, tego jaki rodzaj wyników powstanie podczas badania i jakie operacje arytmetyczne będzie można na nich wykonać (tj. skale Stevensa, KLIK). Trzecia kategoria ma charakter probabilistyczny – od danych będziemy żądać pewnego kształtu rozkładów. Te warunki są potrzebne, abyśmy mogli zarówno wykonać test t-Studenta, jak również wyciągnąć poprawne wnioski na podstawie otrzymanych cyferek.

🔵 PIERWSZA KATEGORIA: NIEZALEŻNOŚĆ OBSERWACJI – Jak sama nazwa niezależność obserwacji to fakt po prostu niezależności obserwacji. Dwie obserwacje są niezależne, gdy posiadając jedną z nich, nie wiemy nic o drugiej.
Najłatwiej niezależność w schemacie międzygrupowym osiągnąć, przydzielając osoby badane do jednej z dwóch kategorii (czy jednego z dwóch poziomów) czynnika. Wówczas sprawa sprowadza się do ilości pomiarów dokonanych na osobach badanych. W teście t-Studenta dla dwóch grup niezależnych, osoby badane możemy badać raz - w obrębie ich własnej grupy.
Niezależność obserwacji może polegać na tym, że nie badamy osób z tej samej pary małżeńskiej - współdzielą przecież one informację.

WARIANTY TESTU t-STUDENTA | Istnienie trzech schematów badawczych (obserwacje niezależne vs. zależne) powoduje, że istnieją trzy warianty testu t-Studenta:

  • dla jednej próby (one-sample t-test) – to taki wariant, w którym jest jedna grupa, której to średni poziom porównujesz do jakiegoś teoretycznego kryterium, np. czy średnie tętno seniorów wynosi 60 uderzeń na minutę.
  • dla dwóch prób niezależnych (two sample t-test) – osoby badane są rozdzielone do dwóch grup i każda z nich jest badana tylko jeden raz, np. zbadano poziom uprzedzenia do wybranej mniejszości u osób mieszkających przy zachodniej i wschodniej granicy Polski.
  • dla dwóch prób zależnych (paired data) – badani zostali poddani badaniu dwukrotnie, np. zbadano tętno przed i po treningu.

W tym poście omawiamy ten drugi typ testu t-Studenta, tj.  test t-Studenta dla grup niezależnych.

🔵 DRUGA KATEGORIA: TYP POMIARU ZMIENNYCH— Mechanizm testu t-Studenta jest tak skonstruowany, aby badać dwie średnie. Chodzi o to, że wzór, który stanowi sedno tego testu, przyjmuje tylko średnie, odchylenia standardowe i liczebności obu próg. Dane powinny być rozdzielone na dwie kategorie, zaś wybrana cecha powinna umożliwiać obliczanie średniej arytmetycznej na swoich wartościach. Wobec tego, jedna zmienna powinna być jakościowa, a druga - ilościowa. Według skal Stevensa: zmienna, która grupuje osoby badane, powinna być nominalna lub porządkowa - zawsze o dwóch kategoriach. 

Test t-Studenta nie obsłuży takich danych, w których obie zmienne są jakościowe. Nie da rady nim badać związków między płcią a ręcznością (tj. dominującą stroną ciała, tu raczej zastosujemy test chi-kwadrat). Zmienna zależna tym razem musi dać możliwość policzenia średniej na jej wartościach. Co oznacza, że jeśli pamiętasz skale Stevensa, to musi być zmienną mierzoną na skali interwałowej albo na skali ilorazowej

✅ Zobaczmy kilka przykładów badań, gdzie test t-Studenta jest użyteczny:

  • czy poziom inteligencji emocjonalnej różni się między kobietami i mężczyznami?
  • czy nasilenie ekstrawersji wśród aktorów i osób wykonujących zawód bibliotekarza?
  • czy deprywacja kontroli (kontrola lub jej brak) prowadzi do ruminacji?
  • czy aktywizacja wizerunku rodzica (aktywizacja lub jej brak) ma wpływ na odraczanie gratyfikacji wśród dzieci?

Dwa pierwsze przykłady to schematy quasieksperymentalne, dwa ostatnie – eksperymentalne, w każdym z nich mamy tylko dwie grupy: wyznaczoną przez płeć, przez typ zawodów oraz kontrolną i eksperymentalną.

❌ Test t-Studenta NIE nadaje się do:

  • porównań między więcej niż trzema grupami (idź do: ANOVA)
  • sprawdzenia zależności między płcią i stopniem upośledzenia (zmienna nominalna + zmienna porządkowa)
  • sprawdzenia czy występuje związek między płcią a zaburzeniem np. czy kobiety częściej występuje schizofrenia (zmienna nominalna + zmienna nominalna)
  • związek między samooceną a narcyzmem (zmienna przedziałowa+zmienna przedziałowa)

🔵 TRZECIA KATEGORIA: WYMAGANIA PROBABILISTYCZNE — Ten typ wymogów odnosi się do rozkładu badanej zmiennej, czyli do tego jakim prawem mają się rządzić szanse występowania poszczególnych wartości zmiennej. Dlaczego jest to ważne? Testy statystyczne wykorzystują dane w pośredni sposób – przekształcając je do pojedynczej liczby zwanej wartością statystyki testowej. Statystyka testowa ma również rozkład swoich wartości – jedne zdarzają się częściej, a inne rzadziej. Ten rozkład jest kluczowy, ponieważ to na jego podstawie wyciągamy poprawne wnioski. Dzięki różnym dowodom z dziedziny statystyki wiemy, że ma on pożądaną postać tylko wtedy, gdy dane pochodzą z konkretnego rozkładu. W przypadku testu t-Studenta muszą spełniać trzecią kategorię założeń: normalność rozkładu oraz homogeniczność wariancji zmiennej zależnej.

NORMALNOŚĆ ROZKŁADU cechy w obu poziomach czynnika. Żądamy, aby w jednej i w drugiej grupie, wartości badanej cechy pojawiały się zgodnie z rozkładem normalnym, aby były zbliżone do rozkładu normalnego. Chcemy zobaczyć coś takiego:

Żądanie normalności rozkładu badanej cechy to bardzo mocne żądanie – biorąc pod uwagę fakt, że rozkład normalny w badaniach psychologicznych nie jest często spotykany. Trudno oczekiwać, żeby każda badana cecha miała rozkład normalny, bo przecież test t-Studenta jest najpopularniejszym testem. Musi być jakiś sposób na to, że móc go wykonać, nawet jeśli rozkład cechy nie jest normalny. Z pomocą przychodzi Centralne Twierdzenie Graniczne.

Tak naprawdę, mechanizm testu t-Studenta potrzebuje normalności rozkładu statystyki testowej, a nie tego, aby sama cecha miała rozkład normalny. Jeśli wiesz, że badana cecha ma w populacji rozkład normalny, to nie ma najmniejszych obaw - statystyka testowa test t-Studenta ma rozkład dokładnie taki powinna mieć, aby analizy były rzetelne. Jeśli ten rozkład cechy nie jest normalny, to dzięki Centralnemu Twierdzeniu Granicznego i przy dostatecznie dużej liczebności próby można postępować tak, jakby statystyka testowa posiadała pożądany rozkład normalny i procedować z analizami. Oczywiście, zawsze pozostaje pytanie, jak duża próba jest duża, ale to już zupełnie inna para kaloszy.

DIAGNOSTYKA NORMALNOŚCI ROZKŁADU - Jest pięć podstawowych charakterystyk potrzebnych do sprawdzenia, czy dany rozkład jest rozkładem normalnym: skośność, kurtoza, boxplot, qqplot, histogram.

Jeśli chcesz dowiedzieć się, jak diagnozować normalność tymi metodami, zajrzyj do posta pt. Diagnostyka normalności: KLIK

Gdy już wiemy, że wartości zmiennej zależnej pojawiają się zgodnie z prawem zwanym rozkładem normalnym, przechodzimy do ostatniej kwestii wyznaczającej ich dobroć do zastosowania testu - do czegoś, co w żargonie statystycznym nazywa się homogenicznością wariancji lub jednorodnością wariancji zmiennej zależnej.

HOMOGENICZNOŚĆ (JEDNORODNOŚĆ) WARIANCJI zmiennej zależnej — To własność charakteryzująca co najmniej dwa zestawy danych. Polega ona na zbliżonym stopniu rozproszenia zmiennej zależnej między poziomami czynnika. Zależy nam na tym, aby dane posiadały zbliżony stopień rozproszenia, ponieważ gwarantuje to nam, że kategorie czynnika będą różnić się co najwyżej średnim nasileniem cechy, a nie jeszcze dodatkowymi aspektami. W ten sposób zapewniony będzie kanon jednej różnicy, co znacznie ułatwia interpretację.

W tym schemacie badawczym jesteśmy zainteresowani różnicą (lub jej brakiem) średnich nasileń zmiennej zależnej. Jeśli dodamy do tego różne rozproszenia, może się okazać, że porównujemy jabłka z gruszkami.

Jak badać homogeniczność wariancji? Oczywiście nie oczekujemy, że zobaczymy dwie kolumny w bazie będą miały te same wartości. Że jeśli w jednej kategorii mamy pięć osób o wyniku równym 4,55 to i w drugiej kategorii będzie tyle samo osób o tym samym wyniku. Zależy nam na średnim stopniu rozproszenia i w tym celu świetnie sprawdza się miara zwana odchyleniem standardowym. Odchylenie standardowe oznaczane literą s lub skrótem SD od angielskiego standard deviation mierzy średni stopień odchylenia wartości od średniej arytmetycznej. W ten sposób mając dwa odchylenia standardowe o tej samej wartości, np. s1 = 3,97 i s2 = 3,97 nie oczekujemy jednakowych wyników w bazie, ale tego samego stopnia rozproszenia względem średniej arytmetycznej.

Szkopuł w tym, że w próbach identyczne odchylenia standardowe równe sobie, s1 = s2, spotykane są niezmiernie rzadko. Przecież mamy do czynienia ze zjawiskami losowymi, przez co trudno liczyć na równość odchyleń standardowych. Nawet trudno żądać identycznego wyniku do piątego miejsca po przecinku. Musimy się zatem wykazać pewną dozą elastyczności w ocenie jednorodności wariancji. Innymi słowy, kiedy możemy przejść do porządku dziennego nad niezerową różnicą między odchyleniami standardowymi. Za to musimy wiedzieć, kiedy jest to problem? Kiedy jesteśmy elastyczni, a kiedy powinniśmy pożegnać się z homogenicznością wariancji?

Mamy tutaj dwie ścieżki postępowania w ocenie jednorodności wariancji: wiodą one albo poprzez oglądanie miar rozproszenia, albo poprzez wykonanie kolejnego test istotności statystycznej. SPSS, niestety, promuje pewne zachowania, które nie są do końca są dobre (tzw. testoza, czyli testuj wszystko, co możesz).

SPOSÓB 1 [REGUŁA KCIUKA] — Pierwszy sposób badania homogeniczności wariancji wykorzystuje statystyki opisowych - dokładnie miary rozproszenia, jakimi są odchylenia standardowe. Badanie polega na podzieleniu wyższego odchylenia standardowego przez mniejsze. Aby uznać, że homogeniczność wariancji została zachowana, iloraz musi być niższy niż 2. W ten sposób niemal palpacyjnie oceniasz, czy stopień rozproszenia wyników w obu grupach jest zbliżony.

Jeśli odchylenie standardowe w pierwszym poziomie czynnika wynosi wynosi s1 = 2,75, zaś w drugim poziomie czynnika wynosi s2 = 1,25, to iloraz odchyleń standardowych jest wyższy od dwóch, 2.75/1.25 > 2 i wówczas trudno uznać jednorodność wariancji.

SPOSÓB 2 [TEST STATYSTYCZNY] — Drugi sposób to klasyczne testy statystyczne. Są co najmniej dwa testy homogeniczności wariancji: Levene'a i Bartletta. SPSS w teście t-Studenta dla dwóch grup podaje tylko ten pierwszy a zastrzeżeniach poczytasz niżej w kolorowej ramce. Oba z tych testów mają tą samą hipotezę zerową H0: σ1 = σ2. Symbol σ (czyt. sigma) oznacza wariancję zmiennej zależnej w jednej z populacji. W ten sposób ta hipoteza zerowa sygnalizuje, że żąda równości rozproszeń w populacji. Mówi ona mniej więcej tyle: - "nie obchodzi mnie to, że w zebranych danych odchylenia standardowe są różne. Ważne, żeby w populacjach były tożsame." Stosując tę ścieżkę postępowania, badaczowi zależy, aby zobaczyć wynik nieistotny statystycznie, np. p = 0,451.

Problem z testem Levene’a czy Bartletta jest taki sam jak ze wszystkimi testami istotności statystycznej – nie kontrolując liczebności próby, nie za bardzo wiadomo, co istotność lub nieistotność statystyczna tak naprawdę oznacza. Brakuje tu czegoś, co pozwoliłoby ocenić ocenić, czy istotny statystycznie wynik testu Levene’a naprawdę pokazuje różne wariancje. Ponadto, takie wielokrotne testowanie wzmacnia testozę wśród badaczy, czyli tendencję do testowania wszystkiego, co się da, byleby nie podjąć własnej decyzji. SPSS jest mistrzem w promowaniu takiego zachowania, ponieważ z tabelek wyświetlanych przez program w outpucie mamy jedynie wynik testu statystycznego i p-wartość. Dzięki temu bardzo trudno jest zapisać wynik testu. Do poprawnego zapisu potrzebujemy jeszcze stopni swobody (degrees of freedom), a nigdzie ich nie ma.

Po spełnieniu wszystkich założeń testu t-Studenta (również tych superrestrykcyjnych z normalnością rozkładu badanej cechy w obu poziomach czynnika) otrzymujemy obraz danych, które w teorii wyglądają mniej więcej tak, jak na poniższym rysunku. Są to dane pochodzące z dwóch rozkładów normalnych o tym samym stopniu rozciągnięcia ramion. Zadaniem badacza jest sprawdzić, który z tych modeli jest bliższy rzeczywistości. Czy model hipotezy zerowej, gdzie dane pochodzą z tego samego rozkładu (tej samej populacji) - krzywe pokrywają się. Czy z dwóch populacji, które różnią się jedynie przesunięciem szczytu względem na osi poziomej OX. W rozkładzie normalnym szczyt znajduje się nad średnią, stąd test t-Studenta dotyczy średnich.


Statystyka testowa testu t-Studenta

W klasycznym testowaniu hipotez, nie pracujemy na surowych danych. Wędrują one wraz z hipotezą zerową do maszynki zwanej statystyką testową, która  - technicznie rzecz ujmując - jest po prostu wzorem matematycznym, który sprowadza dane do pojedynczej liczby zwanej wartością statystyki testowej t. W teście t-Studenta, który zajmuje się dwoma grupami, ten wzór można opisać krótko jako studentyzowaną różnicę między średnimi arytmetycznymi, czyli różnicę między średnimi podzieloną przez jej błąd standardowy.
Na postać mianownika wpływa równoliczność grup i równość wariancji. Zatem licznik pozostaje takie sam, a mianownik zmienia się w zależności od okoliczności.

Poniższy wzór to jeden ze wzorów na statystykę testową testu t-Studenta: grupy są równoliczne, zaś wariancja jest homogeniczna.

WARTOŚĆ STATYSTYKI TESTOWEJ t-STUDENTA | Jest to pojedyncza liczba, do której przekształcono surowe dane. Przyjrzymy się trochę tej statystyce. Możliwe wartości, jakie t może przyjąć, rozciągają się od minus nieskończoności do plus nieskończoności. Oznacza to, że w tabeli zawierającej wyniki analiz testu t-Studenta możecie zobaczyć zarówno niską wartość - albo dużą. Ujemną lub dodatnią. Czasami można nawet zobaczyć zero.

Dzieje się tak, gdy średnie arytmetyczna zmiennej zależnej są identyczne. Zauważ, że we wzorze na statystykę testową - w jej liczniku - znajduje się różnicę między nimi. Jeśli średnie arytmetyczne w obu grupach są blisko siebie, to i wartość statystyki testowej będzie mała. Im bardziej się od siebie różnią, tym ta wartość t jest większa.

CO ZNACZY t = 3,045? | Wartość statystyki testowej testu t-Studenta nie jest po prostu jakąś tam sobie liczbą, która nic nie mówi. Zauważ, że jest agregatem informacji wydobytych z surowych danych. Umiejętność odczytania jej wartości jest pomocna w zrozumieniu tego, co się dzieje w analizach.

Niech punktem wyjścia będzie spostrzeżenie, że zerowa jej wartość, czyli t = 0, pojawia się w chwili, w której średnie arytmetyczne w obu grupach są równe. Na przykła:, średnie nasilenie empatii u kobiet jest takie samo jak u mężczyzn - albo: średnie IQ między kobietami a mężczyznami są jednakowe.

Wyobraźmy sobie taką sytuację, w której czynnik nie działa na zmienną zależną (np. nie ma międzypłciowych różnic w empatii). Gdyby - uwaga! Używam tu trybu przypuszczającego - gdyby nie było różnic między jednymi a drugimi, wartość statystyki testowej t powinna w badaniu wyjść zero - niezależnie od tego, na jaką próbę badacz trafi. Powinna, ale rzadko trafia się. Dlaczego?

Niestety (a może i "stety"), w rzeczywistym świecie, trzeba wziąć pod uwagę tzw. losowe fluktuacje. A to osoba badana nie dosłyszała o co chodzi, a to zagapiła się, a to nie wyspała - powodów jest mnóstwo. Narzędzia pomiarowe nie są doskonałe, zawsze trafią się jakieś zafałszowania. To bezpośrednio przekłada się na surowy wynik osoby badanej, co w dalszej kolejności pociąga za sobą to, że ta wartość statystyki t nie będzie równa zero - mimo, że przecież miało nie być różnic. Innymi słowy, nawet gdy nie ma różnic między średnimi w populacji, to w próbie sprawy będą przecież wyglądać nieco inaczej. Wobec tego, należy wykazać się pewną elastycznością. Wokół zera istnieje mały przedział wartości statystyki testowej t, które zwiastują brak wpływu czynnika na zmienną zależną (mimo, że nie są dokładnie równe zero).

Przedział sięga od -1 do 1. Jeśli wartość statystyki t wpadnie w ten przedział, to najczęściej zobaczysz wynik nieistotny statystycznie, p wyższe od 0,05 (np. p = 0,072) oraz niezbyt zachwycającą siłę efektu. Piszę najczęściej, ponieważ testy statystyczne są bardzo wrażliwe na wielkość próby. W małych próbach, np. gdy N = 10, nawet czynnik który teoretycznie powininen różnicować średnie (jak ta płeć wobec empatii), wypadnie bardzo blado.

Nie pytajcie, czy znajdująca się na granicy przedziału wartość t = 1,00 (lub analogicznie t = -1,00) to już zły znak. W statystyce ciężko o jednoznaczną odpowiedź. Co najwyżej mogę powiedzieć, że gdy t = 1 to najczęściej oznacza to kłopot. W statystyce wszystkie krawędzie są nieostre (nawet te, które zdają się być jasno wyznaczone).

O ile przedział [-1,1] jest problematyczny, o tyle wartości już spoza tego przedziału wskazują, że czynnik będzie różnicować średnie zmiennej zależnej. Oczywiście, im dalej od krawędzi - tym lepiej. Oprócz tego, czy wartość statystyki testowej w badaniu wypadła poza przedział [-1,1], ważne jest to, czy jest po jego lewej stronie, czy po prawiej. Znak statystyki testowej t mówi o tym, który poziom czynnika (która grupa) ma wyższą średnią.

Pamiętajmy, że wartość statystyki testowej t-Studenta zależy od różnicy między średnimi arytmetycznymi. Różnica to ta operacja arytmetyczna, w której ważna jest kolejność. Od średniej arytmetycznej z pierwszego poziomu czynnika jest odejmowana średnia arytmetyczna z drugiego poziomu czynnika. Jeśli od czegoś mniejszego odejmiemy coś większego (np. 3 - 10), to rezultat wyjdzie ujemny. Jeśli od czegoś większego odejmiemy coś mniejszego (np. 10 - 3), to rezultat wyjdzie dodatni. To jest ważne o tyle, gdy dane przeczą postawionej hipotezie badawczej.

Hipoteza badawcza przewiduje, że średnie nasilenie empatii jest wyższe u kobiet niż u mężczyzn, tymczasem trafia się specyficzna próba złożona z pielęgniarzy i maklerek, gdzie ta zależność odwraca się. Z góry przepraszam za aktywację stereotypów, ale mam nadzieję, że wiecie o co chodzi. Znak statystyki testowej jest naszym bezpiecznikiem - o ile pamiętasz, który poziom czynnika był tym pierwszym, a który drugim.

Podsumowując, przykładowa wartość statystyki testowej t = 3,019 jest tą wartością statystyki testowej t-Studenta, która pokazuje, że średnie zmiennej zależnej są różne w obrębie poziomów czynnika. Można spodziewać się istotności statystycznej a także niezbyt małej wielkości efektu. Dodatni znak tej wartości oznacza, że wyższym średnim nasileniem badanej zmiennej (cokolwiek nią jest) charakteryzują się osoby z pierwszego poziomu czynnika niż osoby z drugiego poziomu.

Mimo tego, że wartość statystyki testowej niesie sporo informacji, to na jej obejrzeniu analiza danych nie kończy się. Teraz trzeba ocenić, jak typowa jest otrzymana wartość statystyki testowej. Ponieważ dane są losowe (czyt. przed przeprowadzeniem badania nie wiemy, jakie otrzymamy), to ta losowość przenosi się na wartości statystyki testowej - one też są losowe. Przed zebraniem danych, a i przed rozpoczęciem analiz, nie wiemy jaką wartość otrzymamy. Czy będzie to -1,45 czy może 257,87. Część z nich jest częstsza, a część z nich - rzadsza lub ekstremalnie rzadko spotykana. To z kolei oznacza, że należy odwołać się do rozkładu statystyki testowej.


Rozkład (wartości) statystyki testowej testu t-Studenta

Pamiętaj, że każdy klasyczny test statystyczny ma wbudowany rozkład wartości statystyki testowej. Choć jest to tylko matematyczny, abstrakcyjny twór, który odstrasza wielu początkujących badaczy, opowiada on pewną historię o wartościach statystyki testowej. Roztacza on wizję tego, jak wyglądałby świat, w którym Twoje zmienne nie miałyby ze sobą żadnego związku. Jak to byłoby, gdyby czynnik nie miał żadnego znaczenia dla badanej zmiennej zależnej? Powiesz, że wówczas średnie arytmetyczne powinny być sobie ku sobie zbliżone a wartość statystyki testowej t bliska zeru. Spójrz więc na ten rysunek - szczyt rozkładu znajduje się nad zerem. Im dalej od tego miejsca, tym coraz rzadziej spotykane są wartości. Tak właśnie rozkład opowiada o tym, co dzieje się z wartościami testu (dokładniej: wartościami statystyki testowej).

W teście t-Studenta ten rozkład jest precyzyjnie określonym rozkładem t-Studenta posiadającym tylko jeden parametr zwany stopniami swobody (ang. df, degrees of freedom), a ten z kolei jest uzależniony od liczby osób biorących udział w badaniu, df = N - 1, gdzie N to liczba osób badanych. Ten rozkład stanowi podstawę obliczenia p-wartości (ang. p-value) zwanej istotnością statystyczną (ang. statistical significance).

Porozmawiajmy o konkretach. W konkretnym badaniu, konkretny badacz otrzymuje konkretną wartość statystyki testowej. Dalej musi ocenić, jak częsty jest to wynik w pewnej szczególnej sytuacji - w sytuacji, w której hipoteza zerowa o braku różnic międzygrupowych jest prawdziwa. Zadajemy zatem pytanie, czy otrzymany przez nas wynik jest typowy lub nie, jeśli obie próby pochodzą z tej samej populacji. Odpowiedź na to pytanie otrzymujemy w kategoriach prawdopodobieństwa i nazywamy ją albo p-wartością lub istotnością statystyczną. Więcej na temat p-wartości/istotności statystycznej znajdziesz w osobnym poście KLIK Dowiesz się również z niego, że tak naprawdę odpowiadamy na pytanie o to, jak bardzo prawdopodobna jest uzyskana wartość statystyki testowej - i jeszcze większa.


Wielkość efektu d-Cohena

WIELKOŚĆ EFEKTU - Wielkość efektu to krótko mówiąc, miara siły zjawiska. W schematach międzygrupowych, gdy porównujemy średnie nasilenia zmiennej zależnej pomiędzy kategoriami czynnika, mówi ona jak bardzo czynnik różnicuje średnie. Ponieważ wynik istotny statystycznie może być wynikiem nieistotnym praktycznie, to do oceny siły związku między zmiennymi stosujemy wielkość efektu. Wielkość efektu jest miarą siły zjawiska i w przypadku porównań między dwiema grupami oznacza ona to, jak bardzo średnie badanej cechy różnią się od siebie. Więcej na ten temat znajdziesz w poście o wielkości efektu KLIK

Warto też powiedzieć, że żeby obejrzeć wielkość efektu w jakimkolwiek badaniu, nie trzeba jednoczęsnie korzystać z testów istotności statystycznej. Test t-Studenta i wielkość efektu to dwie różne rzeczy.

MIANOWNIK ZWANY STANDARYZATOREM — Skoro różnica między średnimi nie wystarcza do oceny siły zależności, to należy ją podzielić przez jakiś mianownik. Co można włożyć do owego mianownika? Można na przykład zmierzyć wariancję wszystkich wyników bez dzielenia ich na dwie kategorie. Ale takie postępowanie powoduje, że nagle wszystkie wyniki odnosimy do ich ogólnej średniej, a zatem dla jednej i dla drugiej zmieniamy poziom odniesienia, jakim do tej pory była średnia arytmetyczna w danej grupie. Zatem takie postępowanie nie jest dobre.

MIANOWNIK: POŁĄCZONA WARIANCJA [d-COHENA] — W takim razie można spróbować czegoś, co nazywa się wariancją połączoną (ang. pooled variance). Najprościej rzecz ujmując - uśredniamy wariancje i to jest właśnie wielkość efektu d Cohena. Litera d w nazwie tej miary pochodzi od angielskiego słowa difference, oznaczającego różnicę. Dzięki temu, wyniki odnoszone są do swoich własnych średnich arytmetycznych, a my mamy uchwyconą zmienność wyników w obu grupach.

WIELKOŚĆ EFEKTU d-COHENA — Jest to tzw. standaryzowana różnica między średnimi. Tu standaryzacja oznacza podzielenie różnicy między średnimi arytmetycznymi przez rozproszenie wyników bez względu na to, do jakiej grupy należą.

MIANOWNIK: WARIANCJA W GRUPIE KONTROLNEJ [delta Glassa] — technicznie rzecz biorąc, jest to metoda najprostsza. Polega na włożeniu do mianownika zmienności jednej z grupy: tej, która ma być grupą odniesienia. To postępowanie ma sens, gdyby badacza interesowało zestawianie grup i w przypadku badań eksperymentalnych to ma sens. Jedna z nich jest kontrolna, a druga – eksperymentalna, więc siłą rzeczy różnicę między średnimi arytmetycznymi odnosi się do grupy kontrolnej, a dokładniej: względem zmienności wyników w tej grupie. Zatem dla wielkości efektu delta Glassa w mianowniku znajduje się zwykle odchylenie standardowe s jednej z grup.

Wybierając jedną z wielkości efektu, otrzymujemy pojedynczą liczbę (zwaną wartością wielkości efektu d-Cohena/delty Glassa). To może być d = -0,33 albo d = 1,25.

ROZMIARÓWKA — Mała wielkość efektu to te wartości, które zaczynają się od |0.20|.
Umiarkowana wielkość efektu to te wartości, które przekraczają |0.50|.
Duża wielkość efektu to ta powyżej |0.80|.

DODATKOWE INFORMACJE — Jakie wartości mogą przybierać wyniki wzorów na wielkości efektu d Cohena czy delta Glassa? Poniższe własności wynikają wprost z tych wzorów. W liczniku znajduje się różnica między średnimi, zaś w mianowniku pierwiastek. Skoro pierwiastek może być tylko dodatni, to jedynym co ogranicza to różnica w odejmowaniu. A zatem - pełna dowolność.

  • Wielkości efektu osiągają wyniki zarówno ujemne, jak i dodatnie..
  • W zasadzie nie są niczym ograniczone: wielkość efektu d Cohena czy delta Glassa mogą wynosi -5,23 albo +3,26

Obserwacje odstające (outliery)

STYCZEŃ 2023| LJK | ~2000 słów

WPROWADZENIE — Odkąd tylko zaczęto zbierać dane, powracało pytanie, co należy zrobić, gdy jakaś obserwacja swoją wartością mocno odstaje od pozostałych – czy jest ona elementem zjawiska, obserwacją, która może się pojawić, ponieważ charakter zjawiska dopuszcza taką możliwość, czy raczej jest błędem w pomiarze, literówką powstałą podczas wpisywania danych do bazy. Weźmy kilka obserwacji: 1,6,2,8,9,100,2,3 – wartość sto od razu rzuca się , ale czy wolno ją po prostu usunąć? Gdyby było pewne, że jest to błąd w zapisie, sprawa rozwiązałaby się sama.

OUTLIERY TO OBSERWACJE ODSTAJĄCE. Out znaczy na zewnątrz, a lier jest od leżenia. Outlier znaczy leżący na zewnątrz. Śmieszne, że u nas w Polsce odstająco się stoi, a w angielskim leży.

WZÓR NA OUTLIERY — Czasami pada pytanie o wzór na outliery. Jedyny wzoropodobny produkt, jaki mi przychodzi do głowy to uwzględniający rozstęp międzykwartylowym, IQR (interquartile range). Wartości, które znajdują się powyżej 1,5·IQR (rozstęp międzykwartylowy) od każdego z kwartyli, to właśnie obserwacje odstające outliery. Widać je szczególnie wyraźnie na wykresie skrzynkowym (boksplocie), gdzie mamy skrzynkę, wąsy i inne dodatkowe elementy.

Długość skrzynki wyznacza rozstęp międzykwartylowy (jest to różnica między górny kwartylem Q3 a dolnym kwartylem Q1). Koniec każdego z wąsa znajduje się w odległości 1,5 · IQR odejmowanego raz od dolnego, a raz od górnego kwartyla. Jeśli obserwacja nie wejdzie w zakres między dolnym a górnym wąsem, to uznaje się, że jest obserwacją odstającą.

Programy statystyczne zaznaczają takie obserwacje różnymi kółkami i gwiazdkami. SPSS postępuje w ten sposób, że kółkami zaznaczone są takie obserwacje, które wprawdzie znalazły się poza zasięgiem wąsów, ale mieszczą się w zasięgu dwukrotnej długości wąsa. Gwiazdkami zaznaczone są takie, którymi nie można sięgnąć nawet dwukrotną długością wąsa. Więcej znajdziesz w poście o wykresie skrzynkowym i diagnostyce normalności.

Według tej samej filozofii, na jakiej oparła się ta zasada, przyjmujemy też pewne założenie o rozkładzie cechy. A mianowicie to, że badana cecha ma (teoretycznie) rozkład normalny. Zarówno podstawą tego wzoru, jak i boksplota przyjmuje się rozkład normalny jako rozkład odniesienia. Nie zawsze to założenie da się utrzymać.

OUTLIERY KOJARZĄ SIĘ Z NIETYPOWOŚCIĄ - Ale nietypowość trzeba jakoś zrozumieć, zdefiniować, określić. Można by pomyśleć, że kluczem do zrozumienia nietypowości outlierów jest po prostu sama ich wartość. Przecież najczęściej spotyka się właśnie tak definiowane outliery jako obserwacje, które są różne (odległe) od pozostałych. Ich nietypowość jest mierzona różnicą między ich wartością a na przykład średnią arytmetyczną. Im dalej od średniej, tym bardziej nietypowo. Tymczasem nietypowość bierze się nie z samej wartości, np. 1,72, a z tego, jak często taka wartość może się zdarzyć.

PRZYKŁAD — Ocena 5 z klasówki sama w sobie nie oznacza nic - jest zależna od kontekstu. Raz przecież piątka jest typowa (na przedmiotach łatwiejszych, np. plastyka... chyba), a raz jest nietypowa, jak na przedmiotach ścisłych. Przepraszam w tym miejscu wszystkich nauczycieli fizyki, matematyki i chemii za to, że straszę Waszymi przedmiotami, ale sami wiecie, jak jest. Są to przedmioty, które wymagają więcej wkładu ze strony ucznia (ze strony nauczyciela też), więc siłą rzeczy, częstość piątek jest inna niż na takiej religii.
Aby nieco odejść od przedmiotów w szkole możemy wykorzystać całkiem pospolitą cechę, jaką jest wzrost. Mój wzrost to 171 cm. Czy to obserwacja typowa czy odstająca? Zależnie od tego, na jakim tle ją porównywać.
W przedszkolu większość zerówkowiczów mieści się w przedziale między 110 a 140 centymetrów. Z moim 170 byłabym przedszkolakiem-gigantem, dlatego, że 90 % populacji siedmiolatków osiąga wzrost w przedziale między 110 a 140 centymetrów. Pozostałe 10% jest albo z lewej strony tego przedziału (poniżej 110) albo z prawej strony tego przedziału (powyżej 140). Mój aktualny wzrost znajduje się wiele powyżej górnej granicy. Powiecie, że to niemożliwe, aby taki przedszkolak trafił się? Ogólnie to prawda, to byłby naprawdę rzadki okaz przedszkolaka, ale Gigant z Illinois żył naprawdę i w wieku siedmiu lat miał 178 centymetrów - to nawet więcej ode mnie teraz. Ja i Rober Wadlow (ów Gigant z Illinois) jesteśmy outlierami z prawej strony typowego wzrostu przedszkolaka. Z prawej, bo osiągamy jak na przedszkolaka bardzo wysoki wzrost.
Przenieśmy się teraz do innej grupy. W grupie dorosłych ze swoimi 170 centymetrami jestem typową obserwacją. Zaś w grupie koszykarek byłabym outlierem z lewej strony. Większość koszykarek jest wyższa niż ja. Tak więc, o ile mój wzrost jest jedną z możliwych wartości, jaką można spotkać w gatunku homo sapiens, o tyle to, czy jest obserwacją typową zależy od grupy, od częstości występowania pozostałych wartości. Outlierowość zależy od rozkładu. Zgodnie z powyższym, może się zdarzyć, że cały zbiór składa się z outlierów, bo zamiast zbadać wzrost dorosłych, ktoś trafił do grupy przedszkolaków i jedyną obserwacją, która należy do dorosłych, jest wychowawczyni.

OUTLIERY JEDNO- I WIELOWYMIAROWE — Obserwacja może być outlierem w obrębie jednej lub wielu zmiennych na raz. Weźmy przykład wzrostu przedszkolaków. Ja pośród przedszkolaków różniłabym się wzrostem – byłabym outlierem w zmiennej Wzrost. Ale wzrost to nie jedyna różnica między mną a przedszkolakami - różnię się też wagą, długością rąk, nóg, a mówię tu tylko o cechach antropometrycznych. Jeśli dana obserwacja jest różna od pozostałych pod jednym względem to jest jednowymiarowym outlierem. Jeśli pod więcej niż jednym względem, to jest wielowymiarowym outlierem.

ROZKŁADY SKŁONNE DO POSIADANIA OUTLIERÓW I ROZKŁADY ODPORNE —Są takie cechy, które same z siebie produkują outliery, ze względu na to, że taki mają rozkład. To zależy od kształtu ogonów rozkładu. Jeśli pamiętasz ogólną budowę rozkładów, to wiesz, że można wyróżnić szczyt, ramiona i ogony. Wiesz też, że krzywa ilustrująca rozkład cechy nigdy nie może przekroczyć osi OX (dlatego, że prawdopodobieństwo nie przyjmuje wartości ujemnych).

Jeśli teraz dana cecha ma rozkład, którego ogony szybko dotykają osi OX, wygaszając się po drodze, taka cecha (zmienna) jest ma rozkład odporny na outliery (outlier-resistant). W przeciwnym wypadku rozkład takiej cechy jest rozkładem mającym skłonność do posiadania outlierów (outlier prone). Paradoksalnie to, co zostało powiedziane o rozkładach odpornych na outliery, spełnia rozkład normalny, którego ramiona bardzo szybko zbliżają się do osi OX z jednej i z drugiej strony szczytu.

Z reguły trzech sigma wynika, że rozkład normalny ma szansę równe niecałe 1%, aby pojawiła się obserwacja spoza przedziału +/- trzy odchylenia standardowe od średniej. A im dalej przesunięta od średniej, tym jeszcze mniejsza szansa przytrafiania się. Tyle, że dużą rolę w tym wszystkim gra wielkość próby. Jeśli w dużej próbie, którą podejrzewasz, że wartości pochodzą z rozkładu normalnego, nie pojawiają się żadne obserwacje odstające (kółka, gwiazdki), to znaczy, że nie masz do czynienia z rozkładem normalnym.

Ale 'być odpornym na outliery' a 'nie mieć outlierów' to dwie różne sprawy. Rozkładem, który nie ma szans generować outliery, jest na przykład rozkład jednostajny. Cecha ma rozkład jednostajny, gdy wszystkie jej wartości mają teoretycznie jednakową szansę pojawienia się - to jest jednokrotny rzut monetą, kostką wielościenną. W ten sposób, żadna z wartości nie ma możliwości stać się gigantem ani też karłem.

OBSERWACJE ODSTAJĄCE I WPŁYWOWE — Strach przed outlierami bierze się z tego, że mogą one zaburzać modele statystyczne, na przykład model regresji liniowej. Mogą, ale nie muszą – sprawa jest bardziej złożona. Outlier nie zawsze psuje wszystko, zależy to od tego, czy jednocześnie jest obserwacją wpływową. Obserwacja wpływowa to taka obserwacja, która wywiera duży wpływ na postać modelu statystycznego - na jego współczynniki, w tym: współczynniki regresji. Obserwację wpływową najłatwiej zrozumieć przez to, co się dzieje z modelem po jej usunięciu. A więc, jest to obserwacja, której usunięcie powoduje dużą zmianę współczynników modelu.

Zobaczmy to na rysunku. Wykres przedstawia wykres rozproszenia (rozrzutu, scatterplot) dwóch zmiennych. Każdy pojedynczy punkt to obserwacja i gdy mamy do czynienia z analizą dwóch zmiennych, to słowo obserwacja odnosi się do dwóch wartości – po jednej na każdą zmienną. Mając wykres rozproszenia, chmurę punktów przebijamy linią regresji o określonym wzorze. Gdzie mogą znajdować się obserwacje wpływowe? Cóż, trudno szukać obserwacji wpływowych w środku samej chmury punktów. Usunięcie jednej typowej obserwacji nie spowoduje wielkiej zmiany, bo zawsze wokół są podobnie typowe sąsiadki. Zatem, aby obserwacja byłaby obserwacją wpływową należy szukać jej gdzieś dalej poza chmurą punktów - na rysunku ma kolor fioletowy.

I to, gdzie leży obserwacja odstająca (outlier), ma znaczenie, czy jednocześnie jest obserwacją wpływową. Jeśli obserwacja odstająca leży na linii regresji lub blisko w jej okolicach - jak ta fioletowa obserwacja - wówczas nie ma ona potencjału na bycie obserwacją wpływową. Jej usunięcie niewiele zmieniłoby ułożenie linii regresji. Nadal leżałaby mniej więcej w tym samym miejscu.

Inaczej sytuacja przedstawia się w tym przypadku:

Jeśli obserwacja odstająca znajduje się daleko od linii regresji, wówczas ma tendencje do przyciągania tej linii w swoim kierunku, zaburzając charakter zależności. Ta czerwona linia to linia regresji  zaburzona przez obserwację odstającą leżącą w zupełnie innym miejscu niż poprzednio. Może zdarzyć się tak, że nieświadomy obecności wpływowego outliera badacz dojdzie do wniosku, że linia regresji jest prawie równoległa do osi poziomej OX, czyli dany predyktor nie ma znaczenia. Może też uznać, że związek między zmiennymi jest większy niż naprawdę jest (na przykład przy analizie korelacji).

Gdy nie zidentyfikujemy obserwacji wpływowych, może okazać się, że nasz model opiera się w dużej mierze na jednej obserwacji.

DETEKCJA OUTLIERÓW, czyli jak znaleźć obserwacje odstające? — Sposobów na znajdowanie outlierów jest kilka. Dzielą się one na metody wizualne, liczbowe i testy.

  • WIZUALNE: boksplot, identyfikuje outliery po tym, że znajdują się poza wąsami wykresu skrzynkowego. Była o tym mowa w tym poście, ale nieco wyżej.
  • LICZBOWE: standaryzacja wyników - wyniki surowe przekształcamy do wyników standaryzowanych, zwanych wynikami z. Oznacza to, że od każdej surowej wartości osoby badanej odejmujemy średnią i dzielimy przez odchylenie standardowe. Następnie tak przekształcone wartości porównujemy z wartościami rozkładu normalnego standardowego. Wiemy, że działa dla niego reguła trzech sigma, więc jeśli jakiejś osobie badanej przytrafi się wynik z = 2,74, to wiemy, że jest to wynik, który znalazł się wśród takich, które mają 5% szansę pojawienia się.
  • TESTY: test Grubbsa, który bada, czy dany zestaw wyników ma przynajmniej jeden outlier. Minusem tego testu jest to, że porównuje cechę z rozkładem normalnym. Nie jest to jedyny test outlierów, ale w SPSS-ie nie ma żadnych testów.

Najłatwiej jest oczywiście z jednowymiarowymi outlierami - takie od razu widać podczas wstępnych analiz za pomocą narzędzi statystyki opisowej.

CO ZROBIĆ Z OUTLIERAMI? — Wiemy już, że nie można ich wyrzucić tak po prostu. Bycie outlierem nie oznacza od razu bycia pierwszym do usunięcia, ale nie ma jednego dobrego przepisu na postępowanie z nimi, o ile nie jest to wyraźny outlier wynikający z tego, że dana obserwacja nie miała prawa się przytrafić. Jak to się dzieje? Jeśli skala oodpowiedzi rozpina się między 1 (zdecydowanie się nie zgadzam) a 7 (zdecydowanie się zgadzam), to odpowiedź 77 jest zdecydowanie outlierem.

  • Po pierwsze - przyjrzeć się danym. Czy dana cecha może przyjść taką wartość? Gdy odpowiedź jest przecząca, wówczas można rozważyć usunięcie wartości w tej komórce.
  • Po drugie - sprawdzić, ile wyniosłaby dana statystyka z outlierem, a ile bez outliera? Będziesz wówczas wiedzieć, jak bardzo dana obserwacja ma wpływ na wyniki analiz.
  • Po trzecie - stosować metody odporne na outliery, w tym metody nieparametryczne.

STATYSTYKI ODPORNE NA OUTLIERY — Jeśli zdecydujemy się nie wyrzucać obserwacji odstających, nadal mamy pole manewru podczas wykonywania analiz. Istnieją statystyki odporne na outliery. Najprostszym przykładem statystyk opisowych jest moda, a także mediana. Średnia arytmetyczna sama w sobie nie jest odporna na obserwacje odstające, ale możemy przygotować próbę tak, aby wykluczyć wpływ outlierów.
Można to zrobić na dwa sposoby. Po pierwsze można usunąć obserwacje odstające i obliczyć średnią arytmetyczną na pomniejszonym zbiorze obserwacji. Wówczas taka średnia arytmetyczna nazywa się średnią ucinaną (trimmed mean) i outliery nie mają wpływu na jej wartość.

Obok tego, istnieje też sposób bez zmniejszania wielkości próby. Porządkujemy rosnąco obserwacje. Jasną rzeczą jest to, że w takim szeregu outlier będzie albo najmniejszą, albo największą obserwacją. Po uporządkowaniu zastępujemy outliera wartością sąsiadującą z nim najbliżej w tym szeregu. Dopiero na tak zmodyfikowanym zbiorze wartości obliczamy średnią arytmetyczną. Nazywa się ona wówczas średnią winsorowską. Winsorowską – bo pierwszą osobą, która wpadła na ten pomysł, był Charles Winsor (bez d w środku, nie jak zamek Windsor).

Statystyką mierzącą zależność między dwoma zmiennymi i jednocześnie odporną na obserwacje odstające jest współczynnik korelacji rho Spearmana, który jest przecież tym, samym co współczynnik r Pearsona, tyle, że liczonym na rangach obserwacji. Skoro mówimy o współczynniku rho Spearmana, należy też wspomnieć o całej gałęzi statystyki, jaką są metody nieparametryczne. Ale to i tak dopiero wstęp do statystyki odpornej na outliery.

Ignorowanie lub wyrzucanie go może skończyć się źle dla nas. Możemy nasze wnioskowanie oprzeć na części danych, tej części, która mówi złą historię. Znamy to z własnego życia - ile to razy źle odczytaliśmy czyjeś zachowanie i myśleliśmy, że istnieje coś, co nie istniało. Ryzykujemy zawód i rozczarowanie. W Internecie krąży charakterystyczny obrazek wymownie oddający co się dzieje, gdy tworzymy model nie zwracając uwagi na obserwację odstającą.

Współczynnik korelacji i jego odmiany

UPDATE: WRZESIEŃ 2024| LJK | ~5200 słów |


Współczynnik korelacji to liczba, która opisuje związek między dwoma cechami. A między nimi wiele może zdarzyć się - może je łączyć relacja przyczynowo-skutkowa, mogą tylko współwystępować, zaś to współwystępowanie może być wywołane jakąś inną zmienną. Relacja może być również czysto przypadkowa. Wbrew oczekiwaniom, współczynnik korelacji opisuje jedynie matematyczną relację między zmiennymi, nie zagłębiając się w powód tej relacji. Wartość liczbowa współczynnika korelacji jest najczęściej ograniczona do jakiegoś przedziału, np. może przyjmować wartości z przedziału [-1, 1] jak współczynnik korelacji liniowej r-Pearsona albo [0,1] jak współczynnik V Cramera. Padło właśnie kilka nazw współczynników korelacji. Wybór odpowiedniego zależy od kilku rzeczy – zarówno od tego, jakimi zmiennymi dysponuje badacz (np. czy są to zmienne ilościowe czy jakościowe) jak i charakteru związku między zmiennymi (np. czy łączy je związek liniowy) oraz od tego, co zamierza zbadać badacz. Mierząc związki między zmiennymi współczynniki korelacji pozwalają na szersze spojrzenie na to, co dzieje się w bazie.

SPIS TREŚCI:

Kolejność w rodzeństwie a osiągnięcia szkolne? Przykład zastosowania współczynnika korelacji

Przypuśćmy, że chcemy sprawdzić, czy kolejność narodzin wpływa na jednostkę – że bylibyśmy inni niż jesteśmy, gdybyśmy przyszli na świat nie w tej kolejności, w jakiej aktualnie jesteśmy. Na przykład jako pierwsi, albo jako ostatni.

Koncepcję wpływu pozycji w kolejności narodzin w rodzinie (ang. birth order theory) stworzył sto lat temu austriacki psychiatra Alfred Adler. Na pierwszy rzut oka pomysł wydawał się dobry. Każdy wie, że wraz z kolejnym dzieckiem, dynamika relacji zmienia się. Starsze dzieci wydają się już prawie dorosłe przy noworodku, a najmłodsze dzieci są - cóż - zawsze pozostają dziećmi w oczach członków rodziny. W różnych badaniach ujawnia się efekt, który polega na tym, że osoby urodzone jako pierwsze mają wyższe nasilenie cech przywódczych. To również wydaje się naturalne - gdy pojawia się małe dziecko w rodzinie, od jego rodzeństwa więcej oczekuje się, a to w konsekwencji prowadzi do rozwinięcia różnych cech - np. perfekcjonizmu, sumienności, co jak kostka domina przekłada się na wyższe wyniki w szkole niż u młodszego rodzeństwa. Ale równie dobrze można odwrócić myślenie - młodsze rodzeństwo ma więcej potencjalnych nauczycieli w domu: oprócz rodziców jest przecież jeszcze starszy brat czy siostra, który może wytłumaczyć o co chodzi z tym tarciem na równi pochyłej albo z trzecim trybem warunkowym w języku angielskim. To w końcu jak jest? Związek między kolejnością narodzin a osiągnięciami akademickimi może ujawnić metoda statystyczna zwana współczynnikiem korelacji - przykład teorii Adlera posłuży za kanwę, na której będziemy poznawać tę metodę.

W hipotetycznej bazie istnieją dwie kolumny reprezentujące wyniki dwóch zmiennych: kolejność urodzin (birth_order) i średnia ocen na koniec roku (school average) jako miara osiągnięć szkolnych. Na tej bazie obliczymy współczynnik korelacji rzucając wyzwanie teorii Adlera. Oczywiście, pod kątem metodologii kilka szczegółów zostało pominięte, np. fakt, że muszą być to osoby z jednego rocznika szkolnego, ponieważ porównywanie średniej ocen z końca V klasy jest zupełnie inne niż z końca całej podstawówki. 

Tak, jak już powiedzieliśmy wcześniej, nie interesuje nas każda z tych zmiennych z osobna, w oderwaniu od drugiej. Co z tego, że średnio rzecz biorąc najczęściej występowały osoby, które były czwarte w kolejności. Albo, że u osób badanych średnia średnich ocen badanych - nomen omen- wynosi 3,93. Histogramy, boksploty i liczbowe miary opisowe niosą mnóstwo informacji o zmiennych, ale nas interesuje kolejność narodzin w odniesieniu do osiągnięć szkolnych, albo jeszcze lepiej: osiągnięcia szkolne w kontekście kolejności narodzin w rodzinie, a nie każda z tych zmiennych oddzielnie.

Ustalmy zatem, że celem przykładowego badania jest związek między kolejnością narodzin i osiągnięciami szkolnymi. Odpowiemy na pytanie, czy zgodnie z przewidywaniami teorii Adlera i z wyższą pozycją w kolejności urodzeń można spodziewać się gorszych osiągnięć szkolnych. Do oceny siły związku dwóch zmiennych - a także często i kierunku - służą współczynniki korelacji.


Siła i kierunek - cechy charakterystyczne współczynników korelacji

Współczynników korelacji jest bardzo dużo, mają różne własności i o różnych rzeczach mówią, ale istnieją dwie podstawowe charakterystyki, o których mówią wszyscy. Jest to siła i kierunek korelacji.

SIŁA ZWIĄZKU to stopień, w jaki dwie zmienne są powiązane. Możesz o tym myśleć w kategoriach wzajemnej informacji między zmiennymi. Jeśli siła związku wynosi 100%, wówczas wiedzą o wyniku w jednej zmiennej przekłada się na pewną wiedzę o wyniku w drugiej zmiennej. Jeśli siła korelacji między kolejnością urodzenia a osiągnięciami szkolnymi byłaby 100%, wówczas znając pozycję w kolejności, wiedzielibyśmy jaką średnią otrzyma.

KIERUNEK ZWIĄZKU jest czymś innym niż siła. O ile siła mówi o stopniu powiązania między zmiennymi, o tyle kierunek mówi o charakterze tej relacji. Czy wartości zmiennych idą ręka w rękę i wyższym wartościom jednej zmiennej odpowiadają wyższe wartości drugiej zmiennej? A może podążają w przeciwną stronę i wyższym wartościom jednej zmiennej odpowiadają niższe wartości drugiej zmiennej? To jest właśnie kierunek korelacji. O pierwszym rodzaju kierunku mówimy, że jest dodatni, o drugim - ujemny. Ten wątek pojawi się w temacie o związkach między zmiennymi (niżej, KLIK).

Siła i kierunek związku to dwie cechy współczynników. Różnica między nimi polega na tym, że istnieją takie sytuacje, w których można mówić tylko o jednej z nich, a o drugiej – nie. Zawsze, gdy badasz związek między zmiennymi, może spytać o siłę tego związku - w zasadzie jest to celem wykonywania takich analiz. Niestety, to, co można powiedzieć o sile korelacji, nie da się o kierunku. Kierunek jest tą cechą współczynników korelacji, o którym można mówić wówczas gdy badane zmienne mają odpowiednią skalę pomiarową. Dopiero gdy obserwacje można uporządkować w kolejności nasilenia pod względem jednej i drugiej zmiennej (niekoniecznie na raz), otwiera się możliwość wskazania rosnącego lub malejącego związku między zmiennymi.


Graficzna ilustracja związku - wykres rozproszenia

W zrozumieniu różnych pojęć ze współczynnikiem a także w wyborze współczynnika korelacji pomaga bardzo proste narzędzie graficzne, zwane wykresem rozproszenia (zwane też wykresem rozrzutu, punktowym, scatterplot).

Wykres rozproszenia nadaje się tylko dla zmiennych o określonym typie skali pomiarowej - tj. co najmniej porządkowych, a najlepiej ilościowych. Na każdej z osi znajdują się zakresy wartości badanych zmiennych a każdy z punktów wykresu to pojedyncza obserwacja - jednostka przebadana pod kątem zarówno jednej, jak i drugiej zmiennej. Zauważ, że tu obserwacja składa się z dwóch wartości pochodzących od jednej i drugiej zmiennej - te punkty mają dwie współrzędne. Razem tworzą strukturę, którą dla wygody nazwiemy chmurą punktów. Chmura złożona z punktów odzwierciedla siłę i kierunek zależności między zmiennymi. Dla wygody można chmurę otoczyć tzw. obwiednią - czyli swobodnie zarysowaną linią, która oddaje kształt tej chmury. Na rysunku to ta fioletowa linia, która obejmuje wszystkie punkty. Na obwiednię nie ma konkretnego przepisu wyrażonego wzorem w stylu f(x) - w praktyce rysuje się ją na wyczucie we własnej głowie lub palcem po ekranie.

Oglądając chmurę punktów interesuje nas stopień koncentracji punktów. Im bardziej skoncentrowana chmura punktów (rysunek po lewej stronie), tym silniejszy związek między zmiennymi. Im bardziej rozproszone punkty, tym słabszy związek (rysunek po prawej). Punkty mogą być tak rozproszone, że niemożliwa stanie się wizualna ocena siły korelacji między zmiennymi. Może wydawać się, że współczynnik korelacji powinien być równy zeru, a po obliczeniu go okaże się, że ta liczbowa wartość jednak nie jest zerowa. Nawiasem mówiąc, trzeba mieć niebywałe szczęście, żeby w próbie współczynnik korelacji był równy zero. Najczęściej jest to jakaś liczby, choćby i na piątym miejscu po przecinku. Do tego tematu wrócimy niżej.

Przyglądając się ułożeniu punktów patrzymy również na ich koncentrację.

Gdy patrzymy - zgodnie z naszymi zachodnioeuropejskimi przyzwyczajeniami poznawczymi - od lewej do prawej, to chmura punktów wydaje się być uchwycona w ruchu. Unoszący się kształt chmury punktów oznacza dodatni kierunek związku między zmiennymi - i dodatni znak współczynnika korelacji. Opadający kształt chmury punktów oznacza ujemny kierunek związku między zmiennymi i - ujemny znak współczynnika korelacji.

Warto zapamiętać, że celem obliczenia współczynnika korelacji między dwoma zmiennymi należy posiadać jedną bazę danych zawierającą obie zmienne. Jeśli masz dwie różne bazy, a chcesz obliczyć współczynnik korelacji między zmiennymi, to taki manewr nie uda się. Pomiar obu zmiennych musi pochodzić od tej samej jednostki badanej.

W przykładzie ilustrującym przewidywania teorii Adlera o ujemnym związku między pozycją w kolejności narodzin a średnią z ocen na koniec roku, zobaczymy taką postać wykresu rozproszenia.

Wykres rozproszenia zmiennych Numer kolejności urodzenia i Średnia końcowa.

Liczbowa wartość współczynnika korelacji byłaby ujemna, co pokazuje charakter tego wykresu. Chmura punktów opada, co sygnalizuje to, że wyższym pozycjom odpowiadają niższe średnie ocen. Przejdźmy teraz do pytania o to, jaki współczynnik korelacji powinniśmy wybrać?


Kryteria wyboru współczynnika korelacji

V Cramera, tau-b Kendalla, r-Pearsona, rho Spearmana - to najpopularniejsze współczynniki korelacji. Są jeszcze d Sommera, tetrachoryczny, gamma Kruskala - i wiele innych. Jak się możesz domyślić, nie ma jednego współczynnika korelacji dobrego do każdej sytuacji badawczej. Skąd zatem wiadomo, który wybrać? Wybór odpowiedniego współczynnika jest podyktowany kilkoma warunkami.

1. SKALA POMIAROWA (typologia Stevensa: nominalna, porządkowa, itd.). – mówi o tym, jakich operacji arytmetycznych (porównywania, dodawania, mnożenia) możemy dokonywać na uzyskanych wynikach. Wyniki wypełniają komórki w wierszach i kolumnach w bazie, często przypisuje im się wartości numeryczne np. kobieta = 1, mężczyzna = 2. Zadaniem badacza jest wiedzieć, jak je poprawnie traktować – czy jako prawdziwe liczby, dla których można wykonać mnożenie, czy tylko znaki graficzne, jak w przypadku zmiennej Płeć czy jako pełnoprawne liczby, jak w przypadku zmiennej Wzrost. Ponieważ współczynnik korelacji jest obliczany z udziałem wyników pochodzących od dwóch zmiennych, należy pochylić się nad skalą pomiarową obu zmiennych. Więcej tu: KLIK.

Ta konieczność wynika z faktu, że współczynniki korelacji to nic innego jak wzory, które dokonują rozmaitych przekształceń na otrzymanych wynikach. Raz jest to odejmowanie średniej arytmetycznej od każdej obserwacji, innym razem - rangowanie obserwacji (tj. porządkowania w kolejności rosnącej), a jeszcze w innym przypadku pracuje się na liczebnościach jednostek, które wystąpiły w obrębie danej kategorii. Od wachlarza arytmetycznych działań, jakie można dokonać na Twoich zmiennych zależy badanie i siły, i kierunku korelacji.

Operacje arytmetyczne zaklęte wewnątrz współczynnika korelacji ograniczają badacza, dlatego najlepiej zastanowić się nad danymi jeszcze zanim analizy ruszą, na etapie projektu badania. Jeśli badacz zmierzy kolejność urodzenia za pomocą trzech kategorii: najstarszy, środkowy, najmłodszy, to nie będzie mógł zastosować jednego z najpopularniejszych współczynników korelacji r-Pearsona - zwyczajnie dlatego, że skala pomiarowa tak mierzonej zmiennej nie pozwala na dwie wykorzystywane podczas obliczania tego współczynnika ważnych operacji arytmetycznych: uśredniania wyników oraz ich odejmowanie od siebie.

W przykładzie z Adlerem o kolejności urodzeń i osiągnięć szkolnych, pierwszą zmienną mierzymy za pomocą wskaźnika, które daje skalę ilorazową (chyba). Jest to zwyczajne pytanie “Którą w kolejności jesteś osobą urodzoną w Twojej rodzinie”. Drugą zmienną mierzymy za pomocą średniej ocen na koniec roku szkolnego, co daje nam skalę interwałową. Obie skale są ilościowe, więc najsensowniej byłoby skorzystać ze współczynnika korelacji r-Pearsona lub rho-Spearmana. Od czego mogłoby zależeć czy pierwszy, czy drugi? Tu pojawia się kolejny wyznacznik doboru współczynnika korelacji.

2. ROZKŁAD WARTOŚCI ZMIENNYCH - czy może mają rozkład normalny i są ułożone symetrycznie wokół średniej arytmetycznej a może jakiś inny. Sam rozkład nie stoi na przeszkodzie obliczeniu współczynnika korelacji, ale często jesteś zainteresowana przejściem z poziomu próby na poziom populacji i chcesz zastosować test statystyczny, a te z kolei mają tzw. założenia - wymogi stawiane danym odnośnie ilustrujących ich rozkładów.

Testy statystyczne sprawują się dobrze - tj. dają miarodajne wyniki - gdy użyte do testowania dane są odpowiedniej postaci. Na przykład test istotności współczynnika korelacji r Pearsona wymaga, aby dane pochodziły z rozkładu normalnego. W ten sposób rozkład danych staje się jednym z kryteriów wyboru współczynnika korelacji.

3. CHARAKTER ZWIĄZKU łączącego zmienne. Ustalmy najpierw o co tutaj chodzi, ponieważ wkrótce poruszymy temat związku łączącego zmienne z całkowicie innej perspektywy.

Są dwa sposoby rozumienia frazy “charakter związku”. Po pierwsze może nam chodzi o to, jak dwie zmienne łączą się, czy jedna wynika z drugiej, tworząc związek przyczynowo skutkowy, lub może są powiązane między sobą. Jest to ontologiczny charakter związku - a przynajmniej ja to tak nazywam. Drugi sposób odnosi się do tego, jak wyniki jednej zmiennej mają się do wyników drugiej zmiennej - czy wraz ze wzrostem wartości jednych, rosną drugie - czy spadają. Ten drugi nazywam matematycznym i właśnie o tym tutaj mowa.

W obrębie matematycznego podziału również mamy kilka rodzajów związków wiążących jedne wyniki z drugimi. Na pewno są Ci znane z lekcji matematyki w szkole średniej, ale ponieważ wówczas były przedstawiane w abstrakcyjnej, pozbawionej materialnych form postaci, to omówimy te zależności jeszcze raz, w bardziej namacalnej postaci przy pomocy wykresów. Wykresy ilustrują matematyczną relację łączącą wyniki jednej zmiennej z wynikami drugiej zmiennej.

ZWIĄZEK STAŁY — szczególny przypadek. Ten typ związku to najprostszy i najbardziej banalny typ relacji między zmiennymi. Niezależnie od wartości jednej zmiennej, wartości drugiej są stałe - są jedną liczbą. Współczynniki korelacji bardzo nie lubią tego typu sytuacji w bazie i najczęściej program statystyczny zgłosi błąd, gdy użytkownik poprosi o policzenie korelacji dla dwóch kolumn, z których jedna zawiera tylko jeden wynik powtarzany przez wszystkie wiersze.

Ten typ związku to najprostszy i najbardziej banalny typ relacji między zmiennymi. Niezależnie od wartości jednej zmiennej, wartości drugiej są stałe - są jedną liczbą. Współczynniki korelacji bardzo nie lubią tego typu sytuacji w bazie i najczęściej program statystyczny zgłosi błąd, gdy użytkownik poprosi o policzenie korelacji dla dwóch kolumn, z których jedna zawiera tylko jeden wynik powtarzany przez wszystkie wiersze.

Ponieważ taka relacja, w której jedna ze zmiennych jest po prostu kolumną wypełnioną tą samą liczbą, i tak byłaby mało interesująca, to przenieśmy uwagę na takie relacje, gdzie zmianom wartości jednej zmiennej towarzyszą zmiany wartości drugiej zmiennej. Na przykład, gdy wartości jednej zmiennej rosną, wartości drugiej również rosną. Czasami te zmiany mogą dokonywać się szybciej, albo wolniej - zmieniać się stabilnie lub w sposób zmienny. Poznasz teraz trzy rodzaje związków: liniowy, monotoniczny-ale-nieliniowy oraz krzywoliniowy. Sens tych związków będzie tkwić tempie zmian.

ZWIĄZEK LINIOWY — to taki związek, który sam w sobie nie jest stały, ale w którym tempo zmian takie jest - stałe, niezmienne. Co miałoby to oznaczać? Owszem, wartości jednej zmiennej zmieniają się wraz ze zmianą wartości drugiej ze zmiennych, ale sposób tych zmian jest taki sam. Mój ulubiony przykład pokazujący liniową zależność dotyczy produkcji ciasta. Wiadomo, że jeśli weźmiesz dwa razy więcej składników, otrzymasz dwa razy więcej ciasta. Stanie się to niezależnie od tego, czy wyjściowo masz użyć pół łyżeczki proszku do pieczenia, czy też dwie. Gdy wyjściową wartość każdego ze składników pomnożysz dwukrotnie, to wówczas otrzymasz dwukrotnie więcej ciasta. Słowo “liniowy” odnosi się do stałego tempa zmian - tu wynosi ono 2.

Związek liniowy na wykresie ilustruje linia prosta o nachyleniu innym niż kąt prosty i kąt zerowy w stosunku do osi OX. Jeśli byłby to kąt zerowy, wówczas mielibyśmy sytuację przedstawioną na poprzednim rysunku.

Jeśli swobodnie czujesz się w otoczeniu pojęć ze szkoły średniej, możemy o liniowym związku mówić wówczas, gdy gdy wraz ze wzrostem argumentów funkcji wartości jednoznacznie rosną (a pochodna jest równa zero). Funkcja liniowa y = ax + b jest czołowym przykładem liniowej zależności między iksem a igrekiem - co zresztą widać w jej nazwie. Funkcja kwadratowa już taka nie jest. Krzywą przyciąga oś OX, a potem gwałtownie odbija ona w górę.

Oczywiście, w praktyce rzadko kiedy obserwacje leżące równo na prostej i zamiast rysunku z linią prostą, mamy chmurę punktów układających się wzdłuż prostej.

Współczynnik korelacji, który uchwyca liniowe zależności między dwoma zmiennymi ilościowymi - stale rosnącej lub stale malejącej - nazywa się współczynnikiem korelacji liniowej r-Pearsona.

ZWIĄZEK MONOTONICZNY ALE NIE LINIOWY to taki związek o którym można powiedzieć, gdy zmianom wartości jednej zmiennej towarzyszy ten sam kierunek zmian wartości drugiej zmiennej, ale niekoniecznie ich tempo jest stałe. Może być różne w różnych okresach - czasami nawet zatrzymuje się, ale - co ważne - nigdy nie idzie w drugim kierunku. Jeśli związek ma kierunek dodatni, to zawsze widoczny jest ten trend wzrostowy. Jeśli kierunek jest ujemny, to podobnie trend jest tylko spadkowy. Na wykresie widać wijącą się krzywą, ale podróż palcem po jej linii jest zawsze w tę samą stronę (albo w górę, albo w dół) - co najwyżej z przestojami.

Rysunek po lewej stronie ilustruje związek monotonicznie rosnący. Monotonicznie, czyli ciągle. Patrząc od lewej strony, krzywa leniwie pnie się ku górze, potem na pewien czas przystaje. Na tym odcinku jej wzrost jej bardzo niewielki, może nawet zatrzymywać się, ale nigdy cofać - jest co najwyżej płasko. Następnie, zupełnie jakby była pełna nowych sił, krzywa wystrzeliwuje ku górze. Powtórzmy to - nigdzie nie maleje, co najwyżej poziomo płoży (dla osób, które nie znają tego słowa: płożyć - podążać w kierunku poziomym).


Używając pojęć ze szkoły średniej, możemy o monotonicznym związku mówić wówczas, gdy wraz ze wzrostem argumentów funkcji, jej wartości również rosną. Funkcja kwadratowa y = ax2 + bx + c jest przykładem takiego związku, ale tylko na określonych przedziałach - tj. od minus nieskończoności do zera jest ona monotonicznie malejąca, a na przedziale od zera do plus nieskończoności jest ona monotonicznie rosnąca.

Istnieją współczynniki korelacji, które potrafią uchwycić takie monotoniczne zależności, np. współczynnik rangowy rho Spearmana. Wszystkie inne zależności, które nie mają takich kształtów są związkami krzywoliniowymi.

ZWIĄZEK KRZYWOLINIOWY — Wszelkie formy współzmienności dwóch cech, które nie są ani związkiem stałym, ani liniowym, ani monotonicznym, łączy związek krzywoliniowy. Można powiedzieć, że jest to pojęcie-do którego wkłada się wszystkie relacje, które nie są wymienione powyżej. W takich sytuacjach - a jest to wyższa szkoła jazdy - używa się np. transformacji danych, albo zupełnie innych metod statystycznych.

Rysunek obok jest tylko jednym z tysięcy przykładów krzywoliniowości. Tutaj akurat ten związek jest najpierw rosnący, potem malejący, potem znowu rosnący i na koniec maleje. Ale łatwo wyobrazić sobie dowolną inną kombinację spadku i wzrostu.

Każdy współczynnik korelacji jest zaprojektowany do wychwytywania określonego typu matematycznego związku łączącego dwie zmiennej - jeśli dobrze czujesz się wśród pojęć z matematyki, poprzednie zdanie można powiedzieć następująco: współczynniki korelacji wykrywają określony typ funkcji między zmiennymi.

Omówiliśmy kilka warunków decydujących o wyborze współczynnika korelacji. Dobrze byłoby pomyśleć o nich zanim zbierze się dane - już na etapie projektowania badania. Pozwala to zaplanować analizy i dać się zaskoczyć nieprzyjemnej niespodziance w postaci informacji o braku możliwości obliczenia interesującego współczynnika korelacji ze względu na typ pomiaru zmiennych.

Przykładowo, związek między płcią mierzoną dwoma kategoriami kobieta/mężczyzna i poziomem testosteronu we krwi zostanie inaczej zbadany niż związek między nasileniem kobiecości i tym samym poziomem testosteronu. Zwyczajnie dlatego, że płeć biologiczna ma dwie kategorie, zaś nasilenie cech kobiecości jest wynikiem z kwestionariusza Płci Psychologicznej Kuczyńskiej o zakresie 0 – 75. Inaczej zatem będziemy analizować pierwszy związek i inaczej drugi związek.

Pamiętaj też, że zawsze możesz obliczyć jeszcze inny współczynnik korelacji - to wcale nie jest tak, że do jednej bazy danych istnieje tylko jeden a Twoim zadaniem jest domyślić się, który. Nic nie stoi na przeszkodzie, aby obliczyć i drugi (o ile zajdzie taka potrzeba).


Współczynniki korelacji i różne skale pomiarowe

Doszliśmy już do miejsca, w którym możemy przyporządkować współczynniki korelacji do układów zmiennych - zależnie od skal pomiarowych tych zmiennych. Zajmiemy się tylko tymi pierwszymi współczynnikami korelacji: V Cramera, tau-b Kendalla, r-Pearsona i rho Spearmana.

WSPÓŁCZYNNIK V CRAMERA jest współczynnikiem korelacji, który pracuje na liczebnościach zmiennych, więc sprawdza się dla zmiennych nominalnych, gdzie możemy określić siłę związku, ale już nie jej kierunek (wzrostowy lub spadkowy - to jest wykluczone). Jeśli mierzysz siłę związku między typem osobowości (introwersja, ekstrawersja) a preferencją barw (zimne, ciepłe), to użyjesz tego właśnie współczynnika korelacji.

WSPÓŁCZYNNIK tau-b KENDALLA jest współczynnikiem dobrym dla zmiennych porządkowych, wykorzystującym fakt, że można ich wartości ułożyć w kolejności nasilenia. Bada stosunek par zgodnych do niezgodnych i może określać nie tylko siłę tej korelacji, ale i kierunek.

WSPÓŁCZYNNIK KORELACJI LINIOWEJ r-PEARSONA działa dla zmiennych ilościowych (przedziałowych i ilorazowych). To potężne narzędzie, ale ma jedną wadę - wykrywa jedynie związki liniowe. Jeśli Twoje ilościowe zmienne łączy związek inny niż liniowy, to wartość tego współczynnika będzie niemiarodajna.

WSPÓŁCZYNNIK KORELACJI RANGOWEJ RHO SPEARMANA — jak sama nazwa wskazuje, pracuje na rangach, czyli numerach w kolejności wystąpienia obserwacji. Mówi się o nim, że to współczynnik korelacji r Pearsona dla rang obserwacji (co jest prawdą). Wykrywa związki monotoniczne.


Omówienie wyników analizy korelacji

Wracając do przykładu z teorią Adlera, wiemy, że najczęściej występowały osoby, które były czwarte w kolejności a średnia średnich ocen badanych - nomen omen - wynosi 3,93. Aby sprawdzić, czy wraz z wyższą kolejnością narodzin idzie w parze niższa średnia powinniśmy obliczyć współczynnik korelacji. Będzie to współczynnik korelacji r Pearsona, ponieważ obie zmienne są ilościowe, a ponadto związek matematyczny jaki jest łączy jest liniowy - chmura punktów układa się wzdłuż prostej. To wszystko znajduje się na rysunku, który już widzieliśmy.

Między tymi dwoma zmiennymi współczynnik korelacji r Pearsona wynosi r = - 0,578. Wartość tego współczynnika jest ujemna - kształt chmury punktów opada. Kierunek związku jest ujemny - im dalej w porządku starszeństwa, tym niższa średnia ocen na koniec roku. W tym przypadku dane są zgodne z przewidywaniami teorii Adlera.

DISCLAIMER! Pamiętajcie, aby tych wniosków nie potraktować zbyt poważnie jako dowód na potwierdzenie słuszności teorii Adlera. Baza, na podstawie której dokonano rysunków i obliczeń w tym poście, jest bazą wymyśloną, sztucznie stworzoną na potrzeby realizacji materiału. Nie odbyły się żadne badania w tym kierunku, żadna realna osoba nie wzięła udziału w tym badaniu.


Kiedy korelacja jest mała, a kiedy duża?

W omawianym przez cały post przykładzie badań nad nad teorią Adlera okazało się, że współczynnik korelacji wyniósł r = -0,578. W ramach tego przykładu pojawił się jeden ze współczynników korelacji tzw. współczynnik korelacji liniowej r Pearsona, choć cały post omawia to zagadnienie z szerszej perspektywy. Niemniej jednak, zawsze pojawia się to samo pytanie - czy otrzymana wartość obliczonego współczynnika oznacza dużą siłę związku, czy może jeszcze większą? Kiedy możemy uznać związek za silny, a kiedy za umiarkowany, a kiedy jest słaby? Cóż, wszystko zależy od dziedziny,w jakiej badanie zostało przeprowadzone.

Na pewno spotkaliście się z różnymi rozmiarówkami, takimi jak ta poniższa. Według tej tabeli, otrzymana w badaniu wartość korelacji r = -,578 jest umiarkowana, ponieważ mieści się w przedziale od -0,5 do -0,8. Skąd akurat takie wartości graniczne, dlaczego -0,5 a nie -0,56? Czy nie można byłoby wymyślić innych?

Akurat te punkty odcięcia (cut-off points) – czy też progi (benchmarks) – wyznaczył Jacob Cohen (1923 - 1998). Amerykański psycholog, który wiele dobrego uczynił dla użytkowej statystyki. Między innymi opracował miarę siły związku między zmiennymi - tzw. wielkość efektu dla różnych schematów badawczych, w tym - dla korelacji. Wszystko po to, aby badacze nie opierali się tylko i wyłącznie na istotności statystycznej. Pewnego dnia, ktoś go poprosił, aby podał szacunkowe wartości, od których można uznać, że korelacja między zmiennymi jest słaba, umiarkowana, duża. Cohen zastanowił się - i podał punkty odcięcia według swojego uznania.

Jego doświadczenie badawcze było sporo, tak samo wiedza, więc nie można powiedzieć, że jego propozycja jest oderwana od rzeczywistości, należy jednak pamiętać, że są to progi stworzone przez jednego człowieka pracującego w obrębie jednej dziedziny – psychologii. Nie są one odpowiednie dla kogoś, kto pracuje np. w archeologii albo w medycynie. W statystyce, żeby powiedzieć, że coś jest duże, trzeba wiedzieć, jak wielka jest reszta.

Podsumowując, do każdego współczynnika korelacji może istnieć kilka rozmiarówek wskazujących to, jak duża jest siła związku między zmiennymi. Ta, którą widzisz w tabeli, odnosi się jedynie do jednego współczynnika korelacji w konkretnej dziedzinie, a i tak jest już uznawana za zbyt ogólną. Więcej na ten temat w odpowiednich postach o konkretnych współczynnikach korelacji.


Co mierzy współczynnik korelacji? Trzy rodzaje relacji ontologiczny między zmiennymi

ZWIĄZEK PRZYCZYNOWO-SKUTKOWY – jedna ze zmiennych zwana przyczyną wywołuje drugą ze zmiennych, zwaną skutkiem. Związek, w którym jedna zmienna wywiera wpływa na drugą, to najsilniejszy typ związku łączącego dwa zjawiska. To to tak naprawdę próbują odkryć naukowcy w każdej dziedzinie, ale ustalenie tego, czy między zmiennymi zachodzi taki związek jest bardzo skomplikowane.

Przykład takiego związku: między paleniem papierosów a występowaniem raka płuc. Ustalenie tego związku zajęło około pięćdziesięciu lat. Jednym z problemów, z jakimi mierzyli się naukowcy, było to, że w tym przypadku przeprowadzenie prawdziwego randomizowanego eksperymentu – z losowaniem osób badanych do grupy kontrolnej (niepalących) i eksperymentalnej (palaczy) – było etycznie niemożliwe.

WSPÓŁZMIENNOŚĆ - zwana też współzależnością lub po prostu korelacją, co jednocześnie zderza się z nazwą miar współzmienności opisywanych w tym poście. Niezależnie od nazewnictwa chodzi o taki związek między dwoma zmiennymi, w którym żadna z nich nie jest przyczyną drugiej, a przynajmniej jeszcze nic o tym nie wiadomo, a związek między nimi wynika albo z czystego przypadku albo z tego, że jedną i drugą zmienną wywołuje inna, nieujęta w badaniu, albo nieznana trzecia zmienna.

U dzieci wzrost i waga korelują bardzo silnie, ale nie dlatego, że wzrost powoduje przybieranie na wadze, lub też samą wagą można wydłużyć dziecko, ale dlatego, że następują zmiany rozwojowe, które pociągają za sobą i jedno, i drugie. Przykładem współzmienności nieopartej na przyczynie-skutku jest coś co nazywa się korelacją pozorną.

POZORNA KORELACJI (spurious correlation) - jest to nieszczęśliwa nazwa na związek między dwoma zmiennymi, który jest wywołany przez obecność trzeciej zmiennej, ale który wygląda podejrzanie. Nieszczęście tej nazwy wynika z tego, że kojarzy się bardziej z czystym przypadkiem, ze zbiegiem okoliczności, którego nie można wziąć na poważnie. Jak to jest, wyjaśnia poniższy przykład.

Koronnym przykładem pozornej korelacji, który można znaleźć wszędzie, więc będzie też i tu, jest przykład zależności między poziomem spożycia lodów a poziom utonięć. Obserwuje się, że gdy ludzie zaczynają spożywać lody, wówczas częściej toną i na odwrót - gdy spada spożycie lodów, wówczas topią się jakby mniej. Najwyraźniej lody i utonięcia muszą być ze sobą związane.

Ten przykład jest fajny pod względem edukacyjnym, ponieważ najpierw u odbiorcy wywołuje dysonans poznawczy. Mimo “udowodnionej naukowo” korelacji między tymi zmiennymi, trudno w niego uwierzyć w związek - dlaczego zjedzenie loda miałoby wzmocnić chęć utopienia się? Z drugiej strony, łatwo wymyślić, że związek między tymi zmiennymi jest wywołany przez inną zmienną - przez temperaturę, falę gorąca. To ona jest zmienną odpowiedzialną za korelację między spożyciem lodów i liczbą utonięć.

CZYSTY PRZYPADEK - taka korelacja, który istnieje tylko w liczbach, ale nie w rzeczywistości. Teoretycznie, jeśli nie ma zależności między zmiennymi, to dowolna miara korelacji (niezależnie od tego jak się nazywa), powinna wynosić w próbie zero. Bo, jak nie ma korelacji, to nie ma i nie powinno jej być w żadnej próbie. Tak podpowiada zdrowy rozsądek. Niestety, jak się można spodziewać, w statystyce jest zupełnie inaczej. To jest właśnie czysty przypadek. Tak układają się wyniki w próbie, że wzór, który je wykorzystuje błędnie odczytuje je jako niezerową wartość.

Najlepszym przykładem tego, że niezwiązane ze sobą zmienne w bazie mogą liczbowo korelować jest korelacja między liczbą porządkową a dowolną inną realną zmienną np. pozycją w kolejności urodzenia. Liczba porządkowa, która tutaj - jak sama nazwa wskazuje - jedynie porządkuje wiersze w bazie. Nikt zatem nie spodziewa się jakiegoś związku z porządkiem w czyjejś rodzinie. Tymczasem, o dziwo, ta korelacja nie jest zerowa i zamiast r = 00 wynosi r = 0,25. Śmieszne, nie? Spróbuj przy okazji sam(a) wykonać korelację między dowolną zmienną w Twojej bazie a liczbą (numerem) porządkowym. Zobaczysz, że ta korelacja prawie nigdy nie wyniesie zero.

Dlatego tak ważne jest zachowanie trzeźwego umysłu przy interpretacji współczynnika korelacji, ponieważ współczynnik sam w sobie nie jest w stanie wskazać, która z tych relacji łączy dwie zmienne. To stąd bierze się hasło:”korelacje to nie przyczynowość” (czasami możecie usłyszeć słowo:”kauzacja”). Ten wytarty na uniwersytetach slogan przestrzega przed pochopną oceną o związku przyczynowo-skutkowym tylko i wyłącznie na podstawie niezerowości współczynnika korelacji. Ontologiczny typ relacji – to czy zmienne są związane węzłem przyczynowości czy jakimkolwiek innym – to coś, czego nie możesz ustalić tylko i wyłącznie dzięki znajomości współczynnikowi korelacji.

Wracając do przykładu – jakim węzłem mogą być połączone zmienne Kolejność urodzeń i Osiągnięcia szkolne? Na pierwszy rzut oka brzmi to jak korelacja pozorna. Jak to, czy człowiek urodził się pierwszy czy piąty, może wpływać na średnią? Jaki miałby być mechanizm stojący za tym związkiem? Może rodzice więcej wymagają od starszego rodzeństwa? W zasadzie powinno być odwrotnie do tego, co twierdzi Adler - osoby urodzone później mają więcej osób do pomocy i rodzinnych korepetycji, stąd powinny mieć wyższą średnią. Kierunek zależności powinien być dodatni, a nie ujemny - jak uważa Adler. A być może jest to związek przyczynowo-skutkowy: rodzice inaczej oddziaływują na pierwsze dziecko niż na drugie i trzecie. Może jest to po prostu współwystępowanie - obserwowany związek między kolejnością urodzenia a osiągnięciami szkolnymi to efekt innej zmiennej np. oczekiwań wobec dziecka. Może najwięcej oczekiwań mają co do pierwszego dziecka, a z każdym kolejnym - coraz więcej realizmu w tych oczekiwaniach? Dobra odpowiedź na to pytanie wychodzi poza jedna odpowiedź i wymaga badań podłużnych, a także sformułowania mechanizmu stojącego za takim rodzajem zależności.


Informacje o współczynnikach korelacji, o których powinno się wiedzieć

ZAMIANA KOLEJNOŚCI ZMIENNYCH I ZNAK WSPÓŁCZYNNIKA KORELACJI — Fizycznym przejawem tego, że współczynnik korelacji nie wykrywa rodzaju związku między zmiennymi jest to, że współczynniki korelacji są niewrażliwe na kolejność wchodzenia zmiennych do analizy. Niezależnie od tego, w jakiej kolejności wyklikasz zmienne, to i tak dostaniesz tę samą wartość i nie jest to błąd programu, a własność tego narzędzia statystycznego.

Mówiąc językiem iksów i igreków, korelacja iksa z igrekiem jest taka sama, jak korelacja igreka z iksem. Wartość współczynnika korelacji Pozycji Narodzin (Birth Order) z Osiągnięciami Szkolnymi (School Average) jest taka sama jak wartość współczynnika korelacji Osiągnięć Szkolnych (School Average) z Pozycją narodzin (Birth Order). Nie zmienia się ani wartość współczynnika korelacji, ani nawet jego znak. Mimo zamiany kolejności zmiennych wchodzących do obliczeń, wartość i znak współczynnika korelacji nie zmienia się.

Oczywiście, z punktu wygody użytkownika wygodnie byłoby, aby znak współczynnika korelacji odwracał się, gdy w obliczeniach najpierw wskażemy nielogiczną kolejność zmiennych. Na przykład, gdybyśmy najpierw jako przyczynę wskazali osiągnięcia szkolne, a jako skutek kolejność urodzenia, to znak współczynnika korelacji powinien odwrócić się. W ten wygodny sposób narzędzie statystyczne pokazywałoby badaczowi, że coś jest nie tak. Niestety.

Od tego jest jeden wyjątek - niektóre współczynniki korelacji między zmiennymi jakościowymi (dokładniej to chodzi o te oparte na statystyce chi-kwadrat) potrafią pokazywać minus, ale nie ma nic wspólnego z typ relacji, a - z kolejnością kolumn w programie statystycznym.

ZEROWY WSPÓŁCZYNNIK KORELACJI NIE WYKLUCZA ZWIĄZKU — Niezależnie od tego, o jakim współczynniku korelacji mówimy, to istnieje pewna charakterystyczna wartość, której znaczenia może domyślić się prawie każdy, nawet ktoś, kto nie uczył się nigdy statystyki. I najprawdopodobniej odpowie poprawnie na pytanie, które brzmi: co oznacza zerowy współczynnik korelacji? Brak korelacji - zerowy współczynnik korelacji sygnalizuje, że nie ma zależności między zmiennymi. Sęk w tym, że jest to odpowiedź poprawna w połowie przypadków.

Wykres rozproszenia zmiennych, które ze sobą nie korelują, przedstawia się jako bezładna masa punktów. Gdybyśmy chcieli przeprowadzić linię prostą przez tę chmurę punktów, to byłaby ona równoległa względem osi OX.

Zerowy współczynnik korelacji może wskazywać na brak zależności, ale nie musi. W zrozumieniu dlaczego tak się dzieje, pomagają informacji z poprzedniej sekcji - tej, w której mówiliśmy o rodzajach matematycznych związków łączących zmienne.

Każde z narzędzi statystycznych uchwyca tylko część zależności w danych. Jeśli wybrany przez Ciebie współczynnik korelacji mierzy tylko związek liniowy, to jego zerowa wartość wskazuje na brak zależności liniowej - a nie: każdej innej.

Spójrz na poniższy rysunek - dwie zmienne są w pełni zależne względem siebie, ale współczynnik korelacji liniowej r-Pearsona, z naciskiem na “liniowej”, będzie wynosił zero. Co tu się stało? Jak widać, zależność między tymi zmiennymi zwyczajnie nie jest liniowa. Nie jest też monotoniczna, ponieważ najpierw rośnie, a potem maleje. Można co najwyżej powiedzieć, że jest liniowa na pewnych odcinkach, ale całościowy obraz przedstawia zależność krzywoliniową - dokładniej odwrócone U-kształtną.

Ten rysunek ma pomóc Ci w zapamiętaniu, że współczynnik korelacji równy zero jeszcze nie rozstrzyga o braku korelacji.


Podsumowanie

Zobaczmy jak wiele dowiedzieliśmy się o tym narzędziu, jakim jest współczynnik korelacji. Jest to:

  • pojedyncza liczba, która mierzy związek między dwoma zmiennymi
  • wartość współczynnika reprezentuje siłę korelacji, zaś w przypadku zmiennych o określonej skali pomiarowej znak współczynnika - jej kierunek (rosnący, malejący)
  • współczynnik korelacji równy zero nie wyklucza istnienia związku między zmiennymi KLIK
  • współczynnik korelacji mierzy jedynie związek między zmiennymi, ale nie określa tego, co powoduje ten związek KLIK

Współczynniki korelacji pozwalają ocenić siłę związku - ale jeszcze nie pozwalają na przewidywanie wartości. Z faktu, że współczynnik korelacji między r = - 0,578 jeszcze nie wynika, że gdy będziesz pierwszym dzieckiem rodziców, to powinieneś liczyć na średnią ocen równą 5,08, a gdy będziesz drugi, to: 3,78. Możliwość przewidywania wartości daje inna technika statystyczna - tzw. regresja liniowa.