Współczynnik korelacji i jego odmiany

UPDATE: WRZESIEŃ 2024| LJK | ~5200 słów |


Współczynnik korelacji to liczba, która opisuje związek między dwoma cechami. A między nimi wiele może zdarzyć się - może je łączyć relacja przyczynowo-skutkowa, mogą tylko współwystępować, zaś to współwystępowanie może być wywołane jakąś inną zmienną. Relacja może być również czysto przypadkowa. Wbrew oczekiwaniom, współczynnik korelacji opisuje jedynie matematyczną relację między zmiennymi, nie zagłębiając się w powód tej relacji. Wartość liczbowa współczynnika korelacji jest najczęściej ograniczona do jakiegoś przedziału, np. może przyjmować wartości z przedziału [-1, 1] jak współczynnik korelacji liniowej r-Pearsona albo [0,1] jak współczynnik V Cramera. Padło właśnie kilka nazw współczynników korelacji. Wybór odpowiedniego zależy od kilku rzeczy – zarówno od tego, jakimi zmiennymi dysponuje badacz (np. czy są to zmienne ilościowe czy jakościowe) jak i charakteru związku między zmiennymi (np. czy łączy je związek liniowy) oraz od tego, co zamierza zbadać badacz. Mierząc związki między zmiennymi współczynniki korelacji pozwalają na szersze spojrzenie na to, co dzieje się w bazie.

SPIS TREŚCI:

Kolejność w rodzeństwie a osiągnięcia szkolne? Przykład zastosowania współczynnika korelacji

Przypuśćmy, że chcemy sprawdzić, czy kolejność narodzin wpływa na jednostkę – że bylibyśmy inni niż jesteśmy, gdybyśmy przyszli na świat nie w tej kolejności, w jakiej aktualnie jesteśmy. Na przykład jako pierwsi, albo jako ostatni.

Koncepcję wpływu pozycji w kolejności narodzin w rodzinie (ang. birth order theory) stworzył sto lat temu austriacki psychiatra Alfred Adler. Na pierwszy rzut oka pomysł wydawał się dobry. Każdy wie, że wraz z kolejnym dzieckiem, dynamika relacji zmienia się. Starsze dzieci wydają się już prawie dorosłe przy noworodku, a najmłodsze dzieci są - cóż - zawsze pozostają dziećmi w oczach członków rodziny. W różnych badaniach ujawnia się efekt, który polega na tym, że osoby urodzone jako pierwsze mają wyższe nasilenie cech przywódczych. To również wydaje się naturalne - gdy pojawia się małe dziecko w rodzinie, od jego rodzeństwa więcej oczekuje się, a to w konsekwencji prowadzi do rozwinięcia różnych cech - np. perfekcjonizmu, sumienności, co jak kostka domina przekłada się na wyższe wyniki w szkole niż u młodszego rodzeństwa. Ale równie dobrze można odwrócić myślenie - młodsze rodzeństwo ma więcej potencjalnych nauczycieli w domu: oprócz rodziców jest przecież jeszcze starszy brat czy siostra, który może wytłumaczyć o co chodzi z tym tarciem na równi pochyłej albo z trzecim trybem warunkowym w języku angielskim. To w końcu jak jest? Związek między kolejnością narodzin a osiągnięciami akademickimi może ujawnić metoda statystyczna zwana współczynnikiem korelacji - przykład teorii Adlera posłuży za kanwę, na której będziemy poznawać tę metodę.

W hipotetycznej bazie istnieją dwie kolumny reprezentujące wyniki dwóch zmiennych: kolejność urodzin (birth_order) i średnia ocen na koniec roku (school average) jako miara osiągnięć szkolnych. Na tej bazie obliczymy współczynnik korelacji rzucając wyzwanie teorii Adlera. Oczywiście, pod kątem metodologii kilka szczegółów zostało pominięte, np. fakt, że muszą być to osoby z jednego rocznika szkolnego, ponieważ porównywanie średniej ocen z końca V klasy jest zupełnie inne niż z końca całej podstawówki. 

Tak, jak już powiedzieliśmy wcześniej, nie interesuje nas każda z tych zmiennych z osobna, w oderwaniu od drugiej. Co z tego, że średnio rzecz biorąc najczęściej występowały osoby, które były czwarte w kolejności. Albo, że u osób badanych średnia średnich ocen badanych - nomen omen- wynosi 3,93. Histogramy, boksploty i liczbowe miary opisowe niosą mnóstwo informacji o zmiennych, ale nas interesuje kolejność narodzin w odniesieniu do osiągnięć szkolnych, albo jeszcze lepiej: osiągnięcia szkolne w kontekście kolejności narodzin w rodzinie, a nie każda z tych zmiennych oddzielnie.

Ustalmy zatem, że celem przykładowego badania jest związek między kolejnością narodzin i osiągnięciami szkolnymi. Odpowiemy na pytanie, czy zgodnie z przewidywaniami teorii Adlera i z wyższą pozycją w kolejności urodzeń można spodziewać się gorszych osiągnięć szkolnych. Do oceny siły związku dwóch zmiennych - a także często i kierunku - służą współczynniki korelacji.


Siła i kierunek - cechy charakterystyczne współczynników korelacji

Współczynników korelacji jest bardzo dużo, mają różne własności i o różnych rzeczach mówią, ale istnieją dwie podstawowe charakterystyki, o których mówią wszyscy. Jest to siła i kierunek korelacji.

SIŁA ZWIĄZKU to stopień, w jaki dwie zmienne są powiązane. Możesz o tym myśleć w kategoriach wzajemnej informacji między zmiennymi. Jeśli siła związku wynosi 100%, wówczas wiedzą o wyniku w jednej zmiennej przekłada się na pewną wiedzę o wyniku w drugiej zmiennej. Jeśli siła korelacji między kolejnością urodzenia a osiągnięciami szkolnymi byłaby 100%, wówczas znając pozycję w kolejności, wiedzielibyśmy jaką średnią otrzyma.

KIERUNEK ZWIĄZKU jest czymś innym niż siła. O ile siła mówi o stopniu powiązania między zmiennymi, o tyle kierunek mówi o charakterze tej relacji. Czy wartości zmiennych idą ręka w rękę i wyższym wartościom jednej zmiennej odpowiadają wyższe wartości drugiej zmiennej? A może podążają w przeciwną stronę i wyższym wartościom jednej zmiennej odpowiadają niższe wartości drugiej zmiennej? To jest właśnie kierunek korelacji. O pierwszym rodzaju kierunku mówimy, że jest dodatni, o drugim - ujemny. Ten wątek pojawi się w temacie o związkach między zmiennymi (niżej, KLIK).

Siła i kierunek związku to dwie cechy współczynników. Różnica między nimi polega na tym, że istnieją takie sytuacje, w których można mówić tylko o jednej z nich, a o drugiej – nie. Zawsze, gdy badasz związek między zmiennymi, może spytać o siłę tego związku - w zasadzie jest to celem wykonywania takich analiz. Niestety, to, co można powiedzieć o sile korelacji, nie da się o kierunku. Kierunek jest tą cechą współczynników korelacji, o którym można mówić wówczas gdy badane zmienne mają odpowiednią skalę pomiarową. Dopiero gdy obserwacje można uporządkować w kolejności nasilenia pod względem jednej i drugiej zmiennej (niekoniecznie na raz), otwiera się możliwość wskazania rosnącego lub malejącego związku między zmiennymi.


Graficzna ilustracja związku - wykres rozproszenia

W zrozumieniu różnych pojęć ze współczynnikiem a także w wyborze współczynnika korelacji pomaga bardzo proste narzędzie graficzne, zwane wykresem rozproszenia (zwane też wykresem rozrzutu, punktowym, scatterplot).

Wykres rozproszenia nadaje się tylko dla zmiennych o określonym typie skali pomiarowej - tj. co najmniej porządkowych, a najlepiej ilościowych. Na każdej z osi znajdują się zakresy wartości badanych zmiennych a każdy z punktów wykresu to pojedyncza obserwacja - jednostka przebadana pod kątem zarówno jednej, jak i drugiej zmiennej. Zauważ, że tu obserwacja składa się z dwóch wartości pochodzących od jednej i drugiej zmiennej - te punkty mają dwie współrzędne. Razem tworzą strukturę, którą dla wygody nazwiemy chmurą punktów. Chmura złożona z punktów odzwierciedla siłę i kierunek zależności między zmiennymi. Dla wygody można chmurę otoczyć tzw. obwiednią - czyli swobodnie zarysowaną linią, która oddaje kształt tej chmury. Na rysunku to ta fioletowa linia, która obejmuje wszystkie punkty. Na obwiednię nie ma konkretnego przepisu wyrażonego wzorem w stylu f(x) - w praktyce rysuje się ją na wyczucie we własnej głowie lub palcem po ekranie.

Oglądając chmurę punktów interesuje nas stopień koncentracji punktów. Im bardziej skoncentrowana chmura punktów (rysunek po lewej stronie), tym silniejszy związek między zmiennymi. Im bardziej rozproszone punkty, tym słabszy związek (rysunek po prawej). Punkty mogą być tak rozproszone, że niemożliwa stanie się wizualna ocena siły korelacji między zmiennymi. Może wydawać się, że współczynnik korelacji powinien być równy zeru, a po obliczeniu go okaże się, że ta liczbowa wartość jednak nie jest zerowa. Nawiasem mówiąc, trzeba mieć niebywałe szczęście, żeby w próbie współczynnik korelacji był równy zero. Najczęściej jest to jakaś liczby, choćby i na piątym miejscu po przecinku. Do tego tematu wrócimy niżej.

Przyglądając się ułożeniu punktów patrzymy również na ich koncentrację.

Gdy patrzymy - zgodnie z naszymi zachodnioeuropejskimi przyzwyczajeniami poznawczymi - od lewej do prawej, to chmura punktów wydaje się być uchwycona w ruchu. Unoszący się kształt chmury punktów oznacza dodatni kierunek związku między zmiennymi - i dodatni znak współczynnika korelacji. Opadający kształt chmury punktów oznacza ujemny kierunek związku między zmiennymi i - ujemny znak współczynnika korelacji.

Warto zapamiętać, że celem obliczenia współczynnika korelacji między dwoma zmiennymi należy posiadać jedną bazę danych zawierającą obie zmienne. Jeśli masz dwie różne bazy, a chcesz obliczyć współczynnik korelacji między zmiennymi, to taki manewr nie uda się. Pomiar obu zmiennych musi pochodzić od tej samej jednostki badanej.

W przykładzie ilustrującym przewidywania teorii Adlera o ujemnym związku między pozycją w kolejności narodzin a średnią z ocen na koniec roku, zobaczymy taką postać wykresu rozproszenia.

Wykres rozproszenia zmiennych Numer kolejności urodzenia i Średnia końcowa.

Liczbowa wartość współczynnika korelacji byłaby ujemna, co pokazuje charakter tego wykresu. Chmura punktów opada, co sygnalizuje to, że wyższym pozycjom odpowiadają niższe średnie ocen. Przejdźmy teraz do pytania o to, jaki współczynnik korelacji powinniśmy wybrać?


Kryteria wyboru współczynnika korelacji

V Cramera, tau-b Kendalla, r-Pearsona, rho Spearmana - to najpopularniejsze współczynniki korelacji. Są jeszcze d Sommera, tetrachoryczny, gamma Kruskala - i wiele innych. Jak się możesz domyślić, nie ma jednego współczynnika korelacji dobrego do każdej sytuacji badawczej. Skąd zatem wiadomo, który wybrać? Wybór odpowiedniego współczynnika jest podyktowany kilkoma warunkami.

1. SKALA POMIAROWA (typologia Stevensa: nominalna, porządkowa, itd.). – mówi o tym, jakich operacji arytmetycznych (porównywania, dodawania, mnożenia) możemy dokonywać na uzyskanych wynikach. Wyniki wypełniają komórki w wierszach i kolumnach w bazie, często przypisuje im się wartości numeryczne np. kobieta = 1, mężczyzna = 2. Zadaniem badacza jest wiedzieć, jak je poprawnie traktować – czy jako prawdziwe liczby, dla których można wykonać mnożenie, czy tylko znaki graficzne, jak w przypadku zmiennej Płeć czy jako pełnoprawne liczby, jak w przypadku zmiennej Wzrost. Ponieważ współczynnik korelacji jest obliczany z udziałem wyników pochodzących od dwóch zmiennych, należy pochylić się nad skalą pomiarową obu zmiennych. Więcej tu: KLIK.

Ta konieczność wynika z faktu, że współczynniki korelacji to nic innego jak wzory, które dokonują rozmaitych przekształceń na otrzymanych wynikach. Raz jest to odejmowanie średniej arytmetycznej od każdej obserwacji, innym razem - rangowanie obserwacji (tj. porządkowania w kolejności rosnącej), a jeszcze w innym przypadku pracuje się na liczebnościach jednostek, które wystąpiły w obrębie danej kategorii. Od wachlarza arytmetycznych działań, jakie można dokonać na Twoich zmiennych zależy badanie i siły, i kierunku korelacji.

Operacje arytmetyczne zaklęte wewnątrz współczynnika korelacji ograniczają badacza, dlatego najlepiej zastanowić się nad danymi jeszcze zanim analizy ruszą, na etapie projektu badania. Jeśli badacz zmierzy kolejność urodzenia za pomocą trzech kategorii: najstarszy, środkowy, najmłodszy, to nie będzie mógł zastosować jednego z najpopularniejszych współczynników korelacji r-Pearsona - zwyczajnie dlatego, że skala pomiarowa tak mierzonej zmiennej nie pozwala na dwie wykorzystywane podczas obliczania tego współczynnika ważnych operacji arytmetycznych: uśredniania wyników oraz ich odejmowanie od siebie.

W przykładzie z Adlerem o kolejności urodzeń i osiągnięć szkolnych, pierwszą zmienną mierzymy za pomocą wskaźnika, które daje skalę ilorazową (chyba). Jest to zwyczajne pytanie “Którą w kolejności jesteś osobą urodzoną w Twojej rodzinie”. Drugą zmienną mierzymy za pomocą średniej ocen na koniec roku szkolnego, co daje nam skalę interwałową. Obie skale są ilościowe, więc najsensowniej byłoby skorzystać ze współczynnika korelacji r-Pearsona lub rho-Spearmana. Od czego mogłoby zależeć czy pierwszy, czy drugi? Tu pojawia się kolejny wyznacznik doboru współczynnika korelacji.

2. ROZKŁAD WARTOŚCI ZMIENNYCH - czy może mają rozkład normalny i są ułożone symetrycznie wokół średniej arytmetycznej a może jakiś inny. Sam rozkład nie stoi na przeszkodzie obliczeniu współczynnika korelacji, ale często jesteś zainteresowana przejściem z poziomu próby na poziom populacji i chcesz zastosować test statystyczny, a te z kolei mają tzw. założenia - wymogi stawiane danym odnośnie ilustrujących ich rozkładów.

Testy statystyczne sprawują się dobrze - tj. dają miarodajne wyniki - gdy użyte do testowania dane są odpowiedniej postaci. Na przykład test istotności współczynnika korelacji r Pearsona wymaga, aby dane pochodziły z rozkładu normalnego. W ten sposób rozkład danych staje się jednym z kryteriów wyboru współczynnika korelacji.

3. CHARAKTER ZWIĄZKU łączącego zmienne. Ustalmy najpierw o co tutaj chodzi, ponieważ wkrótce poruszymy temat związku łączącego zmienne z całkowicie innej perspektywy.

Są dwa sposoby rozumienia frazy “charakter związku”. Po pierwsze może nam chodzi o to, jak dwie zmienne łączą się, czy jedna wynika z drugiej, tworząc związek przyczynowo skutkowy, lub może są powiązane między sobą. Jest to ontologiczny charakter związku - a przynajmniej ja to tak nazywam. Drugi sposób odnosi się do tego, jak wyniki jednej zmiennej mają się do wyników drugiej zmiennej - czy wraz ze wzrostem wartości jednych, rosną drugie - czy spadają. Ten drugi nazywam matematycznym i właśnie o tym tutaj mowa.

W obrębie matematycznego podziału również mamy kilka rodzajów związków wiążących jedne wyniki z drugimi. Na pewno są Ci znane z lekcji matematyki w szkole średniej, ale ponieważ wówczas były przedstawiane w abstrakcyjnej, pozbawionej materialnych form postaci, to omówimy te zależności jeszcze raz, w bardziej namacalnej postaci przy pomocy wykresów. Wykresy ilustrują matematyczną relację łączącą wyniki jednej zmiennej z wynikami drugiej zmiennej.

ZWIĄZEK STAŁY — szczególny przypadek. Ten typ związku to najprostszy i najbardziej banalny typ relacji między zmiennymi. Niezależnie od wartości jednej zmiennej, wartości drugiej są stałe - są jedną liczbą. Współczynniki korelacji bardzo nie lubią tego typu sytuacji w bazie i najczęściej program statystyczny zgłosi błąd, gdy użytkownik poprosi o policzenie korelacji dla dwóch kolumn, z których jedna zawiera tylko jeden wynik powtarzany przez wszystkie wiersze.

Ten typ związku to najprostszy i najbardziej banalny typ relacji między zmiennymi. Niezależnie od wartości jednej zmiennej, wartości drugiej są stałe - są jedną liczbą. Współczynniki korelacji bardzo nie lubią tego typu sytuacji w bazie i najczęściej program statystyczny zgłosi błąd, gdy użytkownik poprosi o policzenie korelacji dla dwóch kolumn, z których jedna zawiera tylko jeden wynik powtarzany przez wszystkie wiersze.

Ponieważ taka relacja, w której jedna ze zmiennych jest po prostu kolumną wypełnioną tą samą liczbą, i tak byłaby mało interesująca, to przenieśmy uwagę na takie relacje, gdzie zmianom wartości jednej zmiennej towarzyszą zmiany wartości drugiej zmiennej. Na przykład, gdy wartości jednej zmiennej rosną, wartości drugiej również rosną. Czasami te zmiany mogą dokonywać się szybciej, albo wolniej - zmieniać się stabilnie lub w sposób zmienny. Poznasz teraz trzy rodzaje związków: liniowy, monotoniczny-ale-nieliniowy oraz krzywoliniowy. Sens tych związków będzie tkwić tempie zmian.

ZWIĄZEK LINIOWY — to taki związek, który sam w sobie nie jest stały, ale w którym tempo zmian takie jest - stałe, niezmienne. Co miałoby to oznaczać? Owszem, wartości jednej zmiennej zmieniają się wraz ze zmianą wartości drugiej ze zmiennych, ale sposób tych zmian jest taki sam. Mój ulubiony przykład pokazujący liniową zależność dotyczy produkcji ciasta. Wiadomo, że jeśli weźmiesz dwa razy więcej składników, otrzymasz dwa razy więcej ciasta. Stanie się to niezależnie od tego, czy wyjściowo masz użyć pół łyżeczki proszku do pieczenia, czy też dwie. Gdy wyjściową wartość każdego ze składników pomnożysz dwukrotnie, to wówczas otrzymasz dwukrotnie więcej ciasta. Słowo “liniowy” odnosi się do stałego tempa zmian - tu wynosi ono 2.

Związek liniowy na wykresie ilustruje linia prosta o nachyleniu innym niż kąt prosty i kąt zerowy w stosunku do osi OX. Jeśli byłby to kąt zerowy, wówczas mielibyśmy sytuację przedstawioną na poprzednim rysunku.

Jeśli swobodnie czujesz się w otoczeniu pojęć ze szkoły średniej, możemy o liniowym związku mówić wówczas, gdy gdy wraz ze wzrostem argumentów funkcji wartości jednoznacznie rosną (a pochodna jest równa zero). Funkcja liniowa y = ax + b jest czołowym przykładem liniowej zależności między iksem a igrekiem - co zresztą widać w jej nazwie. Funkcja kwadratowa już taka nie jest. Krzywą przyciąga oś OX, a potem gwałtownie odbija ona w górę.

Oczywiście, w praktyce rzadko kiedy obserwacje leżące równo na prostej i zamiast rysunku z linią prostą, mamy chmurę punktów układających się wzdłuż prostej.

Współczynnik korelacji, który uchwyca liniowe zależności między dwoma zmiennymi ilościowymi - stale rosnącej lub stale malejącej - nazywa się współczynnikiem korelacji liniowej r-Pearsona.

ZWIĄZEK MONOTONICZNY ALE NIE LINIOWY to taki związek o którym można powiedzieć, gdy zmianom wartości jednej zmiennej towarzyszy ten sam kierunek zmian wartości drugiej zmiennej, ale niekoniecznie ich tempo jest stałe. Może być różne w różnych okresach - czasami nawet zatrzymuje się, ale - co ważne - nigdy nie idzie w drugim kierunku. Jeśli związek ma kierunek dodatni, to zawsze widoczny jest ten trend wzrostowy. Jeśli kierunek jest ujemny, to podobnie trend jest tylko spadkowy. Na wykresie widać wijącą się krzywą, ale podróż palcem po jej linii jest zawsze w tę samą stronę (albo w górę, albo w dół) - co najwyżej z przestojami.

Rysunek po lewej stronie ilustruje związek monotonicznie rosnący. Monotonicznie, czyli ciągle. Patrząc od lewej strony, krzywa leniwie pnie się ku górze, potem na pewien czas przystaje. Na tym odcinku jej wzrost jej bardzo niewielki, może nawet zatrzymywać się, ale nigdy cofać - jest co najwyżej płasko. Następnie, zupełnie jakby była pełna nowych sił, krzywa wystrzeliwuje ku górze. Powtórzmy to - nigdzie nie maleje, co najwyżej poziomo płoży (dla osób, które nie znają tego słowa: płożyć - podążać w kierunku poziomym).


Używając pojęć ze szkoły średniej, możemy o monotonicznym związku mówić wówczas, gdy wraz ze wzrostem argumentów funkcji, jej wartości również rosną. Funkcja kwadratowa y = ax2 + bx + c jest przykładem takiego związku, ale tylko na określonych przedziałach - tj. od minus nieskończoności do zera jest ona monotonicznie malejąca, a na przedziale od zera do plus nieskończoności jest ona monotonicznie rosnąca.

Istnieją współczynniki korelacji, które potrafią uchwycić takie monotoniczne zależności, np. współczynnik rangowy rho Spearmana. Wszystkie inne zależności, które nie mają takich kształtów są związkami krzywoliniowymi.

ZWIĄZEK KRZYWOLINIOWY — Wszelkie formy współzmienności dwóch cech, które nie są ani związkiem stałym, ani liniowym, ani monotonicznym, łączy związek krzywoliniowy. Można powiedzieć, że jest to pojęcie-do którego wkłada się wszystkie relacje, które nie są wymienione powyżej. W takich sytuacjach - a jest to wyższa szkoła jazdy - używa się np. transformacji danych, albo zupełnie innych metod statystycznych.

Rysunek obok jest tylko jednym z tysięcy przykładów krzywoliniowości. Tutaj akurat ten związek jest najpierw rosnący, potem malejący, potem znowu rosnący i na koniec maleje. Ale łatwo wyobrazić sobie dowolną inną kombinację spadku i wzrostu.

Każdy współczynnik korelacji jest zaprojektowany do wychwytywania określonego typu matematycznego związku łączącego dwie zmiennej - jeśli dobrze czujesz się wśród pojęć z matematyki, poprzednie zdanie można powiedzieć następująco: współczynniki korelacji wykrywają określony typ funkcji między zmiennymi.

Omówiliśmy kilka warunków decydujących o wyborze współczynnika korelacji. Dobrze byłoby pomyśleć o nich zanim zbierze się dane - już na etapie projektowania badania. Pozwala to zaplanować analizy i dać się zaskoczyć nieprzyjemnej niespodziance w postaci informacji o braku możliwości obliczenia interesującego współczynnika korelacji ze względu na typ pomiaru zmiennych.

Przykładowo, związek między płcią mierzoną dwoma kategoriami kobieta/mężczyzna i poziomem testosteronu we krwi zostanie inaczej zbadany niż związek między nasileniem kobiecości i tym samym poziomem testosteronu. Zwyczajnie dlatego, że płeć biologiczna ma dwie kategorie, zaś nasilenie cech kobiecości jest wynikiem z kwestionariusza Płci Psychologicznej Kuczyńskiej o zakresie 0 – 75. Inaczej zatem będziemy analizować pierwszy związek i inaczej drugi związek.

Pamiętaj też, że zawsze możesz obliczyć jeszcze inny współczynnik korelacji - to wcale nie jest tak, że do jednej bazy danych istnieje tylko jeden a Twoim zadaniem jest domyślić się, który. Nic nie stoi na przeszkodzie, aby obliczyć i drugi (o ile zajdzie taka potrzeba).


Współczynniki korelacji i różne skale pomiarowe

Doszliśmy już do miejsca, w którym możemy przyporządkować współczynniki korelacji do układów zmiennych - zależnie od skal pomiarowych tych zmiennych. Zajmiemy się tylko tymi pierwszymi współczynnikami korelacji: V Cramera, tau-b Kendalla, r-Pearsona i rho Spearmana.

WSPÓŁCZYNNIK V CRAMERA jest współczynnikiem korelacji, który pracuje na liczebnościach zmiennych, więc sprawdza się dla zmiennych nominalnych, gdzie możemy określić siłę związku, ale już nie jej kierunek (wzrostowy lub spadkowy - to jest wykluczone). Jeśli mierzysz siłę związku między typem osobowości (introwersja, ekstrawersja) a preferencją barw (zimne, ciepłe), to użyjesz tego właśnie współczynnika korelacji.

WSPÓŁCZYNNIK tau-b KENDALLA jest współczynnikiem dobrym dla zmiennych porządkowych, wykorzystującym fakt, że można ich wartości ułożyć w kolejności nasilenia. Bada stosunek par zgodnych do niezgodnych i może określać nie tylko siłę tej korelacji, ale i kierunek.

WSPÓŁCZYNNIK KORELACJI LINIOWEJ r-PEARSONA działa dla zmiennych ilościowych (przedziałowych i ilorazowych). To potężne narzędzie, ale ma jedną wadę - wykrywa jedynie związki liniowe. Jeśli Twoje ilościowe zmienne łączy związek inny niż liniowy, to wartość tego współczynnika będzie niemiarodajna.

WSPÓŁCZYNNIK KORELACJI RANGOWEJ RHO SPEARMANA — jak sama nazwa wskazuje, pracuje na rangach, czyli numerach w kolejności wystąpienia obserwacji. Mówi się o nim, że to współczynnik korelacji r Pearsona dla rang obserwacji (co jest prawdą). Wykrywa związki monotoniczne.


Omówienie wyników analizy korelacji

Wracając do przykładu z teorią Adlera, wiemy, że najczęściej występowały osoby, które były czwarte w kolejności a średnia średnich ocen badanych - nomen omen - wynosi 3,93. Aby sprawdzić, czy wraz z wyższą kolejnością narodzin idzie w parze niższa średnia powinniśmy obliczyć współczynnik korelacji. Będzie to współczynnik korelacji r Pearsona, ponieważ obie zmienne są ilościowe, a ponadto związek matematyczny jaki jest łączy jest liniowy - chmura punktów układa się wzdłuż prostej. To wszystko znajduje się na rysunku, który już widzieliśmy.

Między tymi dwoma zmiennymi współczynnik korelacji r Pearsona wynosi r = - 0,578. Wartość tego współczynnika jest ujemna - kształt chmury punktów opada. Kierunek związku jest ujemny - im dalej w porządku starszeństwa, tym niższa średnia ocen na koniec roku. W tym przypadku dane są zgodne z przewidywaniami teorii Adlera.

DISCLAIMER! Pamiętajcie, aby tych wniosków nie potraktować zbyt poważnie jako dowód na potwierdzenie słuszności teorii Adlera. Baza, na podstawie której dokonano rysunków i obliczeń w tym poście, jest bazą wymyśloną, sztucznie stworzoną na potrzeby realizacji materiału. Nie odbyły się żadne badania w tym kierunku, żadna realna osoba nie wzięła udziału w tym badaniu.


Kiedy korelacja jest mała, a kiedy duża?

W omawianym przez cały post przykładzie badań nad nad teorią Adlera okazało się, że współczynnik korelacji wyniósł r = -0,578. W ramach tego przykładu pojawił się jeden ze współczynników korelacji tzw. współczynnik korelacji liniowej r Pearsona, choć cały post omawia to zagadnienie z szerszej perspektywy. Niemniej jednak, zawsze pojawia się to samo pytanie - czy otrzymana wartość obliczonego współczynnika oznacza dużą siłę związku, czy może jeszcze większą? Kiedy możemy uznać związek za silny, a kiedy za umiarkowany, a kiedy jest słaby? Cóż, wszystko zależy od dziedziny,w jakiej badanie zostało przeprowadzone.

Na pewno spotkaliście się z różnymi rozmiarówkami, takimi jak ta poniższa. Według tej tabeli, otrzymana w badaniu wartość korelacji r = -,578 jest umiarkowana, ponieważ mieści się w przedziale od -0,5 do -0,8. Skąd akurat takie wartości graniczne, dlaczego -0,5 a nie -0,56? Czy nie można byłoby wymyślić innych?

Akurat te punkty odcięcia (cut-off points) – czy też progi (benchmarks) – wyznaczył Jacob Cohen (1923 - 1998). Amerykański psycholog, który wiele dobrego uczynił dla użytkowej statystyki. Między innymi opracował miarę siły związku między zmiennymi - tzw. wielkość efektu dla różnych schematów badawczych, w tym - dla korelacji. Wszystko po to, aby badacze nie opierali się tylko i wyłącznie na istotności statystycznej. Pewnego dnia, ktoś go poprosił, aby podał szacunkowe wartości, od których można uznać, że korelacja między zmiennymi jest słaba, umiarkowana, duża. Cohen zastanowił się - i podał punkty odcięcia według swojego uznania.

Jego doświadczenie badawcze było sporo, tak samo wiedza, więc nie można powiedzieć, że jego propozycja jest oderwana od rzeczywistości, należy jednak pamiętać, że są to progi stworzone przez jednego człowieka pracującego w obrębie jednej dziedziny – psychologii. Nie są one odpowiednie dla kogoś, kto pracuje np. w archeologii albo w medycynie. W statystyce, żeby powiedzieć, że coś jest duże, trzeba wiedzieć, jak wielka jest reszta.

Podsumowując, do każdego współczynnika korelacji może istnieć kilka rozmiarówek wskazujących to, jak duża jest siła związku między zmiennymi. Ta, którą widzisz w tabeli, odnosi się jedynie do jednego współczynnika korelacji w konkretnej dziedzinie, a i tak jest już uznawana za zbyt ogólną. Więcej na ten temat w odpowiednich postach o konkretnych współczynnikach korelacji.


Co mierzy współczynnik korelacji? Trzy rodzaje relacji ontologiczny między zmiennymi

ZWIĄZEK PRZYCZYNOWO-SKUTKOWY – jedna ze zmiennych zwana przyczyną wywołuje drugą ze zmiennych, zwaną skutkiem. Związek, w którym jedna zmienna wywiera wpływa na drugą, to najsilniejszy typ związku łączącego dwa zjawiska. To to tak naprawdę próbują odkryć naukowcy w każdej dziedzinie, ale ustalenie tego, czy między zmiennymi zachodzi taki związek jest bardzo skomplikowane.

Przykład takiego związku: między paleniem papierosów a występowaniem raka płuc. Ustalenie tego związku zajęło około pięćdziesięciu lat. Jednym z problemów, z jakimi mierzyli się naukowcy, było to, że w tym przypadku przeprowadzenie prawdziwego randomizowanego eksperymentu – z losowaniem osób badanych do grupy kontrolnej (niepalących) i eksperymentalnej (palaczy) – było etycznie niemożliwe.

WSPÓŁZMIENNOŚĆ - zwana też współzależnością lub po prostu korelacją, co jednocześnie zderza się z nazwą miar współzmienności opisywanych w tym poście. Niezależnie od nazewnictwa chodzi o taki związek między dwoma zmiennymi, w którym żadna z nich nie jest przyczyną drugiej, a przynajmniej jeszcze nic o tym nie wiadomo, a związek między nimi wynika albo z czystego przypadku albo z tego, że jedną i drugą zmienną wywołuje inna, nieujęta w badaniu, albo nieznana trzecia zmienna.

U dzieci wzrost i waga korelują bardzo silnie, ale nie dlatego, że wzrost powoduje przybieranie na wadze, lub też samą wagą można wydłużyć dziecko, ale dlatego, że następują zmiany rozwojowe, które pociągają za sobą i jedno, i drugie. Przykładem współzmienności nieopartej na przyczynie-skutku jest coś co nazywa się korelacją pozorną.

POZORNA KORELACJI (spurious correlation) - jest to nieszczęśliwa nazwa na związek między dwoma zmiennymi, który jest wywołany przez obecność trzeciej zmiennej, ale który wygląda podejrzanie. Nieszczęście tej nazwy wynika z tego, że kojarzy się bardziej z czystym przypadkiem, ze zbiegiem okoliczności, którego nie można wziąć na poważnie. Jak to jest, wyjaśnia poniższy przykład.

Koronnym przykładem pozornej korelacji, który można znaleźć wszędzie, więc będzie też i tu, jest przykład zależności między poziomem spożycia lodów a poziom utonięć. Obserwuje się, że gdy ludzie zaczynają spożywać lody, wówczas częściej toną i na odwrót - gdy spada spożycie lodów, wówczas topią się jakby mniej. Najwyraźniej lody i utonięcia muszą być ze sobą związane.

Ten przykład jest fajny pod względem edukacyjnym, ponieważ najpierw u odbiorcy wywołuje dysonans poznawczy. Mimo “udowodnionej naukowo” korelacji między tymi zmiennymi, trudno w niego uwierzyć w związek - dlaczego zjedzenie loda miałoby wzmocnić chęć utopienia się? Z drugiej strony, łatwo wymyślić, że związek między tymi zmiennymi jest wywołany przez inną zmienną - przez temperaturę, falę gorąca. To ona jest zmienną odpowiedzialną za korelację między spożyciem lodów i liczbą utonięć.

CZYSTY PRZYPADEK - taka korelacja, który istnieje tylko w liczbach, ale nie w rzeczywistości. Teoretycznie, jeśli nie ma zależności między zmiennymi, to dowolna miara korelacji (niezależnie od tego jak się nazywa), powinna wynosić w próbie zero. Bo, jak nie ma korelacji, to nie ma i nie powinno jej być w żadnej próbie. Tak podpowiada zdrowy rozsądek. Niestety, jak się można spodziewać, w statystyce jest zupełnie inaczej. To jest właśnie czysty przypadek. Tak układają się wyniki w próbie, że wzór, który je wykorzystuje błędnie odczytuje je jako niezerową wartość.

Najlepszym przykładem tego, że niezwiązane ze sobą zmienne w bazie mogą liczbowo korelować jest korelacja między liczbą porządkową a dowolną inną realną zmienną np. pozycją w kolejności urodzenia. Liczba porządkowa, która tutaj - jak sama nazwa wskazuje - jedynie porządkuje wiersze w bazie. Nikt zatem nie spodziewa się jakiegoś związku z porządkiem w czyjejś rodzinie. Tymczasem, o dziwo, ta korelacja nie jest zerowa i zamiast r = 00 wynosi r = 0,25. Śmieszne, nie? Spróbuj przy okazji sam(a) wykonać korelację między dowolną zmienną w Twojej bazie a liczbą (numerem) porządkowym. Zobaczysz, że ta korelacja prawie nigdy nie wyniesie zero.

Dlatego tak ważne jest zachowanie trzeźwego umysłu przy interpretacji współczynnika korelacji, ponieważ współczynnik sam w sobie nie jest w stanie wskazać, która z tych relacji łączy dwie zmienne. To stąd bierze się hasło:”korelacje to nie przyczynowość” (czasami możecie usłyszeć słowo:”kauzacja”). Ten wytarty na uniwersytetach slogan przestrzega przed pochopną oceną o związku przyczynowo-skutkowym tylko i wyłącznie na podstawie niezerowości współczynnika korelacji. Ontologiczny typ relacji – to czy zmienne są związane węzłem przyczynowości czy jakimkolwiek innym – to coś, czego nie możesz ustalić tylko i wyłącznie dzięki znajomości współczynnikowi korelacji.

Wracając do przykładu – jakim węzłem mogą być połączone zmienne Kolejność urodzeń i Osiągnięcia szkolne? Na pierwszy rzut oka brzmi to jak korelacja pozorna. Jak to, czy człowiek urodził się pierwszy czy piąty, może wpływać na średnią? Jaki miałby być mechanizm stojący za tym związkiem? Może rodzice więcej wymagają od starszego rodzeństwa? W zasadzie powinno być odwrotnie do tego, co twierdzi Adler - osoby urodzone później mają więcej osób do pomocy i rodzinnych korepetycji, stąd powinny mieć wyższą średnią. Kierunek zależności powinien być dodatni, a nie ujemny - jak uważa Adler. A być może jest to związek przyczynowo-skutkowy: rodzice inaczej oddziaływują na pierwsze dziecko niż na drugie i trzecie. Może jest to po prostu współwystępowanie - obserwowany związek między kolejnością urodzenia a osiągnięciami szkolnymi to efekt innej zmiennej np. oczekiwań wobec dziecka. Może najwięcej oczekiwań mają co do pierwszego dziecka, a z każdym kolejnym - coraz więcej realizmu w tych oczekiwaniach? Dobra odpowiedź na to pytanie wychodzi poza jedna odpowiedź i wymaga badań podłużnych, a także sformułowania mechanizmu stojącego za takim rodzajem zależności.


Informacje o współczynnikach korelacji, o których powinno się wiedzieć

ZAMIANA KOLEJNOŚCI ZMIENNYCH I ZNAK WSPÓŁCZYNNIKA KORELACJI — Fizycznym przejawem tego, że współczynnik korelacji nie wykrywa rodzaju związku między zmiennymi jest to, że współczynniki korelacji są niewrażliwe na kolejność wchodzenia zmiennych do analizy. Niezależnie od tego, w jakiej kolejności wyklikasz zmienne, to i tak dostaniesz tę samą wartość i nie jest to błąd programu, a własność tego narzędzia statystycznego.

Mówiąc językiem iksów i igreków, korelacja iksa z igrekiem jest taka sama, jak korelacja igreka z iksem. Wartość współczynnika korelacji Pozycji Narodzin (Birth Order) z Osiągnięciami Szkolnymi (School Average) jest taka sama jak wartość współczynnika korelacji Osiągnięć Szkolnych (School Average) z Pozycją narodzin (Birth Order). Nie zmienia się ani wartość współczynnika korelacji, ani nawet jego znak. Mimo zamiany kolejności zmiennych wchodzących do obliczeń, wartość i znak współczynnika korelacji nie zmienia się.

Oczywiście, z punktu wygody użytkownika wygodnie byłoby, aby znak współczynnika korelacji odwracał się, gdy w obliczeniach najpierw wskażemy nielogiczną kolejność zmiennych. Na przykład, gdybyśmy najpierw jako przyczynę wskazali osiągnięcia szkolne, a jako skutek kolejność urodzenia, to znak współczynnika korelacji powinien odwrócić się. W ten wygodny sposób narzędzie statystyczne pokazywałoby badaczowi, że coś jest nie tak. Niestety.

Od tego jest jeden wyjątek - niektóre współczynniki korelacji między zmiennymi jakościowymi (dokładniej to chodzi o te oparte na statystyce chi-kwadrat) potrafią pokazywać minus, ale nie ma nic wspólnego z typ relacji, a - z kolejnością kolumn w programie statystycznym.

ZEROWY WSPÓŁCZYNNIK KORELACJI NIE WYKLUCZA ZWIĄZKU — Niezależnie od tego, o jakim współczynniku korelacji mówimy, to istnieje pewna charakterystyczna wartość, której znaczenia może domyślić się prawie każdy, nawet ktoś, kto nie uczył się nigdy statystyki. I najprawdopodobniej odpowie poprawnie na pytanie, które brzmi: co oznacza zerowy współczynnik korelacji? Brak korelacji - zerowy współczynnik korelacji sygnalizuje, że nie ma zależności między zmiennymi. Sęk w tym, że jest to odpowiedź poprawna w połowie przypadków.

Wykres rozproszenia zmiennych, które ze sobą nie korelują, przedstawia się jako bezładna masa punktów. Gdybyśmy chcieli przeprowadzić linię prostą przez tę chmurę punktów, to byłaby ona równoległa względem osi OX.

Zerowy współczynnik korelacji może wskazywać na brak zależności, ale nie musi. W zrozumieniu dlaczego tak się dzieje, pomagają informacji z poprzedniej sekcji - tej, w której mówiliśmy o rodzajach matematycznych związków łączących zmienne.

Każde z narzędzi statystycznych uchwyca tylko część zależności w danych. Jeśli wybrany przez Ciebie współczynnik korelacji mierzy tylko związek liniowy, to jego zerowa wartość wskazuje na brak zależności liniowej - a nie: każdej innej.

Spójrz na poniższy rysunek - dwie zmienne są w pełni zależne względem siebie, ale współczynnik korelacji liniowej r-Pearsona, z naciskiem na “liniowej”, będzie wynosił zero. Co tu się stało? Jak widać, zależność między tymi zmiennymi zwyczajnie nie jest liniowa. Nie jest też monotoniczna, ponieważ najpierw rośnie, a potem maleje. Można co najwyżej powiedzieć, że jest liniowa na pewnych odcinkach, ale całościowy obraz przedstawia zależność krzywoliniową - dokładniej odwrócone U-kształtną.

Ten rysunek ma pomóc Ci w zapamiętaniu, że współczynnik korelacji równy zero jeszcze nie rozstrzyga o braku korelacji.


Podsumowanie

Zobaczmy jak wiele dowiedzieliśmy się o tym narzędziu, jakim jest współczynnik korelacji. Jest to:

  • pojedyncza liczba, która mierzy związek między dwoma zmiennymi
  • wartość współczynnika reprezentuje siłę korelacji, zaś w przypadku zmiennych o określonej skali pomiarowej znak współczynnika - jej kierunek (rosnący, malejący)
  • współczynnik korelacji równy zero nie wyklucza istnienia związku między zmiennymi KLIK
  • współczynnik korelacji mierzy jedynie związek między zmiennymi, ale nie określa tego, co powoduje ten związek KLIK

Współczynniki korelacji pozwalają ocenić siłę związku - ale jeszcze nie pozwalają na przewidywanie wartości. Z faktu, że współczynnik korelacji między r = - 0,578 jeszcze nie wynika, że gdy będziesz pierwszym dzieckiem rodziców, to powinieneś liczyć na średnią ocen równą 5,08, a gdy będziesz drugi, to: 3,78. Możliwość przewidywania wartości daje inna technika statystyczna - tzw. regresja liniowa.

8 komentarzy:

Anonimowy pisze...

Bardzo fajny artykuł, jednak nie znalazłam informacji których szukałam.

Lilianna Jarmakowska-Kostrzanowska pisze...

Cześć, dzięki za przeczytanie - a jakiej informacji szukałaś?
pozdrowienia
Lili JK

Anonimowy pisze...

Dzień dobry! We wpisie jest błąd/pomyłka: "Jeśli p-wartość wyniesie więcej niż 0.05, to współczynnik korelacji jest istotny statystycznie."
Z pozdrowieniami, K.

Lilianna Jarmakowska-Kostrzanowska pisze...

Faktycznie, dzięki, już poprawiłam. Pomyłka, ale prowadzi do błędu, czyli pomyłkobłąd :-)
pozdrowienia
Lili JK

Hafciarka pisze...

Nie studiuję statystyki psychologii, jednak musiałam ją wykorzystać w pracy mgr. Weż teraz pisz o czymś, o czym nie masz pojęcia. Dzięki Tobie trochę mi się w głowie rozświetliło!!! Dzięki serdeczne za artykuł i za....Internet :)
Pozdrawiam
AP

Lilianna Jarmakowska-Kostrzanowska pisze...

Droga Hafciarko! Bardzo dziękuję za komentarz i cieszę się, że mogłam pomóc :-) Z Internetem - racja, ja też jestem zadowolna, że istnieje :-)
pozdrowienia
Lili JK

wetalk pisze...

Bardzo pomocny wpis, dzięki któremu mogę zrozumieć temat.

Anonimowy pisze...

Swietny ten Pani blig.