Współczynnik korelacji liniowej r-Pearsona

CZERWIEC 2025| LJK | ~5 549 słów |~ 37 996 znaków

Współczynnik korelacji liniowej r-Pearsona to opracowany przez Karla Pearsona wskaźnik powiązania między dwoma zmiennymi ilościowymi. Mierzy on pewien aspekt tego powiązania - tzw. związek liniowy, który charakteryzuje się stałymi zmianami w wartościach jednej zmiennej towarzyszących zmianom drugiej zmiennej. Współczynnik r-Pearsona przyjmuje wartości od -1 do 1, a znak i wartość liczbowa pokazują charakter zależności (czy wzrostowi jednej zmiennej odpowiada wzrost drugiej zmiennej, czy jest na odwrót) oraz jej siłę. Odpowiedź na pytanie, jaka korelacja jest mała czy duża zależy nie od samej wartości współczynnika, ale od natury samych zmiennych, stąd w psychologii dysponujemy tzw. progami wielkości efektu.


SPIS TREŚCI:


Wprowadzenie - symbole, nazewnictwo, próba i populacja

1️⃣ Współczynnik korelacji liniowej r-Pearsona to (pojedyncza) liczba mówi o relacji między dwoma zmiennymi. Cały poniższy tekst traktuje o jej własnościach, zachowaniu i o tym, jak powstaje a my zaczniemy od podstawowych pojęć.

Mamy kilka sposobów symbolicznego zapisu tej miary. Można pisać samo r albo r-Pearsona albo rPearsona albo - jeśli zmienne oznaczymy literkami X i Y - używać skrótu cor od correlation i zapisywać korelację jako cor(X,Y) albo r(X,Y) albo wykorzystując indeksy dolne: corX,Y lub rX,Y (już bez nawiasów gładkich). Możliwości jest kilka i wszystko zależy od autora. W ten poście będę stosować małą literę r dla oznaczenia współczynnika korelacji poza jednym momentem, w których łatwiej będzie mi przedstawić sprawę za pomocą symboli.

r i R | Należy pamiętać, że w statystyce istnieją dwa poziomy organizacji jednostek - próba oraz populacja, dlatego wiele miar ma oddzielny zapis dla każdego z tych poziomów. W przypadku współczynnika korelacji mała literę r (tzw. minuskułę litery czytanej jako /er/) stosuje się, gdy autor ma na myśli wartość korelacji w próbie, np. r = 0,32 w próbie N = 100 osób. Gdy chodzi o korelację obliczoną dla populacji, wówczas stosujemy dużą literę R (tzw. majuskułę), np. w populacji R = 0,32.

NAZEWNICTWO ZMIENNYCH | W statystyce często technika statystyczna ma swoje własne nazewnictwo na zmienne biorące udział w obliczeniach. W przypadku analizy korelacji mówimy o zmiennej niezależnej i o zmiennej zależnej. Tym razem jest to słownictwo pożyczone z metodologii.

Ponieważ współczynnik korelacji r-Pearsona nie rozróżnia między zmienną zależną i niezależną, więc wskazanie, która z dwóch zmiennych będzie traktowana jako zmienna zależna i jako zmienna niezależna, jest zadaniem należącym do badacza. Jak to rozróżnić? Często to wynika z konstrukcji samego badania. Chcemy dowiedzieć się, czy wartość jednej zmiennej zależą od tego, jakie jest wartość drugiej zmiennej i dlaczego.

W przypadku współczynnika korelacji r-Pearsona program statystyczny SPSS nazywa obie zmienne po prostu jedynie zmiennymi.

🗠 Jak wiadomo, obraz wart tysiąca słów. Przydatnym narzędziem graficznym do ilustracji zagadnień związanych ze współczynnikiem korelacji liniowej r-Pearsona jest wykres rozproszenia. Omówimy teraz jego najważniejsze elementy.


Wykres rozproszenia zmiennych

Wiążący dwie zmienne wykres rozproszenia (zwany wykresem rozrzutu, punktowym, ang. scatterplot) to wykres, który ma dwie osie przecinające się pod kątem prostym, zwane układem kartezjańskim. Na obu osiach liczbowych - poziomej OX i pionowej OY - leżą możliwe wartości zmiennych, oczywiście w kolejności rosnącej.

Na wykresie znajdują się punkty reprezentujące obserwacje w zebranym zbiorze danych. Trzeba tu pamiętać, że obserwacja jest tu rozumiana w inny sposób niż gdy mówimy o mierze dla pojedynczej zmiennej, np, średniej, skośności czy kurtozie. Teraz obserwacja posiada dwie wartości pobrane od jednej osoby (czy ogólnie: jednostki badanej) - np. Wzrostu i Wagi; Samooceny i Atrakcyjności fizycznej, dochodu i ugodowości, itd. Tylko wtedy, gdy dysponujemy wartościami z dwóch cech, to taki dwuwartościowy układ tworzy obserwację przedstawioną w postaci punktu na wykresie.

Wykres rozproszenia tworzy nie jeden punkt, ani też żaden punkt z osobna. Wykres ujmuje się całościowo, patrząc na cały zbiór, zwany chmurą punktów (równie dobrze można powiedzieć "chmara punktów" 😆). Sposób ułożenia tej chmury - to, czy punkty są ułożone ściśle wzdłuż jednej linii, czy może w sposób rozproszony, rosnąco lub opadająco albo układając się w wężowy wzorzec - zdradza wiele informacji o związku między zmiennymi, o sile korelacji, o jej kierunku. Porozmawiamy o tym niżej, gdy będziemy omawiać relację między znakiem współczynnika korelacji a kierunkiem zależności.

Teraz zajmiemy się pewną cechą naszych zdolności poznawczych. Otóż, osobniki z gatunku homo sapiens mają duży problem z prawidłowym odgadnięciem wartości współczynnika korelacji bez odpowiedniego treningu.

🗠 Na zajęciach pokazuję rysunek pt. Galeria korelacji - zestaw wykresów. Zadaniem słuchaczy jest wskazać, ile wynosi wartość współczynnika korelacji, którą reprezentuje stopień rozproszenia punktów. Rezultaty ćwiczenia są takie, że o ile punkty nie są ułożone na prostej, rzadko kiedy bywa jednomyślność. Wykres przedstawiający korelację r = .3 jest uznawany za wykres przedstawiający korelację r = .2 lub r = .4 albo r = .1. Zobacz sam na poniższym rysunku:

Zwiększanie próby wcale nie pomoże. Paradoksalnie, zwiększenie liczby osób badanych jedynie jeszcze bardziej zaciemni obraz, ponieważ wykresy rozproszenia dla małych współczynników korelacji np. r = .1 albo r = .3 wyglądają identycznie - wielkie kleksy czarnych kropek na białej kartce.

Bez odpowiedniego treningu, naprawdę trudno jest utrafić w wartość współczynnika korelacji, a dodatkowo zauważmy, że interesowaliśmy się tylko współczynnikami z dokładnością do części dziesiętnych. Konia z rzędem temu, kto potrafi rozróżnić wykres rozproszenia między r = .12 i r = .13 albo r = .121 i r = .122.

Oprócz funkcji ilustrowania charakterystyk współczynnika korelacji łączącego dwie zmienne, wykres rozproszenia przydaje się, gdy chcemy sprawdzić jedno z najważniejszych cech łączących dwie zmienne i tym samym zasadność zastosowania współczynnika korelacji r-Pearsona. Mowa o ocenie liniowości związku między zmiennymi, a przecież to właśnie ma badać ten współczynnik. Więcej na ten temat pojawi się w akapicie pt. diagnoza liniowości KLIK.


Współczynnik korelacji to liczba z przedziału od -1 do +1

Zakres możliwych wartości współczynnika korelacji r-Pearsona jest ograniczony praktycznie do ułamków. Współczynnik korelacji to ułamek z przedziału od -1 do +1. Możesz spotkać wartości współczynników takie r = .007 albo r = - .998 albo r = .999, lub nawet r = 1 lub r = -1, ale nie spotkasz r = 5 albo r = - 1.01. A przynajmniej nie będą to wartości dobrze policzone.

Dlaczego tak się dzieje? Ograniczenie zakresu wynika z konstrukcji współczynnika. Konstrukcja, o której szerzej opowiadam niżej KLIK, składa się z dwóch składowych części: z licznika i mianownika. Pomijając to, co dzieje się w liczniku, wewnątrz mianownika znajduje się operacja mnożenia. Jeśli jedną zmienną oznaczymy symbolem X, a drugą zmienną symbolem Y, to mianownik współczynnika korelacji jest efektem pomnożenia odchylenia standardowego zmiennej sX przez odchylenie standardowe drugiej zmiennej sY. Dzięki pewnym matematycznym badaniom wiadomo, że licznik - niezależnie od tego, co w nim jest - nigdy nie będzie większy od mianownika, będąc co najwyżej równym. To powoduje, że najwyższa wartość współczynnika korelacji r-Pearsona wynosi 1, a najniższa -1.

To dzielenie przez odchylenie standardowe powoduje, że mogłaś spotkać się też z bardziej poważnie brzmiącym określeniem współczynnika korelacji r-Pearsona. Mówi się o nim, że jest unormowaną miarą związku - unormowaną, czyli będącą stosunkiem, który zarazem ogranicza zakres wartości. Inną znaną unormowaną miarą, choć pewnie tak jej nie nazywasz, jest prawdopodobieństwo, które również ma ograniczony zakres (tym razem do dodatnich ułamków).


Magnituda i znak współczynnika korelacji

Porozmawiajmy teraz o samej wartości współczynnik korelacji, jaką można zobaczyć w analizach. Czy np. r = .32 albo r = - .72 to dużo czy mało? Widzimy, że współczynniki różnią się nie tylko samą wartością, ale i znakiem. W tej części zwrócimy uwagę na obie własności: i na wartość, i na znak (plus albo minus).

MAGNITUDA | Który ze współczynników r = .032 albo r = - .72 jest wyższy? Która z nich pokazuje silniejszą korelację?

Porządek w liczbach rzeczywistych, jakiego nauczyliśmy się w podstawówce, przewiduje, że liczba ujemna jest zawsze mniejsza dodatniej, np. - 5 < 0. To logiczne, weźmy dla przykładu ilość posiadanych pieniędzy: im mniej pieniędzy, tym mniej pieniędzy, aż popadamy w debet. Dlatego, gdybyśmy nie rozmawiali o współczynniku korelacji r-Pearsona, -.72 jest wartością niższą niż .032.

Tyle, że teraz rozmawiamy o czymś innym niż pieniądze. Ze współczynnikami korelacji jest inaczej niż debetem na koncie, ponieważ nie mówią one o zobowiązaniu wobec kogoś a o zależności między dwoma zmiennymi. Ten stopień zależności między zmiennymi wyraża sama wartość liczbowa, a nie jej znak. Innymi słowy, nie to, po której stronie na osi liczbowej współczynnik korelacji r-Pearsona znajduje się względem zera. Z tego powodu ujemna wartość r = -0.72 jest co do siły korelacji dużo wyższa niż r = +0.032, mimo tego znaku minus. Można powiedzieć, że wartość bezwzględna (inaczej: moduł) odpowiada za siłę korelacji.

🗠 A jak to wygląda na wykresie? Siłę zależności między zmiennymi odzwierciedla stopień skoncentrowania lub rozproszenia punktów reprezentujących wartości tych zmiennych. Im bardziej skoncentrowana chmura punktów, tym silniejsza zależność - aż koncentracja osiągnie maksimum i wówczas wszystkie punkty ułożą się wzdłuż prostej. Im mniej - tym słabsza aż charakter zależności przestanie być widoczny i chmura punktów będzie po prostu masą bezładnych punktów.

Skoro chodzi o stopień rozproszenia punktów, to im samym jest wszystko jedno, czy będą startować, czy lądować. To z tego powodu siła zależności jest niezależna od znaku, a tym samym - od kierunku zależności. Dwie pary zmiennych, które łączy związek opisany współczynnikiem korelacji kolejno r = .72 oraz r = - .72, mają bardzo podobny wykres. Nie chodzi o to, że punkty są położone identycznie. Nie chodzi o idealne "kopiuj, wklej", ale o dalszą perspektywę, w której stopień rozproszenia jest podobny.

Skąd wiadomo, że korelacja jest mała lub duża? O tym porozmawiamy w części o progach wielkości efektu, np. Cohena albo Guilforda.

🔘 Kiedy poznasz zagadnienia związane z regresją liniową prostą, dowiesz się, że współczynnik korelacji określa to, jak bardzo skupione są wokół prostej regresji, niezależnie od tego jak jest nachylona względem osi OX, zaś współczynnik regresji pokazuje kierunek tej prostej tak jak współczynnik kierunkowy a wskazywał kierunek funkcji liniowej np. y = 2 · x + 1.

ZNAK KORELACJI | Skupmy się teraz na znaku korelacji - dodatnim lub ujemnym. O czym mówi plus lub minus stojący przed wartością liczbową współczynnika korelacji np. r = + .032 albo r = - .72

Gdy już dowiemy się, jak silna jest zależność między zmiennymi, potrzebujemy wiedzieć, co dzieje się z tą zależnością. Kierunek zależności to informacja o tym, czy wzrostowi jednej zmiennej towarzyszy wzrost drugiej lub spadek. To o nim mówi znak korelacji.

🟠 DODATNI r | Jeśli korelacja jest dodatnia, wówczas wzrostowi wartości jednej zmiennej odpowiada - czy towarzyszy - wzrost wartości drugiej zmiennej. Innymi słowy, wyższym wartościom jednej zmiennej odpowiadają wyższe wartości drugiej zmiennej, zaś niższym wartościom - niższe. W psychologii znana jest hipoteza Dollarda-Millera, mówiąca o tym, że im więcej frustracji, tym więcej agresji. Takie zależności ilustrują wykresy rozproszenia, gdzie punkty są ułożone w taki sposób, że czytający od lewej do prawej Europejczyk widzi unoszącą się ku górze chmurę punktów.

🔵 UJEMNY r | Jeśli korelacja jest ujemna, wówczas wzrostowi wartości jednej zmiennej odpowiada spadek wartości drugiej zmiennej. Można to samo powiedzieć inaczej - wyższym wartościom jednej zmiennej odpowiadają niższe wartości drugiej zmiennej. Powszechnie uważa się, że im większa ugodowość, tym niższy dochów. Czyli jeśli jesteś osobą, która lubi żyć w zgodzie, to rzadziej rozpychasz się łokciami przez co nie piastujesz kierowniczych stanowisk. Ilustrujące taką ujemną zależność punkty na wykresie rozproszenia są ułożone w taki sposób, że czytający od lewej do prawej Europejczyk widzi chmurę punktów, która opada w dół.

⚪ 🔘 Współczynnik korelacji r-Pearsona osiągający skrajną wartość zakresu możliwych wartości, równy r = - 1 lub r = 1, nazywa się pełną lub perfekcyjną korelacją (ang. perfect correlation). Przyjrzymy się co to dokładnie znaczy.


Perfekcyjna korelacja r = ± 1

🗠 Technicznie, tj. na wykresie rozproszenia, skrajna wartość współczynnika korelacji r = ± 1 oznacza, że wszystkie punkty układają się wzdłuż prostej skierowanej do góry (gdy plus) lub skierowanej w dół (gdy minus). To jednak tylko techniczna sprawa, która nie oddaje tego, co naprawdę dzieje się. Właśnie przez tę skrajną wartość można dobrze opowiedzieć, o czym tak naprawdę współczynnik korelacji r-Pearsona mówi - i dlaczego słyszymy o nim dopiero na statystyce, a nie na matematyce w szkole średniej.

Zacznijmy wykresu ilustrującego r = 1 i zadajmy niby proste pytanie - co spowodowało, że wszystkie punkty są położone wzdłuż prostej? Brak jakiego elementu tak charakterystycznego dla otaczającego nas świata?

W szkole średniej na fizyce uczymy się o związkach między zjawiskami. Dowiadujemy się, że siła to masa razy przyspieszenie F = m · a, że prędkość to droga przez czas V = s/t. Na lekcjach żadna z tych formuł nigdy nie uwzględnia błędu pomiarowego, dzieła przypadku, roztargnienia badacza, przejazdu tramwaju, który wywołuje niepotrzebne drgania, itp. Właśnie brak tych nieczystości powoduje, że na matematyce i na fizyce rysujemy linie, proste, parabole, hiperbole, które zawierają wszystkie punkty wykresu. Świat dookoła taki nie jest.

W otaczającym nas świecie przypadek rządzi się na całego. To on powoduje, że punkty na wykresie rozproszenia są - jak sama nazwa wskazuje - rozproszone. To dzięki niemu obserwujemy zmienność i to on powoduje, że współczynnik korelacji r-Pearsona rzadko kiedy bywa perfekcyjną korelacją. Jeśli wartość liczbowa współczynnika korelacji r-Pearsona mówi o stopniu skupieniu punktów na wykresie rozproszenia, to o dopełnieniu tej wartości r do jedynki, czyli 1 - r, można myśleć, jak o udziale przypadku, a przynajmniej innych powodów niż związek między dwoma zmiennymi.

Im większy udział przypadku, tym mniejsza wartość współczynnika korelacji, aż do chwili, w której wartość współczynnika korelacji r-Pearsona wynosi zero i wówczas, o ile nie ma związku innego niż liniowy (zob. korelacja równa zero nie oznacza braku korelacji), to działa tylko i wyłącznie przypadek.


cor(X,Y) = cor(Y,X) - przemienność korelacji

Współczynnik korelacji r-Pearsona jest niewrażliwy na kolejność wprowadzania zmiennych do jego obliczeń, a to powoduje, że - jeśli jedną zmienną oznaczymy X, a drugą Y - to korelacja X i Y jest taka sama, jak korelacja między Y i X, corX,Y = corY,X.

Jeśli współczynnik korelacji między wzrostem a wagą wynosi r = .33, to tyle samo wynosi współczynnik korelacji między wagą a wzrostem - również r = .33. Ta sama wartość liczbowa, ten sam znak (plus w obu przypadkach). Dla ułatwienia pokolorowano nazwy zmiennych. W pierwszej części zdania najpierw jest pomarańczowy, a potem niebieski, zaś w drugiej jest na odwrót.

Dlaczego współczynnik korelacji r jest przemienny?| Wynika to z jego konstrukcji. Powiedzieliśmy, że konstrukcja współczynnika korelacji zawiera licznik i mianownik. Wcześniej omówiliśmy mianownik, a to, co sprawia, dlaczego współczynnik korelacji jest niewrażliwy na kolejność znajduje się w liczniku. W liczniku istnieje mnożenie między rzeczami, które niedługo nazwiemy odchyleniami od średniej, na razie zostawimy szczegóły, ponieważ interesuje nas tylko fakt mnożenia. O mnożeniu należy wiedzieć tyle - jest przemienne. To znaczy, że wynik mnożenia jest jednakowy niezależnie od kolejności, np. 2 · 5 = 5 · 2 Między dwa razy po pięć jabłek to to samo, co pięć razy po dwa jabłka.

Cztery razy po dwa razy to, jakby nie patrzeć, to samo, co dwa razy po cztery razy 😉

Skoro mnożenie jest przemienne a my zajmujemy się jedną i drugą zmienną na raz, to znaczy, że informacja o tym, która z nich jest potencjalną przyczyną, a która pełni rolę skutku jest podczas obliczania współczynnika korelacji bezpowrotnie utracona.

Niewrażliwość na kolejność sprawia, że współczynnik korelacji koncentruje się tylko na sile i na kierunku zależności, nie na rolach tych zmiennych w wyjaśnianiu zjawiska. Kiedy zastanawiamy się na jakimś zagadnieniem, myślimy w kategoriach mechanizmów - przyczyn i skutków i interesuje nas (a przynajmniej powinno), co w tym mechanizmie jest przyczyną a co - skutkiem. Wygodnie byłoby, gdyby znak korelacji informował o tym, że trafnie zidentyfikowaliśmy przyczynę albo i skutek. Dodatnia korelacja oznaczałaby poprawny kierunek związku przyczynowo - skutkowego, a źle wprowadzona kolejność przyczynowo-skutkowa powodowałaby, że współczynnik korelacji jest ujemny, albo wynosi zero.

🚬Wiemy, że palenie papierosów powoduje raka płuc. Dlaczego? Bo dym papierosowy zawiera karcynogeny, czyli substancje, które uszkadzają DNA pęcherzyków płucnych. Wiemy też, że rak płuc nie powoduje palenia. Nie jest tak, że osoby chore na raka czują nieodparty przymus sięgnięcia po papierosa. Fajnie byłoby, gdyby cor(palenie, rak płuc) = .90, ale cor(rak płuc, palenie) = 0. W idealnym świecie, wprowadzenie niepoprawnej kolejności zmiennych w ciągu przyczynowo-skutkowym powoduje, że korelacja jest zerowa. Niestety, wspołczynnik korelacji tak nie działa i niezależnie od kolejności, korelacja między paleniem a rakiem płuc jest taka sama cor(palenie, rak płuc) = cor(rak płuc, palenie).🫁

CORRELATION IS NOT CAUSATION | Zła wiadomość jest taka, że ponieważ z punktu widzenia współczynnika korelacji r-Pearsona, kolejność w ciągu przyczynowo-skutkowym nie ma znaczenia i wartość współczynnika korelacji jest taka sama, to odpowiedzialność za znajomość (nie)możliwości tego narzędzia statystycznego jest złożona na barki badacza.


Warunki stosowania współczynnika korelacji r-Pearsona

Współczynnik korelacji liniowej r-Pearsona jest narzędziem statystycznym, które uchwyca tylko pewien aspekt związku między zmiennymi. Aby skorzystać ze współczynnika korelacji liniowej r-Pearsona i mieć wiarygodne rezultaty, zmienne muszą spełniać pewne warunki.

➡️ OBECNOŚĆ DOKŁADNIE DWÓCH ZMIENNYCH | Obliczenie współczynnika korelacji r-Pearsona wymaga podania wartości pochodzących z dwóch kolumn w bazie danych - nie mniej, nie więcej. Ten punkt jest najprostszy - żaden program nie policzy współczynnika korelacji dla więcej niż dwóch zmiennych.

KORELACJA ZMIENNEJ SAMEJ ZE SOBĄ | A co z korelacją zmiennej samej ze sobą? Programy statystyczne typu GUI zwykle nie pozwolą wprowadzić w okienko analizy korelacji tylko jednej zmiennej, ale gdyby się udało wprowadzić np. kopiując wartości zmiennej Wzrost_1 do nowej kolumny i nazywają np. Wzrost_2, wówczas okazałoby się, że korelacja zmiennej samej ze sobą jest perfekcyjna i wynosi r = 1. To takie statystyczne masło maślane - wraz ze wzrostem wartości zmiennej, rosną jej wartości.

➡️ ILOŚCIOWA SKALA ZMIENNYCH | Obie zmienne w bazie muszą mieć ilościowy charakter. W typologii skal Stevensa KLIK są to zmienne mierzone na skali przedziałowej (jak Rok albo Temperatura w stopniach Celsjusza) lub ilorazowej (jak wiek lub wzrost). Po co na takie zmienne? Wynika to z konstrukcji samego współczynnika korelacji - tego, co on robi z wartościami badanych zmiennych i dlatego potrzebujemy zmiennych o takim typie pomiaru, których wartości można najmniej można dodawać i odejmować oraz policzyć średnią arytmetyczną.

Dlaczego? Dlatego, że w przepisie, który stanowi wzór na współczynnik r-Pearsona, mamy obliczanie średniej arytmetycznej oraz odejmowanie każdej wartości od średniej.

Zmienne np. Płeć, które często mają kategorie przypisane liczby np. kobieta = 0 i mężczyzna = 1, takiego warunku nie spełniają. Nawet jeśli program statystyczny policzy wartość współczynnika korelacji, to wynik nie będzie dawał rzetelnej informacji.

➡️ LINIOWOŚĆ ZWIĄZKU| Współczynnik korelacji r-Pearsona ma w swojej nazwie “liniowy”. Co znaczy to określenie? Odnosi się ono do charakteru relacji między wartościami zmiennych - tego, jak wartości jednej z nich reagują na zmianę (przyrost, albo spadek) wartości drugiej zmiennej.

Związek liniowy (ang. linear relationship), czy też liniowość (ang. linearity) to charakterystyczna cecha łącząca zmienne. Jest to sposób w jaki myśli nasz mózg a myśli on liniowo. Zobacz - wstaw w wolne miejsce następną liczbę w ciągu 2, 4, _ . Pomyślałeś odruchowo o ... szóstce? Świetnie, to znaczy, że jesteś Ziemianinem. W kolejnym kroku człowiek szybciej pomyśli o przyroście równym dwa zamiast o potędze dwójki. 8 byłoby równie dobrą odpowiedzią. Podobnie 16 - gdyby chodziło o potęgę poprzedniej liczby. Badania pokazują, że myślimy w kategoriach równych przyrostów i potrzeba szkolnego treningu, aby ten tok myślenia zmienić.

Jeśli użyjesz dwa razy więcej mąki, to otrzymasz dwa razy więcej ciasta. Jeśli taksówką przejedziesz dwa razy więcej kilometrów, to zapłacisz dwa razy więcej pieniędzy.

O związkach liniowych uczyliśmy się w szkole średniej, tylko tak tego nie nazywaliśmy. To były funkcje postaci y = a · x + b, gdzie a jest współczynnikiem kierunkowym, b wyrazem wolnym. Przykładem funkcji liniowej jest y = x albo y = x + 1 lub y = -2 · x - 3

🔘 OBWIEDNIA WOKÓŁ WYKRESU | Jak zdiagnozować liniowość związku między zmiennymi? Liniowość związku, to równe tempo przyrostu, można badać zarówno metodami liczbowymi (tj. obliczać jakąś miarę liniowości czy przeprowadzać test liniowości) lub wizualnie, czyli po prostu obejrzeć wykres rozproszenia i zachowanie obserwacji. Zasada jest taka: związek jest liniowy dopóki punkty na wykresie układają się wzdłuż jakiejś prostej, niekoniecznie równo na prostej. Ważne, aby istniała linia przebijająca chmurę punktów, która oddawałaby mniej więcej kształt tejże chmury punktów.

Aby ułatwić sobie zadanie, można w myślach lub palcem na monitorze obrysować chmurę punkty tzw. obwiednią. Po kształcie tej chmury punktów można poznać, z czym mamy do czynienia. Można powiedzieć, że jest to jakaś wersja projekcyjnego testu Rorschacha.

🗠 Jeśli obwiednia będzie miała kształt ziemniaka, to możesz uznać, że związek między zmiennymi jest liniowy. Ziemniak może ziemniakiem startującym lub lądującym. Może być bardzo cienkim ziemniakiem, gdy punkty są bardzo skoncentrowane wzdłuż prostej. Może być dużym ziemniakiem o niezbyt skoncentrowanej chmurze punktów.

Ba! Ten związek jest liniowy nawet wówczas, gdy chmura punktów jest kleksem i nie widać którędy linia miałaby przebiegać. Wówczas współczynnik korelacji jest bardzo niski -  w sensie wartości bezwzględnej, może nawet wynosić zero i to jest taki rodzaj rozproszenia punktów, które widać również w omówionej wcześniej w tym poście Galerii Korelacji KLIK.

Kwestia liniowości związku zdecydowanie gorzej wygląda, gdy punkty ani nie są kleksem bezładnie rozrzuconych obserwacji, ani nie układają się wzdłuż prostej a tworzą jakiś wzorek. Wzorków może być nieskończona liczba, z której to dla ilustracji zjawiska nie-liniowości wybrano tylko jeden. To ten ostatni rysunek przypominający kształtem banana albo bumerang, na który w metodologii i statystyce mówimy "odwrócone U". Jest to związek krzywoliniowy, a ściślej rzecz ujmując - kwadratowy. Tak kwadratowy, jak parabola w liceum postaci y = x · 2.


Kowariancja i korelacja - konstrukcja współczynnika korelacji r-Pearsona

Jak pojawił się pomysł, aby współczynnik korelacji r-Pearsona wyglądał tak, a nie inaczej?

Obliczanie współczynnika korelacji liniowej r-Pearsona wymaga tylko kilku podstawowych czynności arytmetycznych - nie ma tu żadnego całkowania, ani liczenia różniczek. Nie ma logarytmowania. Formuła współczynnika składa się z działań, które poznaje się do końca podstawówki: dodawania, odejmowania, dzielenia i podnoszenia do kwadratu oraz pierwiastków. Tak naprawdę jednak najważniejsze będzie obliczanie średniej arytmetycznej oraz odchylenia standardowego. Prostota is king.

JAK MIERZYĆ WSPÓŁZMIENNOŚĆ?| Cofnijmy się o krok i spytajmy - jak mierzy się zmienność jednej zmiennej? Klasycznym rozwiązaniem jest patrzeć, jak obserwacje odchylają się od średniej arytmetycznej, czyli obliczyć różnice między każdą obserwacją. Jeśli odchylają się mało, to znaczy, że jest mała zmienność. Jeśli odchylają dużo - to duża zmienność. Jeśli wcale - i każda wartość jest taka sama, to zmienności nie ma. Na odchyleniu obserwacji od średniej oparto miarę rozproszenia zwaną odchyleniem standardowym. Punktem wyjścia jest różnica między każdą wartością a średnią arytmetyczną. 

Jeśli już zrozumiemy ideę badania odchyleń od średniej jako ideę badania zmienności obserwacji, nie będzie dziwnym, jeśli idea badania współzmienności również będzie oparta na oglądaniu różnic od średnich. Ale - jak mogłoby to wyglądać? Czy mamy wrzucić wszystkich do jednego wora i wówczas liczyć różnice? Przecież to czasami jest badania różnych zmiennych, jabłka i gruszki.

Sposób pomiaru agresji jest różny od sposobu pomiaru frustracji. W pierwszym przypadku moglibyśmy operacjonalizować agresję poprzez wskaźniki fizjologiczne np. pomiar tętna albo opór elektryczny skóry. A co frustracją? Frustracji nie da się mierzyć bezpośrednio - jest tylko (i aż) konstrukt psychologiczny. Za to można natomiast wykorzystać miarę samoopisową, np. kwestionariusz. W ten sposób mamy dwie zmienne o różnych sposobach pomiaru, dlatego nie można wrzucać ich wyników do jednego worka. Trzeba znaleźć inny pomysł.

Rozwiązaniem jest badanie tego, czy odchyleniu obserwacji od średniej pod względem jednej cechy, np. agresji, towarzyszy odchylenie obserwacji od średniej pod względem drugiej cechy, frustracji. Na rysunku po lewej stronie masz dwie zmienne o ogólnych nazwach X1 i X2, dla których policzono średnie arytmetyczne (reprezentowane przez długie pionowe, szare i kropkowane kreski). Poziome kolorowe paski oznaczają odchylenia każdej obserwacji od średniej. Niebieski to ujemne odchylenie od średniej, pomarańczowe - dodatnie. Jeśli wolisz mówić w języku różnic, to niebieski pasek to ujemna różnica między wartością obserwacji a średnią, a pomarańczowy - dodatnia.

🗠 Współzmienność pojawia się nie wtedy, gdy wartości u jednej i u drugiej zmiennej odchylają się od średniej, tylko wówczas, gdy następuje synchronizacja tych odchyleń.Ta synchronizacja może przybrać dwie formy.

Rysunek 1 | Jeśli przyjrzysz się rysunkowi po prawej stronie, zobaczysz, że odchyleniom pomarańczowym jednej zmiennej odpowiadają pomarańczowe odchylenia drugiej zmiennej, a niebieskim - niebieskie. Paski nie muszą być równej długości, ważne, by kolor zgadzał się. Jeśli tak dzieje się, wówczas współczynnik korelacji r jest dodatni, ponieważ wyższym (tj. powyżej średniej) wartościom jednej zmiennej odpowiadają wyższe wartości drugiej, a niższym - niższe.

Rysunek 2 | Może też zdarzyć się tak, że synchronizacja odchyleń będzie przebiegała w przeciwną stronę. Pomarańczowym odpowiadają niebieskie. Wówczas współczynnik korelacji jest ujemny, ponieważ wyższym wartościom jednej zmiennej towarzyszą niższe wartości drugiej zmiennej.

A co, gdy nie ma synchronizacji między odchyleniami? Ten przypadek ilustruje właśnie początkowy rysunek. Gdy brak wzorca w zachowaniu obserwacji względem jednej i drugiej średniej, współczynnik korelacji r-Pearsona będzie bliski zero.

KOWARIANCJA | To jest właśnie idea badania współzmienności, która stanowi licznik współczynnika korelacji, a nazywana jest kowariancją (ang. covariance). Innymi słowy, w liczniku współczynnika korelacji znajduje się właśnie kowariancja. To jest najczystsza forma współzmienności między zmiennymi.

Trzeba pamiętać trzy rzeczy o kowariancji. Po pierwsze to miara współzmienności. Po drugie, przyjmuje dowolną wartość od minus nieskończoności do plus nieskończoności. Po trzecie - punkt drugi jest jej wadą. Sprawia, że jest bardzo wrażliwa na jednostki w jakie wyrażono zmienne. Jeśli wzrost wyrazisz w centymetrach i w metrach, otrzymasz różne kowariancje. Po czwarte - sposobem na poradzenie sobie, jest podzielić tę miary przez odchylenia standardowe, tj.unormować - o czym mówiliśmy wyżej, KLIK!

Dzięki temu uniezależniamy się od jednostek pomiaru, a kowariancja staje się współczynnikiem korelacji r-Pearsona. Szkopuł w tym, że miary, które są oparte na ilorazach, które nie mają jednostek, są trudne w interpretacji, bo co niby ma oznaczać r = .34? Wtedy z pomocą przychodzą tzw. progi wielkości efektu.


Które wartości korelacji są małe, a które duże? Progi korelacji

Które wartości korelacji są małe, a które duże? Bez złośliwości można odpowiedzieć: — To zależy od tego, kto pyta. Czy psycholog, socjolog, inżynier czy polityk?

Ponieważ współczynnik korelacji jest miarą bezjednostkową (nie wyrażamy korelacji w kilogramach, ani metrach, ani sekundach), trudno określić jego siłę bez żadnego punktu odniesienia. Problem w tym, że punkt widzenia zależy od punktu siedzenia. Tę samą wartość współczynnika korelacji, np. r = .34 badacze z jednej dziedziny nazwą małą, z drugiej - umiarkowaną, a jeszcze z innej - wysoką wartością. Wszystko zależy od tego, jakie są typowe związki w danej dziedzinie.

W psychologii istnieją systemy progów, dzięki którym łatwiej ocenić siłę korelacji i jeśli czytasz tego posta, to prawdopodobniej już miałeś kontakt z takim systemem progów, tylko nie wiedziałeś, że jest on stary, arbitralny i pochodzi od Guilforda jeszcze z lat '60 ubiegłego stulecia. To te miary najczęściej widzisz w podręcznikach i internetach.

Według tych progów korelacja równa r = .33 jest słaba, zaś ta równa r = -.11 - bardzo słaba. Wszystkie korelacje, których wartość bezwzględna sięga poniżej ,20 to korelacje słabe. Silna korelacja to taka, która jest powyzej r > .6. To bardzo duże wymagania zwłaszcza w naukach społecznych, gdzie często pomiar zmiennej jest po prostu wynikiem sumy odpowiedzi z pozycji typu Likerta (np. RSES). W psychologii rzadko kiedy obserwujemy silne i bardzo silne korelacje, więc zamiast progów Guilforda od początku lat '90 posługujemy się miarami Jacoba Cohena. W tym systemie, korelacja r = .11 nie jest słaba, ale po prostu mała. Co więcej, wokół zera jest przedział wartości, które uznajemy za zaniedbywalne. Z czego to się bierze? Otóż, bardzo często nawet, gdy współczynnik korelacji R w populacji jest zerowy i dwie zmienne nie są ze sobą powiązane, w próbie ta korelacja rzadko kiedy bywa niezerowa. 

SUBIEKTYWNOŚĆ PROGÓW WIELKOŚCI EFEKTU | Miary Guilforda i Cohena mają tę samą wadę: są miarami niejako z autorytetu, arbitralnie wskazanymi przez jedną osobą. I jak to bywa w takich przypadkach, nawet jeśli mamy do czynienia z osobami o wysokim autorytecie, są to po prostu subiektywne osądy. Ale osób, które znają się na rzeczy, ale tylko osądy, ale naprawdę znają się na rzeczy, ale... ale... - tak przerzucać się można w nieskończoność.

Lepszym pomysłem byłoby posługiwać się miarami, które są w jakimś stopniu zobiektywizowane i takim systemem progów jest np. Lovakova i Agadulliny (2021) KLIK, który powstał w wyniku metaanaliz. Niestety, te progi obowiązują jedynie w pewnym obszarze psychologii, zwanym psychologią społeczną. W tym systemie r = .39 byłaby już prawie dużą korelacją, w systemie Cohena - umiarkowaną, zaś w systemie Guilforda - jeszcze słabą.

Informacja o sile zależności między zmiennymi jest cenna. Podobnie jak możliwość wyobrażenia sobie chmury punktów, które są mniej lub bardziej skoncentrowane, a co przekłada się na tę siłę zależności. Jednak badacz chciałby wiedzieć jeszcze więcej. Co to w ogóle znaczy, że zależność między zmiennymi jest silna? Co to znaczy, że zależność wynosi r = .37? Badacz potrzebuje praktycznej informacji.

Korelację wygodnie interpretować w kategoriach wzajemnej informacyjności. Dwie zmienne są ze sobą skorelowane, jeśli znajomość wartości jednej zmiennej przekłada się na znajomość wartości drugiej zmiennej.

Jeśli wiem, że korelacja między dwoma zmiennymi np. Wzrostem i Wagą jest duża, to znaczy, że znając wzrost osoby badanej z dużym powodzeniem mogę przewidzieć jej wagę. Jeśli wiemy, że człowiek ma 170 cm wzrostu, spodziewamy się wagi około 60 do 80 kg. Waga równa 120 jest i dużą nadwagą, i jednocześnie rzadziej spotykana. Z dużym powodzeniem nie znaczy na 100%. Wzajemna informacyjność nie daje oczywiście stuprocentowej pewności, ale redukuje niepewność przewidywań.

Ale czy r = .37 oznacza, że niepewność przewidywań redukujemy dokładnie o 37%? Albo, że w 37 przypadkach na 100 trafnie przewidzimy wartość zmiennej? Niestety, wartość współczynnika korelacji nie dostarcza tak precyzyjnej odpowiedzi na pytania badacza. Jest po prostu liczbową miarą związku między dwoma zmiennymi, której precyzyjna interpretowalność pozostawia wiele do życzenia. Te .37 to tylko sposób pomiaru stopnia rozproszenia obserwacji. Raczej jesteśmy w stanie wyobrazić sobie r = 1 lub r = -1 Mamy 37% szans, że znamy dobrą wartość współczynnika korelacji w populacji W psychologii od przeszło stu lat bada się ludzkie zdolności umysłowe. Pierwszeństwo w miarach wiedzie tzw. iloraz inteligencji. Przyjmuje się, że IQ równe 100, IQ = 100, to przeciętny wynik osoby badanej w populacji. Ale co oznacza? Niestety, nie pozwala powiedzieć, jak szybko uczeń opanuje tabliczkę mnożenia, ani to, czy szybko rozwiąże jakiś problem. Iloraz inteligencji daje tylko pewien pogląd na to, co może dziać się z uczniem na tle innych którzy mają wyższy współczynnik i niższy. IQ jest bezjednostkową miarą, której szczegółowa interpretowalność nie jest precyzyjna. Dla tych, którzy jednak chcieliby dowiedzieć się czegoś więcej na podstawie współczynnika korelacji r-Pearsona, mam dobrą wiadomość o istnieniu narzędzia, które do pewnego stopnia rozwiązuje ten problem. Nazywa się współczynnikiem determinacji r2.


Współczynnik determinacji r2

Współczynnik determinacji r2 mówi o odsetku wyjaśnionej wariancji. Co to znaczy? Słowo wariancja jest tu użyte w znaczeniu zmienność. Zmienne biorące udział w obliczaniu współczynnik korelacji, np. wzrost i waga czy atrakcyjność fizyczna i samoocena, wykazują tzw. zmienność. Mówiąc jeszcze bardziej łopatologicznie: wartości tych zmiennych są po prostu różne. W statystyce zamiast słowa różność używa się słowa zmienność i tę zmienność próbuje się okiełznać, poznać, dowiedzieć się, co sprawia, że ma miejsce. Wprawdzie na pytanie o to, dlaczego jedna zmienna powoduje zmienność drugiej, za pomocą współczynnika determinacji nie odpowiemy (do tego są potrzebne badania eksperymentalne), ale możemy odpowiedzieć na pytanie, w jakim stopniu jedna zmienna może wyjaśnić zmienność drugiej. To na to pytanie odpowiada współczynnik determinacji r2.

Technicznie rzecz biorąc, współczynnik determinacji r2 jest to po prostu podniesiony do kwadratu współczynnik korelacji liniowej r-Pearsona, więc jest z jednej strony ograniczony możliwościami, jakie daje współczynnik r, z drugiej strony - zachowaniem potęg małych liczb. Myliłby się ktoś, sądząc, że kwadrat zwiększa wartość wyniku. W krainie małych liczb, zwanych ciałem ułamków, potęgowanie zachowuje się inaczej. Podniesienie do kwadratu wcale nie zwiększa liczby, a wręcz przeciwnie - zmniejsza ją. Poza trzema szczególnymi miejscami, współczynnik determinacji r2 jest zawsze niższy co do wartości bezwzględnej od współczynnika korelacji r-Pearsona.

A co dzieje się w przypadku, gdy r = -1 lub 0 lub +1? Wówczas liczbowa (bez znaku plus i minus) wartość współczynnika determinacji r2 jest równa współczynnikowi korelacji, |r2| = |r|. Gdy współczynnik korelacji r-Pearsona jest zerowy, to i współczynnik determinacji r2 też jest równy zeru. Jeśli współczynnik korelacji r wynosi - 1 lub +1, to współczynnik determinacji r2 wynosi 1. Ma to zdroworozsądkowe uzasadnienie - gdy zależność między zmiennymi nie występuje, wówczas zmienne nie wyjaśniają ani trochę zmienności. Korelacja między długością włosów na głowie a liczbą punktów na egzaminie (z pewnością) wynosi r = 0, wobec tego trudno wyjaśniać różnice między studenckimi ocenami tym, czy ktoś ma krótką fryzurę czy może przepiękny warkocz. Podobnie sprawy mają się z perfekcyjną korelacją. Korelacja między wysokością miesięcznych pensji a całorocznym dochodem (jedno jest dwanaście razy większe od drugiego, odejmując elementy zmienne takie jakie jak premia czy dodatek stażowy). W takim razie jedna zmienna wyjaśnia w pełni całą zmienność (zwłaszcza, gdy nie wzięliśmy pod uwagę tych zmiennych dodatków).

Współczynnik korelacji równy zero, r = 0

Gdy nie między zmiennymi nie ma korelacji, współczynnik korelacji będzie bliski zero. Ale, czy gdy współczynnik korelacji jest bliski zerowy lub równy zero można powiedzieć, że nie ma zależności? Niestety, w drugą stronę tak prosto to nie wygląda. Wszystko przez to, że współczynnik korelacji r-Pearsona jest współczynnikiem korelacji liniowej, który jak sama nazwa wskazuje liniowość związku między dwiema zmiennymi bada, a liniowość oznacza tzw. równość przyrostów KLIK Co dzieje się, gdy dwie zmienne łączy związek inny niż liniowy? Czy wówczas współczynnik korelacji zwariuje i nic nie pokaże? Najprostszy przykład to taki, który widać na rysunku po lewej stronie. Związek między zmiennymi jest wyraźny, szczerze mówiąc, jest bez żadnego udziału losowego przypadku. Jak to widać? W czym to widać? W tym, że możesz przeprowadzić prostą najpierw w górę, potem w dół, a wszystkie punkty znajdą się na tej łamanej. Gdy dwie zmienne łączy taki związek, współczynnik korelacji jest zerowy. Zwykle jednak dane mają charakter losowy, więc punkty nie są idealnie ułożone na prostej, ale i tak współczynnik  korelacji nie jest w stanie wykryć tego związku i pokazuje zaniżoną wartość.

Pamiętaj, jeśli nie ma żadnej zależności między dwoma zmiennymi, to wykres rozproszenia będzie wyglądał jak wielki kleks a współczynnik korelacji będzie bliski zero. Jeśli współczynnik korelacji liniowej r-Pearsona jest równy zero, to być może związek ma inną dynamikę niż liniowa, której ten współczynnik nie wykrywa.

🏁 PODSUMOWANIE | Kilka informacji o współczynniku korelacji liniowej r-Pearsona do zapamiętania:

➡️ Współczynnik korelacji to pojedyncza liczba, która przyjmuje wartości od -1 do +1. 
➡️ Każda z tych wartości sygnalizuje siłę oraz kierunek korelacji. 
➡️ Nazwa tego współczynnika - współczynnik korelacji liniowej - oznacza, że jest on w stanie uchwycić tylko pewien aspekt zależności w danych - tzw. liniowy związek.

Quiz - Współczynnik korelacji r-Pearsona

Jeśli masz ochotę sprawdzić swoją wiedzę ze współczynnika korelacji r-Pearsona, to rozwiąż mój quiz:

Brak komentarzy: