Współczynnik korelacji i jego odmiany

- Po co są współczynniki korelacji?
- Skąd mam wiedzieć, jaki współczynnik korelacji wybrać?
- Współczynnik korelacji liniowej r Pearsona.
- Co to jest związek liniowy?
- Jakie jest zakres wartości współczynnika korelacji r Pearsona?
- Interpretacja dodatniego i ujemnego współczynnika korelacji.
- Różnica między liniowymi związkami a monotonicznymi.
- Liniowe, monotoniczne i niemonotoniczne związki - przykłady.
- Współczynnik korelacji rho Spearmana: na czym polega ta nieparametryczność oraz co to jest rangowanie danych.
- Współczynnik tau-b Kendalla. Rangi wiązane – co z tym zrobić? Przykład.
- Testy istotności różnych współczynników.
- Trzy specjalne okazje: korelacje zerowe, związki nieliniowe i jedna zmienna stała.
- Jaka wartość współczynnika korelacji jest dobra?
- Czy można policzyć współczynnik korelacji r Pearsona dla zmiennej ilorazowej i nominalnej?
Nie może też zabraknąć:
- DIY: Zrób sobie analizę korelacji w SPSS-ie
Na koniec:
- macierz korelacji - podstawowa wersja.



Po co są współczynniki korelacji?
Po to, aby zbadać, jak bardzo dwie zmienne lubią się.
Dlaczego ważne jest to lubienie? Mięsem w statystyce jest zmienność (i stąd miary rozproszenia, np. wariancja) oraz współzmienność (to może nawet bardziej interesujące, bo dotyczy więcej niż jednej zmiennej). Uczymy się, aby mierzyć, ważyć, badać stopień współzależności między dwoma, trzema i więcej zmiennymi. Liczymy współczynniki korelacji, aby sprawdzić jak bardzo zmienne są ze sobą związane. Robimy modele, tak aby móc choć w jakiejś części capnąć zmienność.


Skąd mam wiedzieć, jaki współczynnik korelacji wybrać?
To zależy od kilku rzeczy.
Po pierwsze: od tego, co chcesz zobaczyć. Wiem, że akurat w poście wprowadzającym do współczynników korelacji to jest wyższa para kaloszy, ale chciałabym, abyś to pamiętała: Ty też masz wpływ na dobór narzędzi.
Po drugie: typ zmiennej (ciągły lub dyskretny) oraz skala pomiarowa w dużym stopniu determinują wybór odpowiedniego współczynnika.
Po trzecie: rozkład, z jakiego pochodzą dane. Dzięki temu można też testować istotność statystyczną współczynnika.
Po czwarte: część współczynników korelacji jest jednocześnie miernikiem wielkości tego związku. Czyli możesz dzięki niemu określić wielkość tej zależności (effect size).
Po piąte: co powiedział Tobie prowadzący (jeśli jeszcze studiujesz i masz zaliczenie). No, tak...

A teraz czas na niektóre, najpopularniejsze współczynniki korelacji.


Współczynnik korelacji liniowej r Pearsona.
Zaczniemy od idealnej sytuacji. Obie zmienne są mierzone na skali ilorazowej, są ciągłe i na dodatek związek między nimi jest liniowy. I tu pierwszy schodek - co to jest związek liniowy?


Związek liniowy.
Jeśli mamy związek liniowy pomiędzy dwoma zmiennymi, to znaczy linia prosta dobrze oddaje chmurę punktów, to liczymy współczynnik r Pearsona. Jak sama nazwa wskazuje: współczynnik korelacji liniowej r Pearsona, dlatego liniowość jest ważna.
Te dane są bardzo mocno skoncentrowane. Powinno to znaleźć odzwierciedlenie w wartości współczynnika korelacji.


A jakie wartości może przyjąć współczynnik korelacji r Pearsona?
Współczynnik korelacji r Pearsona może przyjmować wartości od -1 do 1. Czyli jest ograniczony do pewnego przedziału, ale może mieć wartości dodatnie oraz ujemne.
Skoro mamy końce przedziału, to pewnie one coś oznaczają. I tak jest istotnie. Im bliżej 1, tym ten związek między zmiennymi mocniejszy. Ale kiedy piszę tu związek, to nie mam na myśli związków przyczynowo-skutkowych. Szczerze mówiąc, myślę o tym raczej w kategoriach koncentracji punktów, ich bliskości w tej chmurze.

Interpretacja dodatniego i ujemnego współczynnika korelacji.
Jeśli współczynnik korelacji jest dodatni (po prawej stronie), to zachodzi takie zjawisko: mniejszym wartościom zmiennej X odpowiadają mniejsze wartości zmiennej Y oraz wyższym wartościom zmiennej X odpowiadają wyższe wartości zmiennej Y.
Jeśli współczynnik korelacji jest ujemny (po lewej stronie), to zachodzi takie zjawisko: mniejszym wartościom zmiennej X odpowiadają wyższe wartości zmiennej Y oraz niższym wartościom zmiennej X odpowiadają wyższe wartości zmiennej Y.

Chciałoby się powiedzieć, że zależność jest prostoliniowa, ale to słowo jest zarezerwowane gdzie indziej. Chciałoby się też powiedzieć, że jest wprost proporcjonalna zależność, ale to wyrażenie też jest zarezerwowane.
Jeśli współczynnik korelacji jest dodatni, to zachodzi takie zjawisko: mniejszym wartościom zmiennej X odpowiadają mniejsze wartości zmiennej Y oraz wyższym wartościom zmiennej X odpowiadają wyższe wartości zmiennej Y.
Obie sytuacje są prostoliniowe i wprost proporcjonalne. Może w mniejszym stopniu prostoliniowe, bo punkty nie leżą idealnie na prostej, ale wyjaśnię o co chodzi o wprost proporcjalne.
Tak, ja wiem, że te dwie sytuacje są niejako komplementarne, uzupełniające się, i słowa wprost oraz odwrotnie byłyby na miejscu. Ale obie te zależności są wprost proporcjonalne. To po prostu oznacza, że w pierwszym przypadku tempo rośnięcia jest dodatnie, a w drugim – ujemne.
Jeśli zaś wiemy, że te zmienne mają rozkład normalny, to jeszcze lepiej, bo możemy przeprowadzić test istotności takiego współczynnika (o tym będzie niżej, przy testach istotności statystycznej).


Różnica między liniowymi związkami a monotonicznymi.
W związkach liniowych wartości zmiennych przesuwają się w tym samym kierunku w tym samym tempie. To może być szybkie tempo, może być i wolne, ale jest ono stałe (bez czasowych przestojów lub przyspieszeń).
Monotoniczność to coś luźniejszego niż liniowość. W związkach nieliniowych, to tempo nie jest aż takie ważne. Ważne jest, aby było, może zmieniać się, ale jeśli porusza się do góry, to do góry, a jak do dołu, to do dołu. Mogą być przestoje, nawet długie, ale nie ma zawracania, jeśli ruch jest do przodu i nie ma nawet krótkiego wzlatywania, jeśli opada).
Co się pali, to się jednocześnie nie odradza, a co dojrzewa, zarazem nie młodnieje. Jak coś szybuje w górę, to nie opada, a co spada w dół, nie podnosi się. Ani. Na. Jedną. Chwilę. To istota monotoniczności.


A teraz garść przykładów - każdy z innej beczki.
Liniowe związki (tempo przyrostu jest stałe) - przykłady:
- składniki do ciasta a wielkość ciasta – jeśli weźmiesz dwa razy więcej składników, masz dwa razy więcej ciasta,
- droga a prędkość – jeśli jedziesz ze stałą prędkością, to długość pokonanej drogi rośnie w trybie stałym,
- napełnianie wanny – woda leje się w stałym tempie (przynajmniej u mnie, u Was nie? ;-)
Macie tak, że z kranu woda leje się, a w wannie nic nie przybywa albo woda napełnia się tak, jakby ktoś od czasu do czasu dolewał znienacka kubeł wody?
Monotoniczne związki (ale nie: czysto liniowe, tempo zmiany jest różne, ale wciąż albo opadające albo unoszące się) - przykłady:
- doświadczenie życiowe a wiek;
- w miarę upływu lat mamy coraz więcej doświadczeń, ale są okresy przestoju, natomiast nie da się zabrać nam doświadczeń... pewnych rzeczy odzobaczyć się po prostu nie da;
- inteligencja a czas – rośnie do pewnego momentu, a potem jest faza plateau.
Jak rośnie, to rośnie. Rośnie wolno jak ciasto, rośnie szybko jak dzieci, ale rośnie. Maleje jak cierpliwość, albo maleje powoli. Ważne, że w stałym tempie, ze stałym krokiem jest ten ruch. Wydaje mi się, że związki w psychologii bywają bardziej monotoniczne niż liniowe.
Niemonotoniczne związki - przykłady:
- efektywność ćwiczeń fizycznych a ilość wykonanych powtórzeń - po pewnym czasie ciało przyzwyczaja się do ćwiczeń i nie męczysz się już tak bardzo, ale też już nie chudniesz. Przy ćwiczeniach z Lewą czy z Chodą pojawia się w końcu takie plateau;
- waga człowieka a czas – czasem chudniemy, czasem tyjemy, czasem waga jest stała;
- temperatura człowieka w czasie - czasem mamy gorączkę, czasem nam zimno;
- pieniądze na koncie w czasie - wypłata, wydatek, wypłata, premia, większy dodatek... i tak w kółko;
- oddech człowieka w czasie – to jest piękna sinusoida, posłuchaj swojej: wdech/wydech, wdech/wydech;
- i wiele innych...
U-kształtne, W-kształtne, odwrócone U-kształtne, gwiazdki, trójkąty i inne pokraki.
Podsumowując, jeśli masz dane, które są: mierzone na skali interwałowej lub ilorazowej (a bosko byłoby, aby były ciągłe), a jeśli na dokładkę pochodzą z rozkładu normalnego, to uderzaj we współczynnik korelacji liniowej r Pearsona*. Jeśli jednak ta zależność jest nieco luźniejsza, monotoniczna, ale nie: dokładnie liniowa, to można byłoby rozważyć współczynnik korelacji rho Spearmana.
*Pewien problem pojawi się przy testowaniu takiego współczynnika. Liczenie współczynnika to jedno, a testowanie to drugie.


Współczynnik korelacji rho Spearmana.
Mówi się, że to współczynnik korelacji robiony na danych rangowanych i że jest nieparametrycznym odpowiednikiem współczynnika korelacji r Pearsona. Co to znaczy?
Najpierw dowiemy się, co to znaczy tutaj ta nieparametryczność współczynnika. A potem powiem, o co chodzi z tym rangowaniem danych.
Nieparametryczność.
Nieparametryczność oznacza tutaj, że nie zakładamy, z jakiego rozkładu pochodzą dane. Napisałam dużo wyżej, przy współczynniku r Pearsona, że najlepiej aby dane pochodziły z rozkładu normalnego. To jest założenie odnośnie postaci danych. Nie każde będą ją spełniać. I oto tu tak jest.

Rangowanie danych.
To oznacza przypisywanie numerów porządkowych wartościom zbadanej przez Ciebie zmiennej. Te numery porządkowe, inaczej niż numery w dzienniku, będziemy traktować jak liczby, czyli jakby były skalą co najmniej interwałową.


To jest takie szort intro do rangowania.
Wiem, że możecie spotkać się z innym sposobem rangowania w tutorialach dostępnych w Internecie. Wynik będzie ten sam (bo musi), ale według mnie to jest dużo cudowania z tym wyciąganiem danych z tabel albo z zastanej kolejności, szeregowaniem ich i jeszcze raz w ustawianiem w starej kolejności. Moja metoda jest prosta: zrób sobie drugą kolumnę obok tej oryginalnej, znajdź najniższą wartość, wpisz w tę stworzoną kolumnę numer 1. Potem znajdź drugą najniższą wartość, wpisz obok 2... i tak do najwyższej wartości, której wpiszesz de facto liczbę zbadanych osób (moc zbioru to się profesjonalnie nazywa). Ja się zawsze gubiłam, jak mi kazali rozbijać oryginalny szyk, porządkować, przypisywać kolejność, a potem wracać do starego uporządkowania.
Dla mnie to jest ściąganie butów i spodni, jeśli chcę się tylko podrapać po zadku, ale kto wie – może dla Ciebie to zadziała.
Możesz policzyć sobie współczynnik korelacji r Pearsona między punktami z testu z polskiego oraz punktami testu z matmy (czyli korelacja między X a Y). Jeśli jednak wiesz, że ta zależność niekoniecznie jest liniowa (wykres rozproszenia załączam niżej), albo wiesz, że dane pochodzą z rozkładów inny niż normalny, to zapraszam do policzenia korelacji rho Spearmana między X a Y (co jest wykonaniem współczynnika r Pearsona między rangami, między RX a RY).
Korelacja r Pearsona dla X oraz Y wynosi 0.733
Korelacja rho Spearmana dla X oraz Y wynosi 0.7
Tak, jak już pisałam można policzyć sobie korelację r Pearsona dla RX i RY i powinno wyjść to samo co w korelacji rho Spearmana dla X i Y: i tak jest, mi wychodzi 0.7
Dlaczego? Bo rho Spearmana = r Pearsona + RX i RY.
Spearman tak naprawdę przebiera obserwacje w koszulki z liczbami i na tych liczbach oblicza współczynnik korelacji r Pearsona. Przebieranie w koszulki z numerami jest nazywane rangowaniem. Dlatego trzeba uważać, co koduje wyjściowa zmienna (czym jest? Czy są to punkty w teście psychologicznym, czasy reakcji, czy poziomy jakiegoś czynnika). Jeśli to są poziomy wykształcenia, to po rękach dostaniesz, jak tkniesz je współczynnikiem rho Spearmana. Porządkowe mają swój własny świat korelacji.
Dobrze, a teraz wklep w Internet takie zapytanie: rho Spearman for ordinal data. Wyskoczy dużo wyników pokazujących, że można zastosować rho Spearmana do zmiennych porządkowych (skoro można wprowadzić porządek, to można rangować). Nie ma sensu kopać się z koniem, przynajmniej dla mnie, tutaj na blogu. Pokazuję Ci, że rho Spearmana robi to, co można robić z danymi interwałowymi i ilorazowymi (dzieli i mnoży), że omija zakaz dzielenia i mnożenia dla zmiennych porządkowych. Chyba najlepszym wyjściem w tym momencie jest być podejrzliwym, jeśli przykłada się rho Spearmana do zmiennych mierzonych na skali porządkowej.
Tak czy inaczej, to pokazuje, że statystyka to nie jest zbiór algorytmów i bywa, że zdania są podzielone. Tak, jak z ciastami. Każdy ma swój przepis po babci. Po prostu niektórym te ciasta wychodzą smaczniejsze. Ale wiem – to frustrujące i męczące.


Tau-b Kendalla (czyt. tau-be, jak gołąb po niemiecku).
Czasami problem jest z rangami. Akurat mój przykład z testami z polskiego i matmy był bardzo przyjemny, bo nikt nie dostał takiej samej liczby punktów, ale kiedy dwie osoby dostają ten sam wynik, to robi się supeł, tzw. wiązanie (tie). To mogą być też więcej niż dwie osoby. Na przykład są takie egzaminy, gdzie połowa roku oblewa i ma dwóje. Wtedy to jest jeden wielki kołtun (ale po statystycznemu nadal tylko wiązanie).

Rangi wiązane – co z tym zrobić? Przykład.
Pięć osób pisało test z fizyki. Wyniki punktacji to: 10, 15, 11, 7 i 10. Test był na 20 punktów (to nie ma teraz znaczenia, ale dodaję, aby złapać kontekst). Gdyby chcieć to po bożemu porangować, to byłby problem, bo dwie osoby mają ten sam wynik. Co się robi? Jest na to bardzo prosty sposób. Najpierw robisz po bożemu. Potem sumujesz te rangi, które odpowiadają związanym wynikom. Następnie dzielisz przez liczbę wspólników. Wszystkim przypisujesz tę uwspólnioną rangę.
Przeżyjmy to jeszcze raz – tym razem w tabeli:

Współczynnik korelacji rho Spearmana trochę gorzej sobie radzi, gdy mamy rangi wiązane (pogrubione komórki w tabeli). Jeśli jest ich niewiele, to pewnie nie ma to dużego problemu. Ale gdy jest ich już troszkę za dużo, to lepiej zrezygnować z rho, a zrobić gołębia Kendalla. (Chodzi mi o współczynnik korelacji tau-b Kendalla). Interpretacja jest taka sama. Czyli im bliżej do 1 lub -1, tym ściślejszy związek. Im bliżej zera, tym gorzej.

Testy istotności różnych współczynników.
Większość współczynników korelacji posiada opcję testowania istotności statystycznej. Ogarniemy to od początku, czyli od współczynnika korelacji liniowej r Pearsona. Skoro wymagamy, aby zmienne pochodziły z rozkładu normalnego, to czemu by nie skorzystać z tego i nie zatestować sobie coś? A dokładniej to zatestować hipotezę zerową o tym, że ten współczynnik korelacji r Pearsona w populacji jest równy zero. Piszę 'w populacji', bo przecież Ty teraz policzyłaś go na próbie. Ale chcemy móc uogólnić to na populację. Zakładamy o tej populacji, gdzie wyniki mają rozkład normalny (bardziej skrupulatnie: cechy ma rozkład normalny).
No, i o!
Hipoteza zerowa zawsze w takich testach to jest porównywanie do zera. Jeśli p-wartość wyniesie więcej niż 0.05, to współczynnik korelacji jest nieistotny statystycznie. Cholera wie, jak to prosto zinterpretować. Na pewno wiadomo, jak tego nie interpretować (Słoń różowy statystycznie).

Trzy specjalne okazje: korelacje zerowe, związki nieliniowe i jedna zmienna stała.
W tej części chciałabym pokazać trzy specjalne sytuacje.

1. Pierwsza z nich przedstawia klasykę, czyli współczynnik korelacji równy zero. Zmienne X i Y są niezależne, więc korelacja między nimi jest zerowa.

2. Druga z nich to związek nieliniowy. Jest jakiś zakres wartości zmiennej X, dla których obserwujemy wzrost wartości zmiennej Y, a potem następuje spadek. Bardzo dużym wartościom zmiennej X odpowiadają małe wartości zmiennej Y.
Te zmienne są zależne. Gdyby były niezależne obserwowalibyśmy kleksa złożonego z punktów, jak na rysunku wcześniej. A tutaj jest inaczej.
Problem jest taki, że współczynniki korelacji r Pearsona i rho Spearmana będą pokazywać 0 (albo bardzo niewielką wartość). Dlatego tak ważne jest zajrzeć sobie w dane i zrobić wykres rozrzutu (rozproszenia, ang. scatterplot).

Tu wszędzie są wykresy rozrzutu: na jednej osi są wartości zmiennej X, a na drugiej osi są wartości zmiennej Y. To nie ma znaczenia, która jest gdzie (na tym etapie).


3. Trzecia sytuacja to taka, w której jedna ze zmiennych jest stała: każda obserwacja ma tę samą wartość. Na przykład pacjenci w gabinecie ginekologicznym to tylko kobiety (czy z urodzenia, czy z - że tak to ujmę - z nabycia). W takim wypadku nie ma co mówić o współzmienności. Na poniższym wykresie widać, że wartości zmiennej X zmieniają się, od 1 do ponad 10. Tymczasem wartość zmiennej igrek jest ciągle na tym samym poziomie - trochę mniej niż 4.


Jaka wartość współczynnika korelacji jest dobra?
To nie jest tak, że im wyższy współczynnik korelacji, tym lepiej. Przykro mi, ale czasami chciałabym, aby nie było żadnej korelacji, na przykład między miłością rodzicielską o kolejnością urodzeń, sukcesem zawodowym a miejscem urodzenia, płcią a szczęściem. Czasem - inaczej - nastawiamy się, że istnieje związek na przykład między szczęściem a pieniędzmi, a tymczasem ta korelacja jest niewielka.

Na pewno gdzieś widziałaś taką tabelkę:

Wartości oraz określenia takich interpretacji to zmienna losowa zależna od wykładowcy, książki, strony w Internecie. Ogólnie: osoby, którą pytasz. Ja chciałabym, abyś wiedziała, że to, jak zinterpretować daną korelację zależy przede wszystkim od tego, co badasz.

W tej tabeli przypatrz się uważnie wierszowi z zerem. Umieściłam tam wykrzyknik. Niech Cię ręka boska broni od uznania niezależności zmiennych losowych, bo taki czy inny współczynnik korelacji wyszedł zero. Patrz w dane! A ku pamięci - zerknij jeszcze raz na przykład numer dwa.

Niektórzy jeszcze piszą/mówią, że istotność statystyczna jest bardzo ważna. Nie, moi drodzy, nie jest aż tak ważna, jak ważne wydaje się być słowo istotny statystycznie. Pisałam o tym esej, że to tylko słowo. Podłóż sobie różowy statystycznie, aby nie dać się uwieść. Korelacja na poziomie 0.001 może być istotna statystycznie i korelacja na poziomie 0.9999 może być nieistotna statystycznie, jest to naprawdę nie-takie-proste pojęcie do ogarnięcia.


Moja jedna zmienna jest ilorazowa (np. czas reakcji), a druga nominalna (wyznawana wiara). Czy mogę policzyć współczynnik korelacji r Pearsona dla takich zmiennych?
Nie. Dlatego, że obie zmienne muszą być ilorazowe. W zasadzie to typ słabszej skali ma decydujący głos w wyborze odpowiedniego współczynnika.


Zrób sobie korelację w SPSS.
Zanim zaczniemy czarować korelację w SPSS-ie, obejrzyjmy bazę. To jest stworzona przeze mnie baza z pięcioma zmiennymi. Jest to pięć cech charakterystycznych herbaty - wymyśliłam je ponieważ potrzebowałam dobrego przykładu do analizy składowych głównych (PCA) i pomyślałam, że skorzystam z niej w poście o korelacjach.
Pięć zmiennych: kolor (mierzone stopniem nasycenia czernią), czas (parzenia), gorycz (mierzona nasyceniem goryczą), teina (zawartość teiny w gramach na milimetr sześcienny) i cena. Są to zmienne ciągłe. Jeszcze raz: wymyślone. Służą mi do określenia pojęcia herbatowość. Są ze sobą związane i dzisiaj naszym zadaniem jest zbadać jak bardzo.
Uruchamiamy SPSS-a. Idziemy zrobić herbatę i po naszym powrocie pokazuje się taki oto widok. Oto:
BAZA...

1. Następnie wchodzimy w Analizy->Korelacje->Parami. Tak jak na grafice niżej.

Dlaczego parami? Bo będziemy sprawdzać stopień związania między dwiema zmiennymi. Albo inaczej: między każdymi dwiema, które wybierzemy.

2. Pokazuje się okienko z analizami.
Po lewej stronie jest lista zmiennych. Ja akurat mam tylko pięć zmiennych w bazie i wezmę je wszystkie wrzucę do korelacji. Tak więc zaznaczę wszystkie pięć zmiennych i przeniosę do okienka po prawej stronie.

Pod spodem są trzy sekcje.
Sekcja Współczynniki korelacji - musisz tu odpowiedzieć na pytanie czyją korelację chcesz liczyć - a może wszystkie na raz, albo tylko dwie z trzech dostępnych w klikalnym menu. Domyślnie jest r Pearsona. Mi to odpowiada, ponieważ mam zmienne, które są ciągłe.

Następnie jest rodzaj Testu istotności: jedno- czy dwustronny. O co chodzi? To jest związane z kierunkowością testów istotności statystycznej. Ja sobie zwykle zostawiam domyślną opcję, dwustronną.

Na końcu, dla ułatwienia: oznaczenie korelacji istotnych statystycznie. To znaczy, że jeśli p-wartość Twojego testu istotności statystycznej wybranego współczynnika korelacji jest mniejsza niż któregoś z progów: 0.05, 0.01, 0.001 to pojawią się odpowiednie gwiazdki.

3. Dalej klikamy przycisk Opcje - zobaczymy co tam siedzi.


Są dwie sekcje: pierwsza to są obliczenia na wartościach Twoich zmiennych. Zaznaczę sobie jeden kwadracik: średnie i odchylenia standardowe. Powinna mi wyjść taka tabelka, gdzie w wierszach będą kolejne zmienne (kolor, czas, gorycz...). A w dwóch kolumnach: średnie oraz odchylenie standardowe (policzone dla każdej z osobna). Może na razie sobie podarujemy iloczyny wektorowe, mi kojarzą się z fizyką.

Druga sekcja dotyczy traktowania zmiennych w sytuacji, gdy ktoś nie odpowiedział na pytanie, nie wklepało się czy cokolwiek innego tam się stało, co spowodowało, że w danym wierszu brakuje zwyczajnie wyniku.
Akurat u mnie nie ma takiej sytuacji, bo jest to sytuacja symulowana i zadbałam o to, aby sto hipotetycznych osób udzieliło odpowiedzi (nazywają się razem generowaniem obserwacji, to jest przydatne, ale to temat na zupełnie innego posta). W praktyce zawsze znajdzie się ktoś, kto nie odpowie, albo jego wyniki będą zafałszowane już na dzień-dobry. Albo diabli wzięli jego wynik. I jest tzw. brak danych (missing value).
Masz do wyboru: wywalić całą kolumnę, albo wywalić tylko te wiersze, w których brakuje jednej obserwacji, gdy algorytm liczy współczynnik korelacji. Ta pierwsza opcja wydaje się być niezbyt rozsądna - ot, tak położyć krzyżyk na całej kolumnie. Całej. A warto wspomnieć, że czasami cała kolumna liczy na przykład 1000 obserwacji. Można mieć wyrzuty sumienia, co?
Zostawmy tę domyślną opcję, zwłaszcza jeśli nie przerobiliśmy tematu missing values.

4. Klikamy OK w głównym okienku (pod sekcją z oznaczeniem istotności korelacji) i SPSS zaczyna trawić dane. Zwykle idzie to szybko i pokazuje się okno z wynikami.

Mam dwie tabelki - jedna została opisana w punkcie 2. To są podstawowe charakterystyki opisowe pięciu zmiennych. A pod tą tabelką jest druga, już ta właściwa. Gdyby pousuwać wiersze zawierajace istotność statystyczną i N, liczbę obserwacji biorących udział w obliczaniu współczynnika korelacji, to mogłabym nazwać tę tabelę macierzą korelacji. Z tymi dodatkowymi wierszami to jest prawie-prawie macierz korelacji. Wiem, że ktoś może uznać to za czepianie się, ale wyobraźcie sobie, że mówię Wam, że w jakiejśtam technice bierzemy pod uwagę macierz korelacji. I na bank znajdzie się ktoś, kto zrozumie, że mam na myśli wzbogaconą macierz, taką jak z tego raportu. Otóż nie, czysta macierz korelacji zawiera tylko i wyłącznie współczynniki korelacji, bez dodatkowych informacji.
Warto zauważyć, że macierz korelacji, ta tutaj (po usunięciu wierszy z Istotnością statystyczną i N), jest macierzą kwadratową. Czyli liczba wierszy jest równa liczbie kolumn. Nie odkryłam Ameryki - to prawda. Warto to jednak mieć gdzieś z tyłu głowy. Tak samo, jak warto mieć z tyłu głowy fakt, że laptopy chodzą na prąd i jak coś nie idzie to najpierw trzeba sprawdzić, czy urządzenie jest podłączone do prądu.
Na głównej przekątnej znajdują się 1. Dlaczego? Dlaczego współczynnik korelacji między Iksiem a Iksiem wynosi 1. Mimo, że czasami wydaje się inaczej, jesteś zgodny w 100% sam ze sobą, nie?
Macierz kwadratowa posiada jedną przekątną główną. Z lewej do prawej na skos. Wiem, że można na skos poprowadzić w drugą stronę. To nie jest główna przekątna.
Reszta uwag jest na rysunku.



Macierz korelacji - podstawowa wersja
Na koniec jeszcze raz - macierz korelacji - bez zbędnych wierszy z istotnością statystyczną i liczbą obserwacji.
To są te same dane, te same współczynniki korelacji. To jest dokładnie to, co ja mam na myśli, mówiąc (pisząc) macierz korelacji.

8 komentarzy:

Anonimowy pisze...

Bardzo fajny artykuł, jednak nie znalazłam informacji których szukałam.

Lilianna Jarmakowska-Kostrzanowska pisze...

Cześć, dzięki za przeczytanie - a jakiej informacji szukałaś?
pozdrowienia
Lili JK

Anonimowy pisze...

Dzień dobry! We wpisie jest błąd/pomyłka: "Jeśli p-wartość wyniesie więcej niż 0.05, to współczynnik korelacji jest istotny statystycznie."
Z pozdrowieniami, K.

Lilianna Jarmakowska-Kostrzanowska pisze...

Faktycznie, dzięki, już poprawiłam. Pomyłka, ale prowadzi do błędu, czyli pomyłkobłąd :-)
pozdrowienia
Lili JK

Hafciarka pisze...

Nie studiuję statystyki psychologii, jednak musiałam ją wykorzystać w pracy mgr. Weż teraz pisz o czymś, o czym nie masz pojęcia. Dzięki Tobie trochę mi się w głowie rozświetliło!!! Dzięki serdeczne za artykuł i za....Internet :)
Pozdrawiam
AP

Lilianna Jarmakowska-Kostrzanowska pisze...

Droga Hafciarko! Bardzo dziękuję za komentarz i cieszę się, że mogłam pomóc :-) Z Internetem - racja, ja też jestem zadowolna, że istnieje :-)
pozdrowienia
Lili JK

wetalk pisze...

Bardzo pomocny wpis, dzięki któremu mogę zrozumieć temat.

Anonimowy pisze...

Swietny ten Pani blig.