Współczynnik korelacji "istotny statystycznie" - czy to dobrze, czy to źle?

Kiedy przeglądam artykuły naukowe, albo rozmawiam z badaczami o wartości współczynnika korelacji, jaki uzyskali w badaniu, często są zadowoleni, że w ogóle "wyszedł" istotny statystycznie. Mniejsza już o sam sens "statystycznej istotności", o czym to pisałam w poprzednich postach (następny czeka w kolejce:). Tym razem chodzi o samą wartość współczynnika korelacji. Czy r = 0.34 to dużo, czy mało? Czy jest się czym cieszyć, nawet jeśli program statystyczny w kolumnie Istotność pokazuje same zera?

Moim zdaniem, trzeba mieć dystans do wyników. Dlaczego? Przecież 0.34 to całkiem przyzwoita liczba, a 0.73 to już w ogóle. Tymczasem to, co powinno interesować badacza to procent wyjaśnianej wariancji, czyli w przypadku współczynnika korelacji r jest to kwadrat tego współczynnika r^2. Tutaj też jest pewne uproszczenie, ale z grubsza tak to wygląda.
Stąd też, 0.34^2 = 0.1156, co oznacza tylko prawie 12% wyjaśnionej wariancji - to niewiele.

Przyzwyczailiśmy się myśleć, że kwadrat wielkości to więcej niż ta wielkość. Dwa do kwadratu to jest cztery, trzy - dziewięć itd.
Pamiętam, że jak miałam sześć lat i dowiedziałam się, ile to jest 100 do kwadratu, to biegałam po osiedlu, oznajmiając wszystkim koleżankom, że to jest "dziesięć tysięcy!". To było dla mnie strasznie dużo :-)

Ale dla ułamków rzecz się ma całkowicie odwrotnie. Mówimy o ułamkach, bo współczynnik korelacji przyjmuje wartość mniejszą od 1.
Jedna druga razy jedna druga to jedna czwarta (1/2 * 1/2 = 1/4). Wychodzi na to, że mając ułamek, najlepiej byłoby go nie podnosić do kwadratu, bo otrzymamy liczbę mniejszą od niego. Poniższy rysunek właśnie ilustruje tę zależność.
Rys. Funkcja liniowa i kwadratowa na odcinku [0,1] (LJK).

Niebieska linia to wykres funkcji y = x, oznacza to tyle: to, co masz na wejściu (czyli x), masz na wyjściu (czyli y). Przykład, dla x = 0.5, y również wynosi tyle samo, y = 0.5. Jeśli podnosimy ułamki do kwadratu (zielona linia), to wartość tego kwadratu jest zawsze mniejsza niż wejściowy ułamek (niebieska linia), więc dla x = 0.5,  będzie to wartość y = 0.25 (co jest mniejsze od 0.5).
Dopiero od wartości 0.95, kwadrat ułamka przekracza próg 0.90. Oznacza to, że dopiero mając bardzo wysoki współczynnik korelacji, możemy mówić o sukcesie.

Koniec końców, to nie sama wartość współczynnika korelacji jest najważniejsza i nawet nie jego istotność statystyczna. Informację o istotności korelacji niesie kwadrat współczynnika korelacji, bo mówi o procencie wyjaśnionej wariancji. Dobrze mieć z tyłu głowy, że kwadrat ułamka jest zawsze mniejszy od tego ułamka przed podniesieniem do kwadratu, ponieważ mimo wysokiej wartości współczynnika korelacji między zmiennymi, procent wyjaśnionej zmienności może być całkiem nieistotny (pun intended/zamierzona gra słów, chodziło mi o: mały).

Brak komentarzy: