Analiza regresji liniowej prostej

LUTY 2024| LJK | ~ 8,200 słów| 54 791 znaków |W trakcie poprawek


Analiza regresji prostej (simple linear regression analysis) to metoda statystyczna, której celem jest jak najlepsze dopasowanie linii do zbioru obserwacji. Dzięki temu możliwe staje się przewidywanie wartości jednej zmiennej na podstawie innej zmiennej.


SPIS TREŚCI:

Analizy statystyczne prowadzi się w dwóch celach. Pierwszy to opis zebranych wyników. Wykorzystuje się do tego miary tendencji centralnej, miary rozproszenia, skośności, kurtozy a także współczynniki korelacji. W ten sposób redukujemy zbiór wyników, niekiedy całkiem sporych rozmiarów, do jednej liczby zawierającej użyteczną informację o charakterze zmienności interesującej nas cechy. Drugi to wyjaśnienie źródeł tej zmienności, czyli odpowiedź na pytanie, co stoi za tym, że wyniki respondentów są różne. Pierwszy cel to okiełznanie zmienności zmiennej, drugi to jej wyjaśnienie. I właśnie temu drugiemu celowi służą modele statystyczne, a regresja liniowa prosta jest pierwszym, jaki poznaje się na studiach.


Model - co to jest i do czego służy?

Modele - nie tylko statystyczne - to całkiem zwyczajna rzecz spotykana w każdej dziedzinie nauki, nie tylko w tych dziedzinach empirycznych, które wymagają prowadzenia badań. Mówi się nawet, że matematyka to też pewien model ludzkiego myślenia. Samo słowo model odznacza odwzorowanie rzeczywistości, uchwycenie jej najważniejszych cech, służące za punkt wyjścia do tego, aby modelowane zjawisko poznawczo ogarnąć i dalej badać go.

Po co nam modele? Tworzymy je po to, aby powiązać fakty, dane i teorie, aby lepiej zrozumieć badane zjawisko. Niektóre modele są Ci dobrze znane. Każdy zna model Układu Słonecznego (Ziemia krąży wokół Słońca). Psychologowie znają poznawczy model fobii a fizycy - model atomu Bohra. Model statystyczny nie jest niczym całkowicie nowym w stosunku do modelu. Po prostu wiąże badane cechy za pomocą znaków równości, mnożenia i dodawania oraz liczb.


Predyktor, regresja, model i liniowość, czyli słowa używane regresji

W statystyce jest taka prawidłowość, że każda metoda statystyczna dysponuje własnym zasobem nazw i pojęć, które mają służyć lepszej komunikacji. Tak samo jest z regresją liniową.

Zanim przejdziemy do pojęć stosowanych w regresji liniowej, musimy spojrzeć na szerszy obraz tego, co dzieje się podczas badania. W każdym badaniu empirycznym można wyróżnić dwa rodzaje zmiennych: niezależną i zmienną zależną. Te pochodzące z metodologii określenia kierują uwagę na relację między badanymi zmiennymi, która wynika z faktu, że zmienność jednej zmiennej przekłada się na zmienność drugiej. Wybór właściwej etykiety (zależna, niezależna) jest podyktowany odpowiedzią na proste pytanie: co ma zależeć od czego? Wartości której cechy mają zależeć od wartości innej? Ta zmienna, której wartości badamy w zależności od wartości innej zmiennej nosi nazwę zmiennej zależnej. Ta, która niejako “rządzi” wartościami zmiennej zależnej, nazywa się zmienna niezależną. Wygląda na to, że ta zmienna, którą interesujemy się w większym stopniu, bo przecież jej zmiany chcemy obserwować, to zmienna zależna.

ZMIENNA ZALEŻNA | W regresji liniowej zmienna zależna to zmienna, której wartościami interesujemy się w największym stopniu – zróżnicowanie tych wartości chcemy poznać i wyjaśnić. W modelu regresji nosi tę samą nazwę - zmiennej zależnej, choć równie dobrze mówi się o niej jako o zmiennej wynikowej, kryterialnej. A ponieważ to jej wartości mają być wyjaśniane za pomocą innej zmiennej, to również jest to zmienna objaśniana lub wyjaśniana. Jeszcze inaczej mówiąc, w regresji liniowej zmienna zależna to zmienna, której wartości chcesz modelować za pomocą tego modelu. Gdy poznasz równanie regresji, będziesz mógł utożsamić zmienną niezależną z symbolem y. Skoro jej wartości mają zależeć od innej zmiennej, to jaką nazwę można nadać tej drugiej zmiennej?

PREDYKTOR | Zmienną niezależna w regresji nazywa się predyktorem, a to słowo pochodzi od angielskiego predict, prediction - przewidywać, przewidywanie. Predyktor to zmienna, której zadaniem jest odpowiadać za zmienność zmiennej zależnej. Skoro tak, to zwana jest też zmienną wyjaśniającą albo objaśniająca. Gdy poznasz równanie regresji, będziesz mógł utożsamić zmienną niezależną z symbolem x.

Uwaga! Jest to predyktor, a nie predykator z dodatkowym a w środku słowa. Predykator to coś, co używasz codziennie, gdy mówisz, że coś jest czymś. Ostatnie dwa słowa “jest czymś” to dla osoby zajmującej się logiką są predykaaatorem. Na dodatek zdaniotwórczym, ponieważ dostawione do rzeczownika stworzą z nim pełnoprawne zdanie. W regresji nie tworzymy zdań, w regresji przewidujemy wartości, więc to, co przewiduje, jest predyktorem a to, co jest przewidywane – zmienną zależną.

MODEL | każdy model to poznawcza reprezentacja zależności między co najmniej dwoma zjawiskami. Model statystycznym różni od modelu tylko to, że jest wyrażony za pomocą pojęć statystycznych - predyktor, zmienna zależna, a relacja między nimi jest opisana konkretną formułą. Dzięki niej można modelować zachowanie jednej zmiennej za pomocą drugiej - zmiennej zależnej za pomocą jednego predyktora. Zdążyliśmy już nakreślić cel tej techniki statystycznej i wyjaśnić podstawowe dwa pojęcia, ale co znaczy główne słowo: regresja?

REGRESJA | Regresja jest słowem, które w różnych dziedzinach ma różne znaczenie, np. w psychologii oznacza jeden z freudowskich mechanizmów obronnych: powrót do wcześniejszych stadiów rozwoju celem poradzenia sobie z emocjami. W kontekście modelu statystycznego z pozoru niewiele znaczy, bo niby o jakie cofanie miałoby chodzić? Pozory jednak często mylą. Jak przeczytasz fragment o wartościach otrzymanych i przewidywanych, to następujące wyjaśnienie stanie się dla Ciebie bardziej klarowne. Słowo regresja w nazwie tej techniki oznacza, że wartości przewidywane są bliżej średniej niż wartości otrzymane. Stanie się to jaśniejsze po przeczytaniu poniższego tego fragmentu KLIK.

REGRESJA Y NA X | Aby wyrazić, że jedna zmienna ma być opisana za pomocą drugiej zmiennej przy pomocy modelu regresji liniowej, utarło się używać frazy “regresja czegoś na coś”. Kolejność zmiennych zaczyna się nietypowo: najpierw wymawia się zmienną zależną, a dopiero potem zmienną niezależną.
Przykład użycia frazy: regresja cen mieszkania na jego powierzchnię to regresja, w której zmienną zależną jest cena mieszkania, a ona zależy od metrażu, czyli zmiennej zależnej. Regresja samooceny na atrakcyjność to model, w którym samoocena zależy od atrakcyjności.

Uzasadnienie wyboru takiej kolejności zmiennych i przyimka “na” leży aż w geometrii. Spokojnie, my pozostaniemy poza obszarem tej dziedziny matematyki.

LINIOWOŚĆ | Rodzaj regresji, jaką zajmujemy się, ta przydawka, która widnieje w nazwie, liniowa, oznacza, że działa on tylko dla takich związków między zmiennymi, które spełniają pewien konkretny warunek. Cóż to takiego, ta liniowość? Ta ciężka nazwa jest zarezerwowana dla prostej rzeczy. Związek liniowy to związek, w którym zmiana w jednej zmiennej przekłada się wprost proporcjonalnie na zmianę drugiej zmiennej. Jeśli godzina joggingu oznacza, że spalimy 500 kcal, to dwie godziny joggingu oznaczają 1000 kcal, a półtorej godziny - 750 kcal. Pamiętajcie, że 500 kcal ma tabliczka czekolady. Związek liniowy jest przyjemny. Technicznie oznacza to, że wystarczą podstawowe operacje mnożenia i dodawania - nie ma tu żadnego potęgowania, logarytmowania, różniczkowania, itd. Informacja dla osób z mat-fizu - matematyk powiedziałby, że pochodna jest stała. Gdy mówi właśnie te słowa, ma na myśli to, że przyrost funkcji jest tak sam niezależnie od punktu wyjścia. Spójrz na poniższy rysunek. Jeden z nich, ten po lewej ilustruje związek liniowy wraz z jego cechami charakterystycznymi, a drugi - związek nieliniowy, jeden z wielu, jaki może wystąpić.


Regresja liniowa i funkcja liniowa

Opowiadając o regresji liniowej, lubię zacząć w miejscu, w którym zakończył się materiał z matematyki w liceum, może nawet trochę wcześniej niż klasa maturalna - tam, gdzie była mowa o funkcji liniowej. Gdzieś około pierwszej klasy liceum nauczyciel wprowadza uczniom ich pierwszą prawdziwą funkcję matematyczną. Może to zrobić, ponieważ uczniowie mają już rozwinięty zmysł abstrakcji i rozumieją nie tylko zbiory przedmiotów, ale także są w stanie zrozumieć relację między nimi. A słowo funkcja to po matematycznemu właśnie relacja. To jest właśnie definicja funkcji pozbawiona matematycznej otoczki. To relacja między jednym zbiorem liczb a drugim zbiorem liczb. Ponieważ brzmi to zbyt ogólnie, to należy podać przepis przerabiania jednych na drugie, co na lekcjach matematyki przedstawia się w postaci wzoru y = a · x + b. Wzór oznacza, że aby otrzymać wartość y wystarczy pomnożyć x przez jakąś liczbę a potem dodać jeszcze jedną liczbę b. Na przykład, gdy y = 2 · x + 1, to gdy x = 3, wówczas y = 2 · 3 + 1 , czyli 7. Nauczyciel nie używa skomplikowanych nazw, iksem nazywa zmienną niezależną, igrekiem nazywa zmienną zależną, a na całość mówi krótko: funkcja. Na studiach, gdy uczniowie staną się studentami, dowiedzą się, że taka formuła, gdzie jedna zmienna jest przedstawiona za pomocą drugiej, nazywa się kombinacją liniową.

To, że w szkole nie używa się skomplikowanych nazw nie oznacza, że uczeń nie widzi kombinacji liniowych w praktyce. O ile matematyka jest bardzo abstrakcyjną dziedziną, oderwaną od rzeczywistych wymiarów, to na lekcjach fizyki poznaje się kombinacje liniowe np. siła jest funkcją liniową masy F = m·a .

W liceum kombinacja liniowa łącząca zmienne jest szczególna. Jeśli znasz wartość zmiennej niezależnej x to jesteś w stanie ze stuprocentową pewnością wyznaczyć wartość zmiennej zależnej y. Objawem tego jest fakt, że punkty znajdują się na linii prostej - tak jak na poniższym rysunku:

Nawet jeśli puścimy taśmę dalej i zobaczymy funkcję kwadratową, wykładniczą i dowolną inną, to zawsze punkty na wykresie idealnie leżą wzdłuż trajektorii linii. Na poniższym wykresie linia przechodząca przez wszystkie punkty nie jest już prostą, a parabolą, ale wszystkie punkty leżą na jej drodze.

Rzeczywistość już taka idealna nie jest. A to błędy pomiarowe, a to losowe fluktuacje, a to różnice indywidualne. Wszystko to razem sprawia, że rzadko kiedy punkty leżą wzdłuż jednej prostej. Nawet jeśli istnieje zależność między zmiennymi, to częściej wykres rozproszenia wygląda tak:

To, co czego w liceum nie uwzględnia się, to to, co powoduje te odchylenia obserwacji od idealnej linii, czyli obecność losowych fluktuacji. W liceum nie ma miejsca na przypadek tak obecny w przyrodzie, naukach empirycznych i życiu codziennym. Poprzedniemu zdaniu daleko jednak od krytyki stanu polskiej szkoły. Naukę przecież zaczyna się od podstaw, a dopiero później wprowadza coraz bardziej skomplikowane pojęcia. O ile pojęcie relacja między dwoma zbiorami jest w miarę szybko opanowane, to obecność losowych fluktuacji przyzwyczajonym do determinizmu umysłom może sprawiać dużą trudność.

Uczniom mówi się, że nie można poprowadzić prostej przez wszystkie punkty, bo byłaby to nie prosta, a łamana. I to jest miejsce, w którym zaczniemy wprowadzanie regresji liniowej.

Przez zbiór punktów, które nie leżą wzdłuż prostej mimo wszystko da się poprowadzić prostą. Tyle, że wymaga to kompromisu. Ceną za możliwość poprowadzenia prostej poprzez chmurę punktów jest to, że nie wszystkie punkty będą na niej leżeć.

Ta prosta, która profesjonalnie nazywa się prostą regresji, będzie oddawać charakter zależności między zmiennymi, ale nie w 100%. Większość punktów nie będzie leżeć na jej trajektorii, ale liczymy na to, że będą leżeć możliwie blisko. Tak, aby ich odległość od prostej była jak najmniejsza. Tę odległość punktu od prostej regresji nazwiemy później resztą regresji (KLIK), błędem regresji albo rezyduum, oznaczaną literką e. Punkty leżące daleko od prostej będą mieć dużą resztę regresji. Te, które leżą blisko prostej - małą resztę regresji. Tym, którym zdarzy się leżeć dokładnie na drodze tej prostej, ich reszta regresji będzie równa zero, co można zapisać e = 0. Sztuka w prostej regresji polega nie na tym, aby wyzerować wszystkie reszty regresji, ale aby były one były jak najmniejsze.


Różnica między regresją a korelacją

Wprowadzanie pojęcia regresji liniowej prostej można równie dobrze zacząć w innym miejscu: tam, gdzie omawia się jedną liczbę podsumowującą zależność między dwoma zmiennymi, czyli analizę korelacji. Analiza regresji prostej wydaje się być rozszerzeniem analizy korelacji.

Przypomnijmy, korelacja między dwoma zmiennymi to liczba, która opisuje siłę związku między nimi. Im wyższa wartość, tym silniejszy związek, aż do momentu, gdy mamy tzw. pełną korelacją, która wynosi 1 lub -1, co nie zawsze oznacza, że mamy dwie zmienne są tym samym, tylko, że przewidywanie wartości jednej zmiennej na podstawie drugiej odbędzie się bez żadnego błędu. Więcej szczegółów o analizie korelacji przeczytasz tu KLIK. Współczynnik korelacji zwięźle opisuje kształt chmury punktów na rysunku rozproszenia.

Tu korelacja jest tu stosunkowo duża, r = 0,67. Piszę stosunkowo duża, ponieważ posługuję się progami Cohena, które pozwalają ocenić siłę związku między zmiennymi.

Zobacz, jak współczynnik korelacji r-Pearsona redukuje cały zbiór danych do jednej liczby, wydobywając z niego pełnię informacji o sile związku. Jest to niezwykle przydatna statystyka opisowa, która ma poważne ograniczenia. Co stałoby się, gdybyśmy zadali pytanie - znając wartość jednej zmiennej biorącej udział w obliczaniu tej korelacji, jaka jest wartość tej drugiej zmiennej? Czy można przewidzieć wartość zmiennej, znając współczynnik korelacji? Odpowiedź jest prosta - nie można. Na podstawie współczynnika korelacji, próba przewidzenia wartości tej drugiej zmiennej przypomina wróżenie z fusów. Daje tylko pewien opisowy pogląd, a nam zależy na liczbach.

Z informacji, że między dwoma zmiennymi współczynnik korelacji r-Pearsona wynosi r = 0,67, jeszcze nie wynika, że gdy osoba badana uzyskała wynik w jednej zmiennej równy 2, to drugiej zmiennej uzyska wynik równy 3. Tak przewidywać można dopiero wówczas, gdy przeprowadzimy analizę regresji.

Regresja tym różni się od korelacji, że pozwala na przewidywanie wartości zmiennej zależnej dla nowych obserwacji, które nie brały udziału w szacowaniu współczynników regresji. Model pozwala podać wartość zmiennej wynikowej dla zupełnie nowej obserwacji - takiej, której nie ma w bazie. A stanie się to dzięki temu, że użyjemy magicznego przepisu zwanego wzorem regresji.


Wzór regresji liniowej prostej

To wszystko prowadzi do tego, że regresja liniowa prosta jest rozwinięciem czegoś, co widzieliśmy w liceum, to coś nazywa się funkcją liniową. Jej wykresem jest prosta a przepisem, ogólnym wzorem, którzy przekształca y = a · x + b. Litera a reprezentuje współczynnik kierunkowy, zaś b to wyraz wolny. Wzór regresji liniowej to zwykły wzór matematyczny, tyle tylko, że zamiast igreka pisze się nazwę zmiennej zależnej, a zamiast iksa piszemy nazwę zmiennej niezależnej. Zamiast pisać y = 2 · x + 7, piszemy Samoocena = 2 · Atrakcyjność + 7, bo akurat w badaniu wykonywano regresję liniową Samooceny na Atrakcyjność.

W zapisie regresji nie stosuje się notacji z liceum, raczej używa się innego sposobu zapisu. Zamiast y = a · x + b, mamy y = b1 · x + b0. Tu b1 z jedynką w indeksie dolnym jest współczynnikiem regresji, zaś b0 z indeksem dolnym równym zero jest wyrazem wolnym. Co więcej, nie mówi się ani "współczynnik kierunkowy" ani "wyraz wolny" tylko - współczynnik regresji i stała (albo intercept).

Póki co wydaje się, że to bezsensowna zmiana jednych literek na drugie. Tak w rzeczywistości nie jest, ponieważ przesiadka ułatwia komunikację. Gdy będziemy omawiać regresję liniową wielokrotną, gdzie jest więcej predyktorów, to indeksy dolne będą strzec porządku, np. y = b1 · x1 + b2 · x2 + b3 · x3 + b0. Ten ostatni wzór oznacza, że wykonano regresję liniową wielokrotną jednej zmiennej zależnej y na trzy predyktory, x1, x2 i x3. Co więcej, użycie jednej litery, b, przyda się w rozróżnianiu, o jakiej warstwie organizacji jednostek mówimy (próba, czy populacja), więc uwierzcie mi - warto zmienić sposób zapisu.


Wartości otrzymane y, przewidywane ŷ i reszty regresji e

Każda obserwacja - punkt na wykresie rozproszenia - ma dwie współrzędne x i y, co zapisuje się (x,y). Pierwsza mówi o tym, jaką wartość obserwacja ma w zmiennej niezależnej, druga - w zmiennej zależnej. Pierwsza to wartość to wartość zmiennej niezależnej, druga - wartość zmiennej zależnej, którą też dla ułatwienia komunikacji będziemy nazywać wartością otrzymaną lub zaobserwowaną. Symboliczny zapis wartości otrzymanej to y.

Gdy wykonamy analizę regresji i wzór na prostą wyznaczy prostą, będzie można dla każdej wartości zmiennej niezależnej wyznaczyć tzw. przewidywaną wartość zmiennej zależnej. Symboliczny zapis wartości przewidywanej to igrek z daszkiem, ŷ.

To, że mamy dwie wartości - jedna to faktycznie otrzymana w badaniu, a druga to ta przewidywana, może na pierwszy rzut wydawać się skomplikowane, ale pomyślmy chwilę. Dla każdej obserwacji mamy to, co wyszło w badaniu - i to, co wyjdzie w modelu. Stąd biorą się te ‘dodatkowe’ wartości zmiennej zależnej. Zauważmy, że każdej wartość otrzymana zmiennej zależnej y odpowiada przewidywana wartość ŷ. Krótko mówiąc, każdy y będzie miał swojego ŷ.

Patrząc na tę prostą można zaobserwować, że nie wszystkie punkty leżą wzdłuż jej trajektorii. Część z nich leży bliżej, część - dalej. Dla tych punków obserwowana wartość zmiennej zależnej różni się od przewidywanej wartości zmiennej zależnej. Różnica między nimi to właśnie zaznaczona niebieskim kolorem zarówno tu, jak i na wykresie reszta regresji oznaczana literką e. Gdy obserwacji zdarzy się leżeć na drodze prostej regresji, wówczas wartość otrzymana i przewidywana są sobie równe, a reszta regresji jest równa 0 i krótko zapisujemy e = 0.

Ile jest reszt regresji? Wydedukujmy. Dla jednej obserwacji to jedna liczba, ale obliczając różnice między wartościami otrzymanymi otrzymujemy cały zbiór reszt regresji. Wobec tego, siłą rzeczy reszt regresji jest tyle, ile obserwacji w bazie, ponieważ dla każdej obserwacji jest wyznaczona wartość przewidywana. Każdy y ma swojego ŷ, a co za tym idzie, każdy y ma swoją resztę regresji e.

Jakie te reszty mają być? Sztuka w analizie regresji jest dobrać tak dobrać tę prostą, aby zminimalizować te reszty. Tak utworzoną prostą nazywa się prostą MNK. Skrót pochodzi od słów “metody najmniejszych kwadratów” i wkrótce przekonamy się o co chodzi.

Reszty regresji wbrew nazwie są bardzo użytecznymi liczbami. Ich zachowanie przedstawione w postaci histogramu jest cenną wskazówką tego, czy nasz model jest dobry. Zobaczysz to w diagnostyce modelu KLIK.

Nadszedł czas, aby wreszcie wykonać analizę regresji. Zebraliśmy w bazie dane, wiemy która zmienna ma być zmienną zależną, a która predyktorem. W programie statystycznym wyklikujemy kroki analizy regresji i program dopasowuje krzywą do danych oraz pokazuje różne cyferki. Jak je interpretować? Tym zajmiemy się dalej.

Wzór regresji liniowej składa się z nazw zmiennych i z przyklejonych do nich liczb, zwanych współczynnikami regresji liniowej. To, jaki wpływ predyktory wywierają na zmienną zależną, jest zawarte w tych współczynnikach regresji.


Interpretacja współczynników regresji

Pamiętaj, że wartości współczynników regresji to po prostu zwykłe liczby – takie jest 3, - 172 i pierwiastek z dwóch, mogą przybrać dowolną wartość od minus do plus nieskończoności. Nie należy się ich bać, interpretacja jest prosta, a kluczem do zrozumienia modelu regresji jest interpretacja tych liczb.

Istnieją dwa sposoby interpretacji współczynników regresji. Po pierwsze można potraktować współczynniki regresji trochę tak jak współczynniki korelacji - z tą różnicą, że nie są ograniczone do przedziału [-1,1]. Po drugie, możemy interesować się zmianami, jakie spotykają zmienną zależną wraz ze zmianami w predyktorze. Obie formy interpretacyjne są równoważne, rozkładają tylko inaczej akcent. Ta pierwsza kładzie nacisk na kierunek zależności, ta druga - na wielkość wpływu jednej zmiennej na drugą. Omówimy teraz oba sposoby rozumienia współczynników regresji.

Tak, jak w korelacji… — Interpretacja współczynnika regresji jest następująca: Jeśli współczynnik regresji jest dodatni, np. b1 = 0,78, to wraz ze wzrostem wartości predyktora, rosną wartości zmiennej zależnej. Jeśli współczynnik regresji jest ujemny, np. b1 = - 0,24, to wraz ze wzrostem wartości predyktora, wartości zmiennej zależnej maleją. Spróbujmy zobaczyć to na konkretnych przykładach hipotetycznego badania narcyzmu, perfekcjonizmu i empatii.

Narcyzm to jedna z cech osobowości. Można ją rozbić na takie pojęcia jak: poczucie wyższości, zawyżona samoocena czy brak empatii wobec innych. Badania pokazują, że idzie w parze z perfekcjonizmem, czyli dążeniem do osiągania wysokich standardów, niekiedy nawet zbyt wysokich. Wyobraźmy sobie model regresji liniowej, w którym na podstawie perfekcjonizmu chcemy przewidywać narcyzm. Perfekcjonizm jest tu predyktorem, zaś narcyzm - zmienną zależną.

DODATNIA WARTOŚĆ WSPÓŁCZYNNIKA REGRESJI (1) — W pewnym badaniu otrzymaliśmy następujący wzór regresji Narcyzmu na Perfekcjonizm Narcyzm = 2,34 · Perfekcjonizm + 5,12. Ponieważ wartość współczynnika regresji 2,34 jest dodatnia, to interpretujemy ją w następujący sposób - jeśli perfekcjonizm rośnie, to wzrasta też narcyzm. Spójrz na poniższy rysunek.

UJEMNA WARTOŚĆ WSPÓŁCZYNNIKA REGRESJI (1) — Weźmy model w którym wykonujemy regresję narcyzmu na inną zmienną, która stoi na przeciwnym krańcu postawy braku troski wobec innych - na empatię, której chyba nie trzeba tłumaczyć. Przypuśćmy, że model ma postać: Narcyzm = -1,78 · Empatia + 5,96. Minus stojący przy predyktorze Empatia, który wynosi -1,78 mówi nam, że im wyższa empatia, tym niższy narcyzm. Jeśli wyniki w skali empatii rosną, to spada nasilenie narcyzmu.

Korelacyjny sposób interpretacji współczynników regresji zawiera informację o związku między zmiennymi, ale pomija samą wartość współczynnika korelacji. Tymczasem mówi ona o zmianach, jakie dotykają zmienną zależną wraz ze zmianą wartości predyktora.

Jak zmiana wartości predyktora wpłynie na zmianę wartości zmiennej zależnej? Zadajemy pytanie o to, jak zmieni się wartość zmiennej zależnej, gdy zmieni się predyktor. Weźmy jeszcze raz te same dwa modele regresji narcyzmu na zmienne: perfekcjonizm i empatia.

DODATNIA WARTOŚĆ WSPÓŁCZYNNIKA REGRESJI (2) — Ogólnie rzecz biorąc, jeśli dwie obserwacje różnią się w predyktorze o jednostkę, to w zmiennej zależnej będą różnić się o tyle, ile wynosi współczynnik regresji.

Na każdy dodatkowy punkt w skali perfekcjonizmu, przypada 2,34 punktu w skali Narcyzmu - tyle, ile wynosi współczynnik regresji stojący przy tym predyktorze. Gdy dwie osoby różnią się jednym punktem w skali Perfekcjonizmu, to w skali Narcyzmu różnią się o 2,34.

SKĄD TO SIĘ BIERZE? — Wybierzmy dwie dowolne wartości różniące się o jednostkę. Naprawdę nieważne jest to, ile one wynoszą, ważne, że dzieli ich jeden. Niech to będzie wynik w skali Perfekcjonizm = 1 i Perfekcjonizm = 2. Dodajmy indeks dolny, aby jakoś rozróżnić te dwa wyniki. Powiedzmy, że mamy dwie osoby A i B, wówczas PerfekcjonizmA = 1 i PerfekcjonizmB = 2. Podstawiamy do wzoru narcyzm osoby A wynosi NarcyzmA = 2,34 · 1 + 1,12. Dla drugiej osoby B wynik w skali narcyzmu wynosi NarcyzmB = 2,34 · 2 + 1,12. Odejmujemy jedno o d drugiego i wychodzi: 2,34.

INTERPRETACJA STAŁEJ — Wolnostojący współczynnik regresji, zwany wyrazem wolnym albo stałą albo (z angielska) intercept, ten który jest pojedynczą liczbą niepomnożoną przez żaden predyktor, również można interpretować. Należy pamiętać, że wyraz wolny mówi o tym, w który miejscu na osi OY prosta regresji przetnie tę oś. W modelu Narcyzmu ne Perfekcjonizm stała wynosiła b0 = 1,12 i wówczas na pionowej osi miejsce to właśnie wynosi 1,12. W modelu Narcyzmu na Empatię stała była większą i wynosiła b0 = 5,96 i wówczas na osi OY prosta tego modelu przecinała tę oś.

Co oznacza to? Stała równa zero oznacza to, ile osoba badana otrzyma punktów w zmiennej zależnej, gdy predyktor jest równy zero. Czemó? Zauważmy, że gdy dowolna prosta regresji przecina oś OY, to jednocześnie jest to miejsca, w którym na osi OX jest wartość zero. Na osi OY leżą wszystkie obserwacje, których wartość zmiennej niezależnej (predyktora) wynosi 0. W notacji z liceum są to punkty: (0,0) - początek układu kartezjańskiego tego oraz na przykład (0,1), (0,1.5), (0,-2). W tej nieskończonej ilości możliwości, punkt przecięcia prostej regresji jest tylko jedną z opcji.

Interpretacja jest taka: jeśli osoba badana w skali perfekcjonizmu otrzymuje wartość 0, to wówczas jej wynik w skali narcyzmu wynosi Narcyzm = 2,34 · 0 + 1,12 = 1,12. Tyle punktów w skali Narcyzm otrzymuje na wejściu osoba badana. Czy wartość zmiennej Narcyzm Narcyzm = 1,12 to wartość, która mogłaby się zdarzyć? Być może. Jeśli kwestionariusz Narcyzmu przewiduje zakresem możliwe wyniki od zera, to odpowiedź brzmi: tak. Bywa jednak tak, że stała, która jest miejscem przecięcia linii regresji, nie ma żadnego interpretowalnego sensu. Wszystko to prowadzi nas do wniosku, że interpretacja wyrazu wolnego zależy od tego, czy ma to sens, czy też nie.

STANDARYZOWANY WSPÓŁCZYNNIK REGRESJI — W tabeli ze współczynnikami regresji można znaleźć jeszcze jeden rodzaj współczynników regresji. Tzw. współczynnik standaryzowany beta. Ma on nieco inną interpretację niż zwykły współczynnik, który jest niestandaryzowany.

"Nieco inna" nie znaczy tu "zupełnie inna". Nadal interesuje nas zmiana zmiennej zależnej podyktowana zmianą predyktora, ale odbywa się ona nieco inaczej. O ile współczynnik niestandaryzowany b mówi o tym, o ile jednostek zmieni się zmienna zależna wraz ze zmianą zmiennej niezależnej, o tyle standaryzowany współczynnik mówi podobne rzeczy, ale w kategoriach odchyleń standardowych. Jeśli współczynnik standaryzowany beta wynosi 0,23, to zmiana wartości predyktora o jedno odchylenie standardowe pociąga za sobą zmianę wartości zmiennej zależnej o 0,23 odchylenia standardowego. Aby obserwować tę zmianę w liczbach, musisz rzucić okiem na odchylenia standardowe obu zmiennych.

Przypuśćmy, że w modelu regresji Narcyzmu na Perfekcjonizm standaryzowane beta wynosi właśnie 0,23. Dodatkowo, wiemy że odchylenie standardowe Perfekcjonizmu wynosi SD = 1,55 a odchylenie standardowe Narcyzmu SD = 2,01. Skąd takie rzeczy mogę wiedzieć? Ze statystyk opisowych. Możesz wykonać szybko obliczenia wartości statystyk testowych każdej ze zmiennych i stamtąd dowiedzieć się, jakie jest jej odchylenie standardowe, średnia, skośność, kurtoza.

Wracając do przykładu, jeśli Perfekcjonizm jako predyktor wzrośnie o 1,55 punktu, to wówczas możemy zaobserwować zmianę Narcyzmu o 0,23 — 2,01 = 0,46 punktów. Zauważ, że masz do czynienia z dwoma różnymi odchyleniami standardowymi (jedno należy do predyktora, a drugie do zmiennej zależnej) i musisz uważać, które z nich mnożyć przez standaryzowany współczynnik regresji beta.

WSPÓŁCZYNNIK REGRESJI PREDYKTORA JAKOŚCIOWEGO — Wszystko co powiedzieliśmy powyżej jest prawdą - dla predyktorów o specyficznym typie pomiaru. Typ pomiaru ma bezpośredni wpływ na to, co można zrobić z wartościami zmiennej. Jak wiesz, istnieją cztery rodzaje zmiennych według typologii Stevensa, a je można z grubsza podzielić na dwa rodzaje - typ ilościowy i jakościowy. Zmienna ilościowa to taka zmienna, której wartości są traktowane jak zwyczajne liczby, jeden, dwa, trzy, cztery…, Jeśli predyktor ma właśnie taką ilościową naturę, współczynnik regresji do niego należący daje się interpretować tak jak zrobiliśmy to powyżej. Predyktor jakościowy zachowuje się inaczej. Jakościowy typ pomiaru jakiejkolwiek zmiennej oznacza, że jej wartości nie są prawdziwy liczbami. Czołowymi przykładami takich zmiennych są: płeć i wykształcenie. Jakościowość pomiaru odbija się na interpretacji współczynnika regresji takiego predyktora. Nie możemy już powiedzieć, że wraz ze wzrostem wartości, rosną wartości zmiennej zależnej, ponieważ nie można kategorii swobodnie mnożyć przez współczynniki regresji.

Czy to wyklucza wprowadzanie zmiennych jakościowych do modelu? Wcale nie. Regresja liniowa to bardzo pojemny model, ale trzeba umieć interpretować te cyferki. Interpretacja współczynnika regresji jakościowego predyktora odbywa się przez porównanie. Etykiety kategorii trzeba zrekodować w charakterystyczny sposób ułatwiający to porównywanie - nazywa się go dummy coding. Dummy coding to kodowanie zero-jedynkowe. Należy przy tym pamiętać, że musimy wybrać jedną z kategorii jako kategorię bazową, do której będziemy porównywać pozostałe kategorie. W przypadku wykształcenia najrozsądniej wybrać najniższy poziom, czyli wykształcenie podstawowe. W przypadku płci - tu już całkowicie arbitralnie. Niech np. kategorią odniesienia będzie “kobieta”. Osoby badane, które w zmiennej Płeć mają wartość “kobieta”, teraz będą miały 0. Osoby badane, które w zmiennej Płeć mają wartość “mężczyzna”, będą miały jedynkę.

Odwołamy się znów do przykładu regresji liniowej prostej narcyzmu na dychotomiczną płeć. Niech wzór na regresję będzie tej postaci: Narcyzm = 0,52 - Płeć + 1,23.

Dychotomiczny predyktor Płeć ma współczynnik regresji równy b = 0,52. Oznacza to że mężczyźni mają wyniki średnio wyższe wyniki narcyzmu o wartość tego współczynnika regresji, czyli o 0,52 punktu niż kobiety. Nie możesz powiedzieć, że wraz ze wzrostem wartości zmiennej Płeć, rosną wartości narcyzmu, bo to sformułowanie nic nie znaczy. Nie możesz też powiedzieć, że gdy dwie osoby różnią się o jednostkę w skali Płeć, to w narcyzmie będą różnić się o 0,52 - dlatego, że nie różnimy się w płci o jednostkę. To są dwie różne kategorie, do których tak się złożyło, że przypisano zero i jeden - celem interpretacji.


Gdy współczynnik regresji jest równy zero, jakie jest położenie prostej regresji?

Porozmawiajmy teraz co stałoby się, gdyby współczynnik regresji przy predyktorze byłby równy zero. Wnioski z tych rozważań przydadzą się podczas testowania statystycznego tych współczynników, ponieważ w treści hipotez będziemy wartość tych współczynników porównywać do zera. Warto dowiedzieć się, co to w praktyce oznacza. Linia regresji oddaje charakter chmury może różnie położona względem osi OX. Kąt nachylenia tej prostej przekłada się na predyktor. Jeśli prosta jest równoległa do osi OX jest to oznaka tego, że predyktor nie ma znaczenia - że model nie wyjaśnia zmienności zmiennej zależnej. Wartość współczynnika regresji jest wówczas zbliżona do zera.

Być może przypomina Ci się z liceum informacja, że gdy współczynnik kierunkowy jest równy zero, to mamy do czynienia z funkcją stałą, y = b, gdzie b jest po prostu jakąś liczbą. Na przykład funkcją stałą jest y = 2,33. Gdy tak się dzieje, to każdy argument ma tę samą wartość - mówiła w szkole matematyczka. W kontekście regresji powiemy, że każdej wartości predyktora odpowiada ta sama wartość zmiennej zależnej. Predyktor zatem nie tłumaczy zmienności zmiennej zależnej, nie uchwyca jej. I wcale tu nie chodzi o to, że punkty na wykresie mają leżeć równo na linii regresji. Jeśli zdarzyłaby się taka sytuacja, to wówczas zmienność zmiennej zależnej jest … żadna, ponieważ wszystkie obserwacje mają tę samą wartość. W takim przypadku predyktor nie wyjaśniałby zmienności, bo był z niej zwolniony.


Dobre i złe dopasowanie modelu regresji do danych

Model musi być dobrze dopasowany do danych - co do tego nikt nie ma wątpliwości. Model dobrze dopasowany do danych to taki model, który uchwyca zmienność zmiennej zależnej - na wykresie rozproszenia między dwoma zmiennymi widać wówczas, że mniej więcej oddaje kształt chmury punktów. Model źle dopasowany do danych to taki model, to taki, w którym linia regresji nie uchwyca tej zmienności.

SZCZEGÓLNE DWA PRZYPADKI - Jeśli wszystkie punkty leżą na prostej i jest ona nachylona, a nie równoległa względem osi OX, to model w 100% wyjaśnia zmienność zmiennej zależnej. Jeśli wszystkie punkty leżą na prostej, ale linia regresji jest równoległa względem, to niby obserwujemy pełne dopasowanie, ale współczynnik determinacji nie policzy się - on wymaga choćby odrobiny zmienności zmiennej zależnej.


Miara dobroci dopasowania – współczynnik determinacji r2

Gdzie znajduje się informacja o tym, jak dobrze jest dopasowany model do danych? We współczynniku determinacji r2. Jest on kolejną pojedynczą liczbą zawierająca ważną informację o modelu. Technicznie rzecz biorąc, jest to współczynnik korelacji r-Pearsona podniesiony do kwadratu. Potęgowanie powoduje, że współczynnik przyjmie wartości jedynie dodatnie. Gdy predyktor nie wnosi niczego do modelu, współczynnik determinacji jest niski. Zerowa wartość oznacza, że predyktor w ogóle nie ma mocy predykcyjnej. Z drugiej strony r2 = 1 oznacza, że zmienność zmiennej zależnej jest w pełni wyjaśniona przez model, a związek między zmienną zależną i predyktorem jest idealny (coś jak perfekcyjna korelacja). Znając dowolną wartość predyktora, znasz wartość zmiennej zależnej (w praktyce rzadko spotykana sytuacja).

Czym współczynnik korelacji różni się od współczynnika determinacji? Ten pierwszy mówi o sile związku między zmiennymi (jak bardzo dwie zmienne są ze sobą powiązane). Ten drugi mówi o trafności przewidywania, (jak wiele zmienności jednej zmiennej możemy wyjaśnić przez drugą za pomocą związku liniowego). To ważne, że aby podkreślić, że mówimy tu o liniowości. Narzędzia statystyczne badają tylko pewien aspekt związków i może się zdarzyć że zależność między predyktorem a zmienną zależną wcale nie będzie liniowa a kwadratowa. Wówczas współczynnik determinacji r2 pokaże zaniżoną wartość. Zaniżoną, czyli nieprawdziwą, niezgodną z rzeczywistym obrazem sytuacji w danych.

Oprócz informacji o dopasowaniu modelu do danych i jego mocy predykcyjnej, współczynnik determinacji r2 jest nośnikiem jeszcze jednej ważnej miary - wielkości efektu stosowanej w analizie regresji. O tym, jak wydobyć z niego jej wartość, powiemy niżej, omawiając testy omnibus.


Regresja w próbie i regresja w populacji

Próba i populacja Zanim porozmawiamy o testowaniu statystycznym, warto przypomnieć, że są dwie warstwy organizacji jednostek - populacja i próba. Dlaczego dwie? Bo nie mamy dostępu do całej populacji z różnych względów w tym ekonomicznych i czasowych - to zdanie na pewno słyszałaś. Możemy co najwyżej badać zależności w próbie i liczyć na to, że uda się w miarę bez większego błędu przybliżyć populację.

Stąd mamy dwie średnie: w populacji i w próbie. Średnia w próbie jest oszacowaniem średniej w populacji (stąd ta pomarańczowa strzałka na rysunku). Aby komunikacja przebiegała gładko, posługujemy się różnymi sposobami zapisu. W próbie są to litery łacińskie , a w populacji - greckie μ. Użycie łacińskich liter sygnalizuje odbiorcy, że mówimy o wynikach w próbie. Użycie greckich - w populacji. Nie inaczej jest w przypadku modelu regresji liniowej.

W przypadku modelu regresji liniowej również istnieją dwie wersje tego modelu: istniejący w próbie oraz w populacji. Współczynnikami regresji w próbie b0, b1 staramy się zbliżyć do współczynników regresji w populacji β0, β1, szacując ich prawdziwą wartość za pomocą współczynników obliczonych na próbie.

I tak na scenę wjeżdżają testy statystyczne.


Testowanie współczynników regresji i modelu

Podczas analiz wartości współczynników regresji, jakie widzimy w tabelach, są wartościami obliczonymi z udziałem wartości otrzymanych w próbie. Tymczasem badacz chciałby wyjść poza próbę i sprawdzić, czy wnioski wysnute na jej podstawie dają się przenieść na całą populację. Temu celowi służy testowanie statystyczne. Przybiera ono postać dwóch rodzajów testów: ogólnego testowania całego modelu - i ten test nazywa się testem ANOVA lub testem omnibus testowania każdego z osobna współczynników modelu. Pierwsze służy sprawdzeniu, czy całościowo model wyjaśnia zmienność zmiennej zależnej, a drugie - sprawdzeniu, który z predyktorów z osobna (co jest ważne, gdy mamy więcej niż jedną zmienną niezależną x w modelu).

Słowo omnibus oznacza dla wszystkich. W przypadku testu dla modelu regresji oznacza, że będą testowane wszystkie współczynniki regresji na jeden raz. Hipoteza zerową H0 jest postaci H0: β0 = β1 = β2 = … = βk = 0

Symboliczny zapis mówi trzy rzeczy. Po pierwsze, że w populacji prosta regresji jest prostą, która ma zerowe nachylenie względem osi OX, a to z kolei co oznacza, że predyktor nie ma w ogóle znaczenia i linia regresji dosłownie szoruje równolegle do osi OX, co widzieliśmy na tym rysunku KLIK.

Pamiętajmy, że poprzez próbę interesujemy się populacją, więc ta hipoteza mówi, że choć w próbie uzyskałeś jakieś niezerowe wyniki, to i tak w populacji wszystkie współczynniki regresji są równe zero.

Jeśli wszystkie współczynniki regresji miałyby być zerowe, to taki model byłby złym modelem - wcale nie uchwycałby zmienności zmiennej zależnej w populacji. Ten fakt można wyrazić zupełnie inaczej. Hipotezę zerową H0: β0 = β1 = β2 = … = βk = 0 można przekształcić do równoważnej formy H0: R2 = 0 gdzie R2 to współczynnik determinacji, o którym mówiliśmy przed chwilą KLIK, obliczony w populacji. W tej formie hipoteza zerowej, która mówi o tym, że model jest źle dopasowany do danych. Skoro R2 mówi o tym, ile zmienności zmiennej zależnej wyjaśnia model. Im bliżej jedynki, tym więcej (i tym lepiej dla modelu), im bliżej zera - tym mniej (i tym gorzej dla modelu). Jeśli w hipotezie zerowej napiszemy R2 = 0, to oznacza to, że zmienność zmiennej zależnej w całej populacji nie jest wyjaśniona ani trochę przez predyktory w modelu regresji


Wielkość efektu f2 w modelu regresji liniowej

Jak wiele zmienności zmiennej zależnej tłumaczy model regresji? Istotność statystyczna to tylko pewien wskaźnik statystyczny, który nie mówi o tym, jak dobry jest model a o tym, czy zgromadzone dane odpowiadają pewnej rzeczywistości kreowanej przez hipotezę zerową. Wynik istotny statystycznie lub nieistotny statystycznie nie jest jedynym wskaźnikiem.

Sposobem na to, jest obliczenie wielkości efektu f2, liczy się ją bezpośrednio ze współczynnika determinacji r2. Przy czym należy uważać na to, że w przypadku regresji liniowej prostej korzysta się ze zwykłego współczynnika determinacji r2. Skorygowany współczynnik determinacji r2skorygowane jest wykorzystywany, gdy mamy do czynienia z regresją liniową wielokrotną.

Obliczenie wielkości efektu f2 wymaga podstawienia do wzoru: f2 = r2/(1 - r2). Gdy r2 = 0,42, to f2 = 0,42/(1-0,42) = 1,38. Wartości odczytajnej z właściwej komórki tabeli 0,42 już nie podnosi się do kwadratu, ponieważ już jest w kwadracie.

PROGI WIELKOŚCI EFEKTU f2 — Wielkość efektu f2 to kolejna liczba. Kolejna liczba, którą trzeba interpretować - jak to robić? Najprostszym sposobem jest odwołać się do progów wielkości wielkości (tzw, benchmarków), które mówią, jaka wielkość efektu f2 jest mała, duża lub – umiarkowana.

W psychologii mamy do dyspozycji progi stworzone przez Jacoba Cohena, który ustalił, że f2 > 0.02 jest mała, f2> 0.15 jest umiarkowana, zaś f2 > 0.35 jest dużą wielkością efektu. Te f2, które są bliskie zeru, około do 0.02, to tzw. zaniedbywalne wielkości efektu.

Biorąc pod uwagę te progi, gdy f2 = 0,17, to badacz otrzymał umiarkowaną wielkość efektu, a gdy f2 = 0,01 to zaniedbywalną. Wartość 1,38 jest naprawdę duża. Czy możliwa? Tak, wielkość efektu f2 jest ograniczona tylko przez zero - może być dowolną, dodatnią liczbą.


Testy współczynników regresji liniowej

Oprócz testowania całego modelu poprzez porównanie wszystkich współczynników regresji do zera, można jeszcze sprawdzać każdego z nich z osobna - łącznie ze stałą. Testowanie pojedynczych predyktorów odbywa się w innej tabeli.

W każdym z wierszy tabeli współczynniki oddzielnie testowana jest hipoteza zerowa mówiąca o tym, że w populacji współczynnik regresji jest równy zero. Dlaczego to jest 0, a nie jakaś inna liczba? Zero świadczy o tym, że predyktor nie wnosi niczego do modelu, co ilustruje rysunek powyżej.

W pierwszym wierszu o nazwie (Stała) testowana jest hipoteza zerowa dla wyrazu wolnego w modelu. H0: β0 = 0.

W drugim wierszu, gdzie jest nazwa predyktora (tu: midparent), testowana jest hipoteza zerowa dla współczynnika regresji predyktora H0: β1 = 0.

Statystyka testowa w tym teście to statystyka znana z innego testu t-Studenta, dlatego w przedostatniej kolumnie widzimy literę t. Wartość statystyki testowej sama w sobie jest informacyjna - mówi o tym, czy nasz predyktor wyjaśnia zmienność zmiennej zależnej, wnosząc wkład do modelu. Wartości statystyki testowej t, które są blisko zero - znajdują się w przedziale od -1 do 1 - to wartości statystyki testowej t, które mówią o słabym predyktorze, który nie ma mocy wyjaśniającej zmienność zmiennej zależnej. Jeśli wartość statystyki testowej t znajdzie się poza tym przedziałem, to wówczas predyktor zaczyna uchwycać zmienność zmiennej zależnej. Biorąc pod uwagę fakt, że wartości statystyki testowej t są nieograniczone, im dalej od 0, tym lepiej.

Tu w tabelce mamy dwa predyktory: stałą i midparent. Wartość statystyki testowej współczynnika regresji dla stałej wynosi t = 5,142. To wartość powyżej 1, więc wyraz wolny należy włączyć do modelu. Wartość statystyki testowej współczynnika regresji dla predyktora midparent wynosi t = 10,360 można więc podejrzewać, że ten predyktor w pewnym stopniu wyjaśnia zmienność zmiennej zależnej.

ZAPIS WYNIKÓW ANALIZY REGRESJI ZGODNY Z APA — Zapis uwzględnia kilka informacji z tej tabeli: nazwa statystyki testowej i jej wartość a także p-wartość, czyli t(df) = …, p = … . Puste miejsca należy wypełnić cyferkami z tabeli. df w nawiasie oznacza liczbę stopni swobody, która w regresji liniowej jest liczbą osób badanych pomniejszoną o liczbę predyktorów w modelu. Tak się składa, że liczba predyktorów w regresji liniowej prostej wynosi zawsze 2 (bo jest to ta jedyna zmienna niezależna oraz wyraz wolny), więc od liczby obserwacji N zawsze będziemy odejmować dwa.

Liczba osób badanych to tutaj N = 898. Odejmując liczbę predyktorów od liczby osób badanych 898 - 2 otrzymujemy liczbę stopni swobody df = 896.

Zapis wyników z tej tabelki byłby następujący: dla stałej t(896) = 5,142; p < 0.001. A dla predyktora midparent t(896) = 10,360; p < 0.001. Oba wyniki testów są istotne statystycznie. Niestety, problem polega na tym, że nie mamy wielkości efektu, przez co ta istotność statystyczna może nie być tak miarodajna, jakby się chciało.


Beta, be itd. oraz standaryzowane beta β

Pamiętasz pewnie, że poziom próby i populacji odróżnialne są na podstawie używanych liter. Litery łacińskie najczęściej są stosowane w odniesieniu do próby - tak jak albo odchylenie standardowe s. Litery greckie są odnoszone do populacji, stąd mamy μ i σ. Ze współczynnikami regresji jest podobnie. Małe b to niestandaryzowany współczynnik regresji, jego wartość jest obliczona na próbie. Gdybyśmy chcieli wyrazić się o współczynniku regresji w populacji, musielibyśmy użyć greckiej litery beta, β.

Problem w tym, że w psychologii grecka litera beta służy również zapisowi standaryzowanego współczynnika regresji - tego, w którym do interpretacji wykorzystuje się odchylenia standardowe. Mamy zatem niefortunną kolizję oznaczeń - ten sam znaczek jest używany w dwóch różnych znaczenia. Na szczęście, nie powinno to dla nas stanowić dużego problemu. W naszym języku jest mnóstwo homofonów - słów, które brzmią tak samo, a mają różne znaczenia np. kąt/kont - mimo tego, radzimy sobie w komunikacji. Jak? Korzystając z kontekstu.

Tutaj też radzimy sobie poprzez kontekst - zwykle samo beta znajduje się w otoczeniu innych słów. Nieraz można spotkać zapis słowny: "w przeprowadzonym modelu regresji standaryzowany współczynnik beta wyniósł ,67".


Diagnostyka modelu regresji liniowej prostej

Kiedy już wyklikamy model regresji liniowej, napiszemy wzór regresji, ocenimy dobroć dopasowania modelu do danych, zinterpretujemy wartości współczynników regresji, przetestujemy te współczynniki, nadchodzi czas na kolejny krok, którego nie wykonuje się w takich metodach jak test t-Studenta, czy ANOVA - diagnostyka modelu regresji liniowej. Jest to odpowiedź na pytanie, czy model jest dobry i nadaje się zarówno do predykcji wartości zmiennej zależnej, czy też do wnioskowania o zjawisku.

Aby model był użyteczny a cyferki, które wyświetla SPSS - wiarygodne, musi spełniać pewne wymogi zwane założeniami (ang. assumptions). Różnią się one od założeń spotykanych w testach statystycznych. Tym razem nie chodzi o rozkłady zmiennej zależnej czy predyktora, a konstrukcji samego modelu.

BADANIE LINIOWOŚCI | Model regresji liniowej ma sens tylko wtedy, gdy związek między zmiennymi jest liniowy (mówiliśmy o tym wyżej). Jak to sprawdzić? W przypadku regresji liniowej bardzo prosto - za pomocą wykresu rozproszenia reszt regresji od wartości przewidywanych.

Diagnostyka modelu opiera się na resztach regresji. Jak już mówiliśmy, reszta regresji e to różnica między obserwacją y a jej predykcją ŷ. Im mniejsza reszta regresji, tym predykcja dokładniejsza. Powiedzieliśmy też, że reszt regresji jest tyle, ile obserwacji w bazie - model regresji powstaje na bazie obserwacji w bazie i dla każdej obserwacji można obliczyć resztę regresji. Reszty regresji to zwykłe liczby.

Więcej, są to liczby, które przed przeprowadzeniem badania nie są znane. Nie można znać reszty regresji przed wykonaniem analizy regresji, a analizy regresji nie można przeprowadzić zanim nie przeprowadzi się badania. Skutkiem tego jest ich losowa natura, są zmienną losową. Pamiętaj - jeśli coś jest losowe, to znaczy, że ma rozkład.

NORMALNOŚĆ | Skoro reszty regresji są losowymi liczbami, to nagle sensownym pytaniem staje się pytanie o ich rozkład. I tu dochodzimy do jednego z założeń modelu: żądamy normalności rozkładu reszt regresji. Pamiętajmy, że reszta regresji to inaczej błąd regresji. Nikt nie chce mylić się we wnioskach dokonywanych na podstawie modelu regresji, dlatego nic dziwnego, że chcemy, aby były one jak najmniejszy, a najlepiej zerowe. Innymi słowami, dobry model regresji to taki, w którym najczęstszą wartością reszty regresji jest zero, a im wyższa niezerowa wartość, tym rzadsza. Częstość występowania tych błędów w prawidłowym modelu regresji opisuje krzywa Gaussa. Wygląda na to, że powinniśmy przeprowadzić diagnostykę normalności reszt regresji.

HOMOSKEDASTYCZNOŚĆ | Od reszt regresji oczekuje się jeszcze czegoś. Mogłaś o tym słyszeć pod nazwą homoskedastyczności lub homoscedastyczności. O co w tym chodzi? Aby stopień rozproszenia błędów był jednakowy dla wszystkich obserwacji.

Regresja jest tylko modelem, który powstaje na podstawie konkretnego zbioru danych. Dla większości obserwacji, które wzięły udział w jego budowaniu, przewidywania tego modelu nie będą idealne, co jak wiemy objawia się niezerowymi resztami. W poprzednim akapicie ustaliliśmy, że średnio rzecz ujmując, reszty regresji mają być równe zero oraz być jak najmniejsze, duża reszta ma pojawiać się rzadko, a im większa, tym rzadziej. Tym razem zażądamy, aby model regresji mylił jednakowo dla wszystkich obserwacji. Tym właśnie jest homoskedastyczność wariancji.

Homoskedastyczność to słowo greckiego pochodzenia, które oznacza jednakowo + rozproszone (homo + skedastic) - i takie wykresy powinniśmy zobaczyć.

Wykres służący do identyfikacji homoskedastyczności reszt regresji (bądź jej braku, czyli heteroskedastyczności) otrzymuje się, układając na osi poziomej wartości przewidywane ŷ, a na osi pionowej reszty regresji e. Poniższe dwa wykresy pokazują zarówno homoskedastyczność (po lewej) i heteroskedastyczność (po prawej).

Lewy wykres ilustruje homoskedastyczność reszt regresji. Model myli się jednakowo dla niskich wartości predyktora, jak i dla wysokich wartości a punkty są bezładnie rozproszone po białym polu.

Prawy wykres ilustruje heteroskedastyczność reszt regresji. Form heteroskedastyczności jest bardzo wiele, dlatego rysunek, który tu widać, nie wyczerpuje tego zjawiska nawet w 1%. Za to wszystkie wykresy będą miały jedną cechę wspólną - wzorzec, w jaki będą układać się punkty wykresu. Na przykład na tym wykresie punkty układają się w literę U. Oznacza to, że model dla niskich i wysokich wyników przeszacowuje, a dla umiarkowanych - niedoszacowuje przewidywanej wartości.


Mechanika regresji liniowej - sumy kwadratów SST, SSR i SSE

Jak działa mechanizm regresji liniowej? Jak wyznaczyć linię, która przetnie chmurę punktów, oddając jej kształt przy jednoczesnej minimalizacji reszty regresji? W tym celu bada się tzw. sumy kwadratów. Choć nazwa brzmi magicznie nie chodzi o geometryczne figury mające boki równej długości a o podnoszenie do drugiej potęgi, jak np. 22 = 4 albo 32 = 9. Chodzi o podnoszenie do drugiej potęgi (czyli mnożenie liczby przez nią samą).

CAŁKOWITA SUMA KWADRATÓW, SST | Zacznijmy od początku. W bazie istnieje kolumna z wynikami osób badanych, którą nazywamy zmienną zależną. Wyniki osób badanych są różne. Profesjonalnie mówiąc, wartości zmiennej wykazują zróżnicowanie czy też zmienność. Ten fakt należy matematycznie opisać. Jak to zrobić? Najlepiej za pomocą jednej liczby. Jak zatem skonstruować taką liczbę, która przecież zredukowałaby całą kolumnę do jednej wartości? I tu pojawia się niezły pomysł - zobaczymy go w trzech krokach.

1. Najpierw policzymy średnią arytmetyczną dla zmiennej zależnej. To ważne - wyjaśniamy zmienność wartości zmiennej zależnej, a nie predyktora, dlatego interesuje nas średnia arytmetyczna zmiennej zależnej. Oznaczymy ją poprzez igrek z kreską ŷ. Pamiętaj, kreska nad małą literą oznacza, że liczymy średnią arytmetyczną tej zmiennej - nieważne, że zamiast x pojawia się y. Na poniższym rysunku średnia arytmetyczna ŷ to ta pozioma linia (na rysunku która zresztą podpisana).

2. Następnie zbadamy to, jak daleko od średniej leży każda z wartości. Oczywiście, część z nich będzie leżeć blisko średniej, część - bliżej, a jeszcze inne wartości zmiennej zależnej mogą być równe średniej arytmetycznej. Jak mierzyć odległość otrzymanej wartości od średniej arytmetycznej? Najzwyczajniej w świecie różnicą między wartościami. Wykorzystamy umiejętność odejmowania i od każdej otrzymanej wartości odejmiemy średnią arytmetyczną.

Naturalnie, część tych różnic będzie dodatnia, część ujemna, ponieważ część otrzymanych wartości jest wyższa od średniej, a część - niższa. Warto pamiętać, że ponieważ czynność odejmowania wykonujemy dla każdej obserwacji, to tych różnic będzie tyle, ile obserwacji w bazie. W statystyce, o różnicach otrzymanych wartości od średniej mówi się o jako o odchyleniach wartości od średniej arytmetycznej.

Kolejnym pomysłem byłoby je dodać do siebie. Jednak to nie jest najlepszy pomysł z uwagi na bardzo charakterystyczną cechę średniej arytmetycznej. Średnia arytmetyczna jest przedstawiana jako najbardziej typowy reprezentant zbiory danych. Technicznie rzecz biorąc, jest punktem równowagi między obserwacjami od niej wyższym, a niższymi. Gdyby zsumować różnice dodatnie i ujemne między nią a pozostałymi obserwacjami, to suma wszystkich odchyleń będzie równa zero. Pomysł sumowania nie jest zły, ale najpierw trzeba każdą różnicę podnieść do kwadratu. W ten sposób znikną wartości ujemne, a te, które były ujemne staną się dodatnie. Podnoszenie do kwadratu ma tę zaletę, że wyostrza odległości między obserwacją a średnią. Te, które są małe, robią się jeszcze mniejsze (np. ½2 = ¼). Te, które są duże - jeszcze większe (22 = 4).

Poradziliśmy sobie z automatycznym zerowaniem, ale jeszcze nie zredukowaliśmy ilości danych - powstało tyle samo różnic od średnich, ile jest wartości w bazie. Jak temu zaradzić?

3. Teraz dzieje się najbardziej doniosła rzecz w tym całym procesie. Zsumujemy podniesione do kwadratu różnice - czy odległości - między obserwacjami a średnią. Otrzymamy w ten sposób jedną liczbę, zawsze dodatnią, która jest miarą zmienności obserwacji zmiennej zależnej. Tę miarę nazywa się całkowitą sumą kwadratów i zapisuje się ją jako SST (ang. total sum of squares). Jest to miara zmienności zmiennej zależnej zawarta w zbiorze danych. Zauważ, że ta miara jest bardzo podobna do odchylenia standardowego. Różni się od niego tylko tym, że nie podzielono przez liczbę obserwacji w bazie.

Teraz zastanowimy się nad tym, ile zmienności zmiennej zależnej wyjaśnia model regresji oraz nad tym, ile nie wyjaśnia.

REGRESYJNA SUMA KWADRATÓW, SSR | Każda różnica między wartością otrzymanej obserwacji y a średnią arytmetyczną jest tak naprawdę odległością, jaką trzeba pokonać, idąc od średniej w kierunku otrzymanej wartości y. Tę odległość można rozbić na sumę dwóch części, zupełnie tak jakby po drodze był przystanek - tym przystankiem jest wartość przewidywana ŷ. Od średniej arytmetycznej zmiennej zależnej  do wartości przewidywanej ŷ oraz od predykcji ŷ do otrzymanej wartości tej obserwacji y.

Zmienność wyjaśniana przez model regresji to te fragmenty odległości, jakie dzielą średnią arytmetyczną od predykcji ŷ. Różnice podnosi się znów do kwadratu, a następnie dodaje. Powstaje wówczas znów jedna liczba, która nazywa się regresyjną sumą kwadratów i zapisuje się ją jako SSR (ang. regression sum of squares). SSR jest miarą mocy predykcyjnej modelu - tym, ile zmienności zmiennej zależnej uchwyca model regresji.

Gdyby wszystkie punkty znajdowały się na linii regresji, to miałyby miejsce trzy zjawiska. Po pierwsze: model regresji w 100% wyjaśniałby zmienność zmiennej zależnej. Po drugie: wartości przewidywane ŷ byłyby równe wartościom otrzymanym y. Po trzecie, nie byłoby błędów regresji (reszt regresji), dla każdej wartości otrzymanej, reszta regresji wynosiłaby zero e = 0.

SUMA KWADRATÓW BŁĘDÓW, SSE | Modele, które wyjaśniałyby w 100% zmienności zmiennej zależnej są tak rzadkie jak jednorożce. Najczęściej bywa tak, że część punktów odchyla się od prostej regresji, sygnalizując, że są jeszcze inne czynniki, które wywołują zmienność zmiennej zależnej, a które model regresji liniowej jest w stanie uchwycić.

Odległości punktów do prostej regresji to właśnie reszty regresji e, o których już mówiliśmy wyżej. Reszta regresji e to po prostu różnica między wartością otrzymaną y a przewidywaną ŷ. Wynosi ona zero, gdy wartości są tożsame, bo e = y - ŷ i gdy y = ŷ, to e = 0. W takim przypadku model nie mylił się w przewidywaniu i predykcja jest w sto procentach zgodna z rzeczywistością.

I tutaj również powtarza się rozumowanie z poprzednich sum kwadratów (całkowitej i regresyjnej). Reszty regresji e podnosi się do kwadratu i sumuje. Powstaje wówczas jedna liczba, która nazywa się sumą kwadratów błędów i zapisuje się ją jako SSE (ang. error sum of squares).

Algorytm programu do analizy danych tak prowadzi linię regresji przez chmurę punktów, że zminimalizować reszty regresji, dlatego mówi się o minimalizacji reszt czy minimalizacji sumy kwadaratów błędów. Prosta przechodząca przez wykres rozproszenia powstaje metodą minimalizacji reszt regresji podniesionych do kwadratu, dlatego otrzymała nazwę prostej MNK (metoda najmniejszych kwadratów). Sztuka w analizie regresji jest tak tę prostą, aby zminimalizować te reszty.

Mówi się, że prosta MNK minimalizuje reszty regresji. W tym sformułowaniu ważne jest słowo: ”minimalizuje”. Użyto właśnie tego słowa, a nie “zeruje”, ponieważ szukając tej dobroci dopasowania prostej do punktów, zapomina się o dobru jednostki, a szuka się dobra całej wspólnoty punktów. Linia regresji oddaje średnio dobrze dla wszystkich, to oznacza, że będą zdarzać się punkty, które dalej leżą od prostej, mające duży błąd predykcji - dużą resztę regresji. Co więcej, reszty regresji mogą być dodatnie i ujemne a ich zachowanie wiele mówi o jakości modelu regresji liniowej (zob. diagnostykę modelu KLIK).

8 komentarzy:

Unknown pisze...

Wszystko bardzo fajnie i bardzo ładnie opisane i zilustorwane, wielkie dzięki!
Kołacze mi się jednak pytanie- w zasadzie jak model liniowy różni się w takim razie od korelacji liniowej...?

Unknown pisze...

Bardzo Ci dziękuję. Tak się składa, że siedziałem nad metodologią Brzezińskiego łapiąc się za głowę, jednak informacje przez Ciebie udostępnione bardzo mi pomogły przybliżyć się do tematu i zobaczyć, że to tylko tak strasznie wygląda na pierwszy rzut oka. Bardzo przystępne, bardzo dziękuję jeszcze raz ;)

Lilianna Jarmakowska-Kostrzanowska pisze...

Cześć! Wielkie dziękuję za miłe słowa :-) Bardzo cieszę się, że komuś przydają się moje posty. Ps. Pamiętam metodologię Brzezińskiego :-)

Jakub pisze...

Szukałem i nie znalazłem lepiej tłumaczonej statystyki. Niestety matematycy są w tej kwestii trochę jak księgowi – zamiast po prostu wytłumaczyć podatek, zaczynają zatapiać się w jego zmiany w czasie, wszystkie podstawy prawne, na jakich on obowiązuje, nie odchodzą ani na chwilę od języka, w jakim prawo podatkowe jest pisane, nie powiedzą, że PDOF to jest PIT… Nie mówiąc już o oderwaniu od praktyki, sporo czasu zajęło mi znalezienie informacji, jak i gdzie zrobić przelew podatkowy, tak jakby PIT albo regresja liniowa to były jakieś w pełni abstrakcyjne twory, bez oparcia w rzeczywistości. A przecież, że tak powiem trochę poetycko, do wybudowania gmachu wiedzy trzeba najpierw wznieść rusztowanie – wytłumaczyć jak krowie na rowie, żeby ten student miał do czego odnieść te wszystkie wyjątki czy głębszą teorię. Ten blog z całą pewnością dostarcza mi tego rusztowania. Dziękuję.

Lilianna Jarmakowska-Kostrzanowska pisze...


Dzień dobry! Bardzo cieszę się, że to, jak piszę spodobało się :-) To prawda, czasem lepiej pominąć zawiłości i zbudować rusztowanie, a potem dosztukowywać ornamenty ;-) dobrego dnia!!

Anonimowy pisze...

Mam pytanie, czy możliwe jest aby b było ujemne a beta +? A jeśli tak to jak to interpretować?

Anonimowy pisze...

Strasznie dużo tutaj błędów. Formuła gdzie jedna zmienna jest zależna od drugiej to po prostu funkcja. Kombinacja liniowa dotyczy wektorów. Co więcej wyrażenie F=ma nie jest funkcją, wyraża ono zależność pomiędzy wielkościami fizycznymi. Sama Pani napisała, że funkcja linowa opisana jest wzorem y=ax+b, to gdzie tu x? W fizyce a jest oznaczeniem przyspieszenia. Dodatkowo ,,e=0" jest stwierdzeniem błędnym. W matematyce e jest stałą wartością. To tak jakby stwierdzić, że 10=2. Rozumiem, że wpis dotyczy ,,statystyki w psychologii" natomiast dalej dotyczy statystyki, która jest ściśle powiązana z matematyką. Używając sformułowań matematycznych może jednak warto byłoby aby były zgodne z tym co zakłada ta nauka?

Lilianna Jarmakowska-Kostrzanowska pisze...

Dzięki za przeczytanie🙂
W nauce litera e ma wiele znaczeń. Obok tego, że oznacza liczbę Nepera (albo Eulera), jak Anonimowy czytelnik zauważa, to równie dobrze może oznaczać, że jest mowa o dodatku do żywności :) W statystyce jest to m.in. oznaczenie reszty regresji, dlatego w poście wyjaśniłam, że chodzi właśnie o takie rozumienie tej liczby, aby nikt nie pomylił ze stałą wartością.