Regresja liniowa - wprowadzenie do modelu na przykładzie regresji prostej (jednokrotnej)


W tym poście dowiesz się:
- Do czego służą modele w statystyce
- Jaka jest różnica między regresją a korelacją ?
- Co to jest regresja liniowa prosta?
- Dlaczego regresja liniowa jest liniowa ?
- Powtórzymy wiedzę z liceum .
- Zobaczymy, jak otrzymać współczynniki regresji w kilku obrazkowych krokach.
- Jaka jest interpretacja współczynników regresji liniowej prostej?
- Zobaczymy, jak wygląda prosta regresji gdy współczynnik jest dodatni lub ujemny .
- DIY: Zrób sobie regresję w SPSS .
- Poznamy nazewnictwo w regresji: zmienna zależna i niezależna. Regresja y na x.
- Poznamy związek między prostą MNK oraz modelem regresji liniowej.
- Ogarniemy notację , czyli zapis współczynników regresji...
- ... a także reszta regresji czy obserwacja przewidywana ŷ .
- Sprawdzimy jakie są testy istotności statystycznej wspólczynników regresji.
- Czym różnią się standaryzowane współczynniki regresji od niestandaryzowanych?
- Czy istnieje takie słowo jak predyk-A-tor ?
- Na koniec poznasz historię pojęcia regresji i skąd wzięła się ta metoda.
- Bardzo krótkie podsumowanie tu: TLDR



Wprowadzenie - z czym połączyć regresję liniową?
Co można robić w statystyce? Można opisywać zebraną próbę (i do tego służą narzędzia statystyki opisowej, np. średnia), można wyciągać wnioski o populacjach (i do tego mamy testowanie hipotez), można też budować modele zjawisk (i o tym będzie ten post).
W statystyce prawdopodobnie najprostszy model ze wszystkich modeli to model regresji liniowej i o tym jest ten post, a w zasadzie dwa posty. Materiału jest na tyle dużo, że artykuł o regresji liniowej podzieliłam na dwie części. W pierwszej, którą masz przed sobą, opowiem o regresji liniowej prostej (simple regression), w drugiej będzie o regresji liniowej wielokrotnej.
W pierwszym poście przedstawię sposób wykonywania regresji liniowej, co zwykle robią programy statystyczne, np. SPSS, ale warto raz w życiu zobaczyć na własne oczy, co dzieje się w elektronicznych bebechach i najłatwiej to zrobić, gdy są dwie zmienne. Zobaczysz, że wiedza z liceum znajduje zastosowanie w statystyce. Będziemy zajmować się związkiem pomiędzy dwoma zmiennymi, niżej znajdziesz to, jak nazywamy te zmienne w regresji liniowej. Zrobimy analizę regresji prostą w SPSS-ie.
W drugim poście znajdziesz informacje o tym, jak przeprowadzić model regresji liniowej, gdy mamy więcej zmiennych, o założeniach regresji liniowej, o diagnostyce modelu, o standaryzacji współczynników beta. (jeszcze w budowie! dn. 6.01.2019).
Modele w statystyce.
Najpierw opowiem, co to takiego ten model.
Cóż, model to model. Model to pewien sposób odwzorowania rzeczywistości. W różnych dziedzinach nauki spotykamy różne modele, dzięki którym działa nasza rzeczywistość, mamy prąd w gniazdkach, jeździmy samochodami i sprawdzamy pogodę.
Bardzo ładnym modelem, choć dzisiaj już nieaktualnym, jest model budowy atomu Bohra, który porównuje jądro atomu i biegające wokół niego elektrony do układu słonecznego ze słońcem i planetami.
W psychologii mamy również modele np. poznawczy model fobii. W naszym umyśle również sobie tworzymy modele otaczającej rzeczywistości. I na tym tyle o modelu. W moim modelu tego posta nie ma więcej materiału o modelach :-)

Różnica między regresją a korelacją
Regresja tym różni się od korelacji, że pozwala na przewidywanie wartości zmiennej zależnej dla nowych obserwacji, które nie brały udziału w szacowaniu współczynników regresji. Model pozwala podać wartość zmiennej wynikowej dla zupełnie nowej osoby. Korelacja zaś umożliwiała ocenę siły związku między zmiennymi.
Z wiedzy, że korelacja między Samooceną a Lękiem jest około 0.7 jeszcze nic nie wynika dla kolejnych obserwacji. Powiedzmy, że mamy badanego, który uzyskał wynik w skali Samoceny mierzonej kwestionariuszem Rosenberga RSES równy 29 punków. Na ile punktów w kwestionariuszu Lęku to się przekłada? Nie wiadomo, możemy tylko zgadywać, że dużo.
Gdybyśmy mieli model, choćby najprostszy, np. Lęk = 2·Samoocena + 10, moglibyśmy już powiedzieć, że dla osoby z wynikiem 29 w skali Samooceny przewiduje się 68 punktów (2·29 + 10) w skali Lęku.

Co to jest regresja liniowa prosta?
W najprostszej wersji, czyli w regresji prostej mamy dwie zmienne: jedna jest zmienną niezależną (domyślnie jest x), a druga jest zmienną zależną (domyślnie jest y). Więcej na temat nomenklatury znajdziesz niżej, na razie tyle wystarczy.
Oczywiście, można model stworzyć dla większej liczby zmiennych niezależnych i zazwyczaj tak się robi, ale tutaj ograniczymy się do regresji liniowej prostej (jednego x i jednego y). O regresji wielokrotnej (dla wielu iksów) jest post 2.0.
Regresja liniowa jest modelem, dzięki któremu możemy wyrazić to, jak zmienia się jedna zmienna pod wpływem zmian w drugiej zmiennej. Wiemy też, jaki będzie jaki charakter tych zmian - liniowy!

Dlaczego regresja liniowa jest liniowa?
Dlatego, że zakładamy (a potem badamy), że związek między dwiema zmiennymi jest liniowy. Co to oznacza? To oznacza, że jedna zmienna jest otrzymana w wyniku przemnożenia drugiej zmiennej i dodawania jakiejś liczby... To oznacza przyrostowi jednej zmiennej odpowiada stały przyrost drugiej zmiennej... To oznacza, że jeśli dodasz trzy razy więcej składników, to otrzymasz trzy razy więcej ciasta... To oznacza, że jeśli dwa i pół raza więcej płacą, to i kserowy, i prezes dostanie dwa i pół raza większą wypłatę...

Dalej o regresji liniowej prostej - powtórka z liceum.
Kiedy mamy co najmniej dwie zmienne, to możemy założyć że coś je łączy i to coś spróbować jakoś ująć w bardziej namacalne ramy. Na przykład w starą dobrą funkcję liniową, z czasów liceum... Pamiętasz?
y = a·x + b
gdzie a to współczynnik kierunkowy, a b to wyraz wolny. Na przykład y=x+1 To była klasyka funkcji liniowej.



Teraz robimy to samo, tylko nie mamy punktów idealnie wzdłuż prostej a kleksa rozsypanych punktów na kartce.
Technicznie rzecz biorąc, trzeba przez tę chmurę punktów poprowadzić prostą i zrobić to rozsądnie.
Co to znaczy rozsądnie? To oznacza, że - jak najlepiej opisać zmienność. Jak najlepiej oddać charakter chmury obserwacji.

Jak znajduje się taką prostą? W liceum trzeba było podać te współczynniki a i b. Jeśli będziemy mieć konkretne a i b, to będziemy mogli napisać wzór na prostą np. y = 2.5·x + 10 albo y = -3.21·x + 23.

W analizie regresji jest bardzo podobnie - celem jest wyznaczyć właśnie taki wzór. Jedna rzecz jest inna: punkty nie leżą idealnie na prostej.
Druga rzecz jest pozornie inna, ale to tylko wrażenie - w liceum współczynnik kierunkowy był oznaczany małą literą a. W regresji są to b z indeksami dolnymi. Dawne a (współczynnik kierunkowy) staje się b1, a dawne b (wyraz wolny) jest teraz b0. To jest tylko zmiana zapisu.

Jak otrzymujemy współczynniki regresji liniowej? Metoda najmniejszych kwadratów (MNK).
W liceum było tak, że gdy mamy punkty leżące na proste, to bierzemy dwa z nich i stosujemy wzór (do znalezienia w każdych tablicach matematycznych z liceum)
Gdy punkty są rozproszone, to nie możemy wziąć dowolnych dwóch punktów, lecz musimy odwołać się do czegoś innego.
Podstawową i najstarszą metodą obliczania współczynników regresji liniowej jest metoda zaproponowana przez Gaussa zwana metodą najmniejszych kwadratów (MNK). Ta metoda jest stosowana do dzisiaj i polega na minimalizacji sumy kwadratów odległości wszystkich punktów od szukanej prostej.
A niżej wyjaśnię, co przed chwilą napisałam. Raz w życiu dobrze jest zobaczyć, co tam się dzieje w brzuchu komputera, choćby tylko dla pomasowania mózgu.

Krótka historia powstawania prostej MNK w obrazkach.
1. Mamy kilka rozproszonych punktów (zwanych też po prostu obserwacjami). Trzeba poprowadzić prostą przeszywającą zbiór obserwacji.

2. Prowadzimy prostą (na razie dowolną), która jako-tako oddaje charakter tej chmury punktów. Zobaczymy, co będzie się działo dalej.


3. Następnie badamy odległości punktów od prostej, ale zrobimy to w szczególny sposób: intuicyjnie powinniśmy zrobić najkrótszą odległość, ale nas będzie interesować odległość wzdłuż pionowej osi OY.


Zielone kreski to odległość obserwacji od jej odpowiednika na prostej.

4. Dla porównania narysujemy też inną prostą. Inna prosta to inne odległości punktów do prostej. To ważne.




5. Porównanie skończone - wracamy do naszej prostej. Skoro była mowa o kwadratach odległości, to podnosimy zielone kreseczki do kwadratu.


Te, które były większe od 1 są jeszcze dłuższe. Te które były mniejsze od 1 są jeszcze krótsze. To dlatego nie widzisz (albo widzisz zielone punkciki) w lewym, górnym rogu.

6. Po podniesieniu do kwadratu każdej z osobna odległości należy je połączyć w jedno, czyli zsumować. Powstanie wtedy jeden długi pasek oznaczający sumę kwadratów odległości punktów.


7. Znowu porównujemy: pamiętacie inną prostą z punktu 4? Dolny pasek odpowiada sumie kwadratów odległości punktów od właśnie tej prostej. Górny pasek to suma kwadratów odległości punktów od omawianej. Który jest mniejszy?


To jest celem metody najmniejszej kwadratów - znaleźć taką prostą, dla której suma kwadratów jest najmniejsza. Co wizualnie przekłada się na najkrótszy zielony pas.
Koniec.

Interpretacja współczynników regresji liniowej.
Skoro z technicznego punktu widzenia, regresja liniowa jest bardzo podobna do tego, co robimy w liceum (funkcja liniowa i okolice), to interpretacja współczynników regresji liniowej powinna być bardzo podobna do interpretacji współczynnika kierunkowego dla funkcji liniowej f(x) = a·x+b, gdzie a jest współczynnikiem kierunkowym, natomiast b jest wyrazem wolnym. W liceum szło to tak:
jeśli współczynnik kierunkowy jest dodatni, to wraz ze wzrostem wartości x (oś pozioma) rosną wartości y (oś pionowa). Jeśli współczynnik kierunkowy jest ujemny, to wraz ze wzrostem wartości x maleją wartości y.
Więc moglibyśmy sobie pomyśleć, że sprawy miałyby się tak samo dla regresji liniowej: jeśli współczynnik regresji beta ma wartość dodatnią, to oznacza to, że wzrostowi zmiennej niezależnej X towarzyszy wzrost wartości zmiennej zależnej Y. Podobnie z ujemnym współczynnikiem regresji liniowej beta: Jeśli przyjmuje wartość ujemną (mniejszą niż zero), to wraz ze wzrostem wartości zmiennej niezależnej X maleją wartości zmiennej zależnej Y (zobacz niżej).
I tak można spotkać w wielu podręcznikach, opracowaniach, skryptach, w Internecie i nie w Internecie.

Ale to nie jest dobra interpretacja. Regresja liniowa jest starszą siostrą korelacji i dziedziczy po niej ograniczenia interpretacyjne. Tak nie możesz powiedzieć, że wraz z liczbą parasolek na mieście, rośnie liczba litrów deszczu, tak nie można powiedzieć, że wzrost wartości jednej zmiennej pociąga za sobą wzrost wartości drugiej zmiennej.
Możesz powiedzieć to w nieco bardziej sztywny sposób: wysokim wartościom jednej zmienną odpowiadają (lub bardziej poetycko: towarzyszą) wysokie wartośi drugiej zmiennej. Dużej liczbie parasolek na mieście odpowiada poważność (?) deszczu. Nie wiem, czy można tak powiedzieć:"poważność deszczu" (najchętniej napisałabym: rain's severity).

Drugi poprawny sposób opiera się na porównaniu dwóch hipotetycznych osób, które różnią się o jednostkę w zmiennej niezależnej. Patrzymy na to o ile różnią się w wartościach Y, jeśli w zmiennej niezależnej różnią się o jeden punkt.
Na przykład Asia ma 7 punktów w skali Nieśmiałości, a Iza ma 8 punktów tej samej skali, to różnią się o jednostkę w tej skali, prawda? 8-7=1. Jeśli prosta regresji ma wzór y = 1.94·x + 3 a y oznacza Samoocenę*, to można powiedzieć, że spodziewamy się 1.94 różnicy między dziewczynami w skali Samooceny. Dlaczego? Bo Asia i Iza różnią się o jednostkę w zmiennej niezależnej x, a my na tej podstawie określamy o ile wzrośnie (lub spadnie - zależnie od znaku plus/minus) wartość zmiennej zależnej y.
Można to napisać tak: Samoocena = 1.94·Nieśmiałość + 3

Współczynnik regresji liniowej b stojący przy zmiennej zależnej x w równaniu y=b·x+b0 jest nachyleniem prostej regresji do osi poziomej OX i pokazuje, o ile zmieni się zmienna zależna Y jeśli zmienna niezależna X wzrośnie o jednostkę (czyli o 1).

Wyraz wolny to sytuacja wyjściowa, gdy wartość zmienna niezależna jest równa zero (bo y = a·0+b=b). Ale uprzedzam: czasami trudno go interpretować, zwłaszcza gdy zmienna niezależna x nie przyjmuje zerowych wartości, np. wyżej wspomniana Nieśmiałość

Jak wyglądają malejące i rosnące beta?
Warto zobaczyć, jak wygląda prosta regresji, gdy współczynnik regresji b stojący przy zmiennej niezależnej x jest dodatni (rysunek po lewej stronie) lub ujemny (rysunek po prawej stronie).
Ryc. 7. Funkcja rosnąca i malejąca.

DIY: Zrób sobie regresję liniową PROSTĄ w SPSS-ie

1. Baza danych
Najpierw zobaczmy, jak wygląda nasza baza danych. Jest to trójkolumnowa ramka danych. Pierwsza kolumna to Liczba porządkowa. X to zmienna ilościowa, która będzie naszą zmienną niezależną. Y to również zmienna ilościowa, będąca naszą zmienną zależną.


2. Wybór analizy regresji
Teraz przechodzimy do wskazania SPSS-owi, jak wykonać analizę regresji. Wybieramy z Analizy->Regresję i z rozwijanego menu wskazujemy na jej rodzaj: liniowa. To, że będzie to regresja liniowa prosta będzie wynikać z liczby wybranych zmiennych niezależnych (czyli jedna zmienna niezależna).


3. Wskazanie, która zmienna jest zależną, a która niezależną.
W Okienku Regresja liniowa pokazujemy, że y to zmienna zależna. A x to zmienna niezależna.



4. Wyniki cz.1
Oglądamy 'wyplute' przez SPSS tabelki.



5. Wyniki cz.2


Widocznym efektem analizy regresji liniowej jest wzór na prostą regresji. Tutaj jest to y = 1,94 · x + 3,10. Uwaga, części dziesiętne/setne w Polsce piszemy po przecinku. W krajach anglosaskich - po kropce.
Wiemy, że wraz ze wzrostem zmiennej niezależnej x o 1 punkt, można zaobserwować wzrost zmiennej zależnej o 1,94 · 1 = 1.94 punktów (prawie dwa). 

Nomenklatura: zmienna zależna i niezależna. Regresja y na x.
Wygląda to tak: mamy jedną zmienną zależną Y, zwaną też zmienną wynikową (outcome variable). Mamy jedną zmienną niezależną X, zwaną też predyktorem.
W regresji liniowej może, ale nie musi - podkreślam, nie musi - łączyć je związek przyczynowo-skutkowy.
W zasadzie moglibyśmy posługiwać się tylko terminami zmienna wynikowa i predyktor, aby nie narażać się na pomieszanie pojęć niezależności probabilistycznej i niezależności metodologicznej.
Co robi się z regresją? Robimy regresję y na x, jeśli chcemy powiedzieć, że y jest zmienną wynikową (zależną), a x jest zmienną niezależną.

Prosta MNK oraz model regresji liniowej.
Do tej pory po prostu zajmowaliśmy się zadaniem wyznaczenia prostej, która przechodzi przez chmurę punktów, która to jak najlepiej oddaje charakter tejże chmury punktów. Teraz to trochę uporządkujemy, bo w poście o regresji liniowej pojawią się takie pojęcia, jak błędy, rezydua itp.

Szukanie prostej o wzorze y = b1·x + b0 jest szacowaniem wartości pewnych zmiennych losowych. Gdzie te zmienne losowe? Hmm, spójrzmy na to w ten sposób: Przecież nawet jeśli wykonujemy to samo badanie, to z próby na próbę te współczynniki mogą zmieniać się. Wychodzi na to, że współczynniki regresji są zmiennymi losowymi. W związku z tym tak naprawdę model regresji musi uwzględnić zarówno losowość tych współczynników regresji, jak to, że możemy popełniać jakieś błędy. Uwaga - przechodzimy do krainy abstrakcji.

Model regresji liniowej prostej przedstawia się w ten sposób:
Y = β1·x + β0 + ε
gdzie β1 oraz β0 oraz ε to zmienne losowe. Współczynniki regresji w modelu regresji  to β0 oraz β1. Natomiast ε (czyt. epsilon) to tzw. błędy regresji (o tym niżej, przy igrekach przewidywanych).

Prosta MNK, o której mowa w tym poście, jest realizacją modelu regresji.
Różnica jest widoczna choćby w zapisie: prosta MNK jest y=b1·x+b0, a model regresji to Y=β1·x+β0+ε. Prosta MNK jest namacalnym oszacowaniem abstrakcyjnego, matematycznego modelu regresji liniowej.
Trzeba na to uważać, bo czasami skleja się to w jedno.
Skoro współczynniki regresji są zmiennymi losowymi, to po pierwsze posiadają wartość oczekiwaną oraz odchylenie standardowe. A więc można je standaryzować (o tym będzie dalej).
Notacja: be i β
Jest jeszcze jedna rzecz jaką chciałabym poruszyć - notacja, czyli zapis współczynników regresji. Są β (beta) oraz małe b i duże B. Jedno i drugie odnosi się współczynników regresji, ale - jak zauważyłam - są dwa sposoby rozumienia tego zapisu.

Dla badaczy nauk społecznych beta (greckie β) oznacza standaryzowany współczynnik regresji, natomiast B (po prostu be, jak w abecadle) oznacza niestandaryzowany współczynnik regresji. To nieco koliduje z matematycznym zapisem abstrakcyjnego modelu regresji Y = β1·x + β0 + ε.  Tutaj, greckimi literami β1 oraz β0 zaznaczono to, że współczynniki regresji są zmiennymi losowymi. Na matematyce w ogóle nie zawracaliśmy sobie głowy standaryzacją - ona jest bardziej potrzebna badaczom-praktykom.

Warto o tym pamiętać, że powstały kolizje oznaczeń, które powodują zamieszanie przy dobrych chęciach poznania zagadnienia regresji. Powtórzę to jeszcze w podsumowaniu TL;DR.

Reszty, wartości przewidywane, wartości obserwowane
Obok nazewnictwa i notacji w regresji liniowej pojawiają się dodatkowe pojęcia takie jak reszta (lub błąd), wartość przewidywana i obserwowana. Te obiekty też mają swoją notację, najpierw jednak odpowiemy sobie na pytanie, o to skąd to się bierze?
Kiedy mamy bazę danych, to obecne w niej obserwacje są nazywane obserwacjami obserwowanymi - trochę taka niezręczność językowa, ale lepiej tego nie oddam.

Kiedy budujemy model, to na jego podstawie będziemy przewidywać obserwacje ŷ.
Na prostej regresji leżą właśnie obserwacje przewidywane. W przypadku niektórych punktów, przewidywania są tak trafne, że przewidywanie zgadza się z obserwacją, wtedy y=ŷ.
Skoro mamy dwie wartości: obserwowaną i przewidywaną, to możemy obliczyć jak dobre jest dopasowanie prostej do chmury punktów, czyli odjąć te dwa obiekty: wtedy dostajemy tzw. resztę regresji (czasem zwaną błędem).
To wszystko ilustruje rycina poniżej:

Testowanie istotności statystycznej współczynników regresji.
Jakimś (piszę jakimś bo nie chcę jednoznacznie oceniać) sposobem oceny zmiennych wchodzących w budowę modelu regresji jest przeprowadzenie testów istotności sprawdzających, czy współczynnik dla danej zmiennej niezależnej jest istotnie statystycznie różna od zera.

Więcej o istotności statystycznej można poczytać w poście o istotności statystycznej.

Przypomnijmy: mamy wyznaczyć wartości współczynników regresji β1 oraz β0 w modelu regresji prostej Y=β1X + β0.
Jeśli β1 wynosiłoby 0, to wówczas wkład zmiennej niezależnej X w wyjaśnienie zmienności Y byłby nieznaczący. Dlaczego, dlatego że Y = 0·X + β0. Zero razy cokolwiek jest równe zero.
Wobec tego można wykonać test istotności statystycznej współczynnika regresji liniowej β1 (na szczęście, testy te są najczęściej automatycznie wykonywane przez program statystyczny). Hipoteza zerowa H0: β = 0 przeciwko hipotezie alternatywnej H1:β ≠ 0.
Jak wiadomo, hipotezy dotyczą całych populacji, dlatego nie dziwimy się, że pomimo uzyskania konkretnego wyniku liczbowego współczynnika regresji liniowej (badacz otrzymuje niezerową wartość współczynnika regresji β np. β= -1.47 ), a test istotności może wykazać brak podstaw do odrzucenia hipotezy zerowej, która przecież postuluje zero. Wynik -1.47 uzyskano na próbie, a my testujemy, czy istotnie statystycznie różni się od zera. Z tego względu również testujemy, czy mamy podstawę sądzić, że efekt obliczeń na próbie przenosi się na populację.
Zawsze pozostaje pytanie, czy nieistotne statystycznie zmienne niezależne usuwać z modelu. Ogólnie odpowiedź brzmi nie, ale więcej o tym znajdzie się w poście o regresji liniowej 2.0.

Jeszcze raz: pamiętajcie, że nieistotność statystyczna nie jest równoważna z nieistotnością ogólnie rozumianą.

Standaryzowane i niestandaryzowane współczynniki beta. 
Współczynnik beta b1 może występować w formie standaryzowanej lub niestandaryzowanej.
Postać standaryzowaną uzyskalibyśmy jeśli przed wykonaniem regresji liniowej wystandaryzowalibyśmy zmienne zależną i niezależną (od każdego wyniku odjęlibyśmy średnią i podzielilibyśmy przez odchylenie standardowe).
Pakiety statystyczne obok postaci niestandaryzowanej często same podają standaryzowane współczynniki regresji beta β. Standaryzowany współczynnik beta β1 określa o ile (swoich własnych) odchyleń standardowych wzrośnie lub spadnie zmienna zależna Y, jeśli zmienna niezależna zmieni się o jedno (swoje) odchylenie standardowe.
W psychologii małe b pisane po łacinie oznacza współczynnik niestandaryzowany a beta β oznacza współczynnik standaryzowany.

Predyktor a predyk-A-tor?
Predyktor czy predykator? Wyrażenia te są stosowane zamiennie i w wielu, wielu, wielu opracowaniach naukowych (czy to pracach magisterskich czy artykułach naukowych, oczywiście polskich) można znaleźć dziwną hybrydę pojęcia z zakresu semantyki: "predykatu" oraz pojęcia oznaczającego zmienną niezależną: "predyktora". Ze względu na to, że nie specjalizuję się w polonistyce, pominę głębsze tłumaczenie słowa "predykat".
W statystyce są tylko "predyktory". Słowo pochodzi od anielskiego predict, czyli "przepowiadać, wróżyć". W statystyce jeśli już wróżmy, to z liczb. Literkę "A" w wyrażeniu "predykatorem" należy zetrzeć, choć łatwiej jest wymówić błędną wersję niż tę prawidłową. Predyktor.
Znów przypomnienie: to, że coś jest predyktorem, nie oznacza, że jest przyczyną!

Skąd wzięła się nazwa pojęcia i kto wynalazł tę metodę.
To wcale nie było tak, że w momencie opracowania metody regresji została ona nazwana regresją. Ba, było zupełnie inaczej. Najpierw powstał termin regresja w zupełnie innych okolicznościach, a potem ktoś inny wynalazł metodę najmniejszych kwadratów.

Prawda czy fałsz: wysoki człowiek ma wysokie dziecko - raczej prawda. Niski człowiek ma niskie dziecko - raczej prawda. A bardzo wysoki człowiek ma bardzo wysokie dziecko? No, niekoniecznie już tak jest. Wzrost u potomków gigantów czy niziołków ma skłonność do bycia bliżej średniej populacyjnej niż powtarzać wynik rodziców. Fakt, że dzieci bardzo wysokich rodziców nie muszą kucać do zdjęć szkolnych zauważył Galton i zjawisko to nazwał powrotem do średniej - powrotem czyli regresją.

Gauss z kolei wynalazł metodę najmniejszych kwadratów przy okazji szukania miejsca na niebie, w którym powinna pojawić się pewna planeta. Więcej nie będę rozpisywać się o przygodach Gaussa z metodą najmniejszych kwadratów, bo możesz to sobie przeczytać w poście o rozkładzie normalnym KLIK

TL;DR
- Model regresji liniowej przydaje się do tego, aby zbadać związek między zmiennymi wynikową y i predyktorem x (to jest dokładnie model regresji liniowej prostej);
- W psychologii małe b pisane po łacinie oznacza współczynnik niestandaryzowany a beta β oznacza współczynnik standaryzowany.

6 komentarzy:

Unknown pisze...

Wszystko bardzo fajnie i bardzo ładnie opisane i zilustorwane, wielkie dzięki!
Kołacze mi się jednak pytanie- w zasadzie jak model liniowy różni się w takim razie od korelacji liniowej...?

Unknown pisze...

Bardzo Ci dziękuję. Tak się składa, że siedziałem nad metodologią Brzezińskiego łapiąc się za głowę, jednak informacje przez Ciebie udostępnione bardzo mi pomogły przybliżyć się do tematu i zobaczyć, że to tylko tak strasznie wygląda na pierwszy rzut oka. Bardzo przystępne, bardzo dziękuję jeszcze raz ;)

Lilianna Jarmakowska-Kostrzanowska pisze...

Cześć! Wielkie dziękuję za miłe słowa :-) Bardzo cieszę się, że komuś przydają się moje posty. Ps. Pamiętam metodologię Brzezińskiego :-)

Jakub pisze...

Szukałem i nie znalazłem lepiej tłumaczonej statystyki. Niestety matematycy są w tej kwestii trochę jak księgowi – zamiast po prostu wytłumaczyć podatek, zaczynają zatapiać się w jego zmiany w czasie, wszystkie podstawy prawne, na jakich on obowiązuje, nie odchodzą ani na chwilę od języka, w jakim prawo podatkowe jest pisane, nie powiedzą, że PDOF to jest PIT… Nie mówiąc już o oderwaniu od praktyki, sporo czasu zajęło mi znalezienie informacji, jak i gdzie zrobić przelew podatkowy, tak jakby PIT albo regresja liniowa to były jakieś w pełni abstrakcyjne twory, bez oparcia w rzeczywistości. A przecież, że tak powiem trochę poetycko, do wybudowania gmachu wiedzy trzeba najpierw wznieść rusztowanie – wytłumaczyć jak krowie na rowie, żeby ten student miał do czego odnieść te wszystkie wyjątki czy głębszą teorię. Ten blog z całą pewnością dostarcza mi tego rusztowania. Dziękuję.

Lilianna Jarmakowska-Kostrzanowska pisze...


Dzień dobry! Bardzo cieszę się, że to, jak piszę spodobało się :-) To prawda, czasem lepiej pominąć zawiłości i zbudować rusztowanie, a potem dosztukowywać ornamenty ;-) dobrego dnia!!

Anonimowy pisze...

Mam pytanie, czy możliwe jest aby b było ujemne a beta +? A jeśli tak to jak to interpretować?