Wprowadzenie do regresji logistycznej





Dane do artykułu można pobrać stąd (klik)

Z wnętrza artykułu:
Regresja logistyczna w najprostszym ujęciu służy do modelowania prawdopodobieństwa zmiennej objaśnianej Y w zależności od zestawu (zbioru) zmiennych niezależnych X_1, X_2, .... Zmienna Y jest zmienną przyjmującą dwie wartości, które kodują dwa stany: zdrowy, chory. Można powiedzieć również, że Y jest jakościowa, dyskretna, nominalna, dwustanowa, dychotomiczna. Zmienne objaśniające X_1, X_2, .... mogą być albo ciągłe (ilościowe) albo dyskretne (jakościowe).
W tym skrypcie mówię o regresji logistycznej w kontekście zachorowania, ale równie dobrze zmienna zależna Y może być 'zgodą' (tak/nie), 'zdaniem egzaminu' (oblany/zaliczenie) czy dowolną inną dwustanową zmienną. Bardzo ważne jest przy tym kodowanie zmiennej zależnej. W przypadku modeli dotyczących zachorowań, 'sukcesem' (czyli 1) jest choroba (niestety). 0 oznaczające brak choroby (zdrowie) jest samo w sobie nieciekawe. To ma znaczenie o tyle, że przy zamienionym kodowaniu (zdrowy = 1, chory = 0) zmieniają znak współczynniki regresji.

(...)


Przedstawienie zbioru danych Pima
Zbiór danych Indianki plemienia Pima to zbiór dwustu Indianek przebadanych jeszcze w latach 80-tych przez National Institute of Diabetes and Digestive and Kidney Diseases pod kątem cukrzycy. Zbiór ten zawiera 10 zmiennych:
1. id - liczba porządkowa;
2. npreg - liczba ciąż;
3. glu - koncentracja glukozy dwie godziny po doustnym podaniu glukozy - to jest test obciążenia glukozą. Najpierw mierzy się poziom cukru we krwi, po czym podaje 75 g glukozy rozpuszczonych w 200 ml wody, które pacjent wypija. Po godzinie mierzy się poziom cukru. Następnie znów mierzy się poziom cukru po 2 godzinach i jeżeli po godzinie poziom cukru jest pomiędzy 140 - 180 to jest stan przedcukrzycowy, a powyżej 200 mg oznacza cukrzycę;
4. bp - rozkurczowe ciśnienie (mm Hg);
5. skin - grubość fałdu skóry na tricepsie (mm);
6. test wrażliwości na insulinę (mu, U/ml);
7. bmi - wskaźnik BMI (waga in kg przez wzrost in m2);
8. ped - wskaźnik obciążenia genetycznego;
9. age - wiek (lata);
10. diabetes - cukrzyca 1 - obecność choroby, 0 - brak choroby (pacjentka jest zdrowa)

Konsultacja medyczna zbioru danych: Agnieszka Michalak - dziękuję!


Podsumowanie:
Zbierając wnioski, regresja logistyczna w najprostszym wydaniu, służy do modelowania prawdopodobieństwa ryzyka zachorowania na chorobę, będącą przedmiotem zainteresowania badacza. Nie jest to jednak jedyne wykorzystanie tego modelu. Można go z powodzeniem stosować wszędzie tam, gdzie zmienna zależna przyjmuje dwie wartości rozumiane jako porażka-sukces. Zmienne niezależne wprowadzane do modelu mogą być zarówno ilościowe, jak i jakościowe. Interesujące nie są same współczynniki regresji, ale ilorazy szans wskazujące czy dana zmienna jest czynnikiem ryzyka (iloraz szans, exp^B> 1), czy też zmniejsza ryzyko zachorowania (iloraz szans, exp^B< 1). Dokładna interpretacja zależy od skali pomiarowej. Między zmiennymi może dochodzić do interakcji (nieomawiane w tym skrypcie).
Model można oceniać zarówno na podstawie testu współczynników w modelu, jak i na podstawie tabeli klasyfikacyjnej. Każdy model dostarcza wyników przewidywanych dla zmiennej zależnej, dzięki którym można sprawdzić, jak często myli się w stosunku do prawdziwych wartości zmiennej zależnej Y w bazie. Dobry model regresji logistycznej posiada dwie wartości kryterialne dla tabeli klasyfikacji: jest 90% dla osób zdrowych i 95% dla osób chorych.

Brak komentarzy: