Brak brakowi nierówny - mechanizmy powstawania missing values.

APA zaleca umieszczać w swoich artykułach nie tylko wielkości efektu czy opis i rozmiar próby  - w spisie rzeczy pożądanych w dobrym artykule znajduje się taki punkt: 'Empirical evidence and/or theoretical arguments for the causes of data that are missing, for example, missing completely at random (MCAR), missing at random (MAR), or missing not at random (MNAR)' (s.248).

Podręcznik APA (s. 33) doprawdy zrozumiale wyjaśnia różnicę :-)
data might be described as missing completely at random (as when values of the missing variable are not related to the probability that they are missing or to the value of any other variable in the data set); missing at random (as when the probability of missing a value on a variable is not related to the missing value itself but may be related to other completely observed variables in the data set); or not missing at random (as when the probability of observing a given value for a variable is related to the missing value itself).
W ten sposób APA poniekąd zmusza, aby badacz przyjrzał się wartościom brakującym i rozważył to, czy przypadkiem braki danych (missing values) nie tworzą żadnego wzorca. Oczywiście, najfajniejsza baza to taka, która nie ma brakujących wartości, ale nasze badania po pierwsze cierpią na problemy związane z reprezentatywnością (no, bo kto nam wypełnia kwestionariusze albo zgłoszą się do labu?) ale też cierpią na to, że nie wszyscy mają jednakową ochotę na odpowiadanie na niewygodne pytania. Studentów uczula się, aby przy konstrukcji ankiet czy kwestionariuszy zastanowili się nad drażliwością pytań, jednak niektórych po prostu nie da się 'zadać inaczej'. Nie mówię tu o pytaniu z presupozycją w stylu 'kiedy przestanie Pan bić swoją żonę?', ale najprostsza waga to może być problem dla niektórych osób. Waga, oczywiście, nie jest zmienną psychologiczną. Wysokość dochodów także - ale to są dobre zmienne do zobrazowania, w czym rzecz.
Część badanych odrzuca kwestionariusz z góry, kiedy jego nagłówek dotyczy przemocy w rodzinie albo innych bolesnych sytuacji. A części po prostu się nie chce wypełniać dalej kwestionariusza, który się ciągnie i ciągnie, jak spaghetti.
APA zachęca, aby poznać proces generujący braki danych. Podpisuję się pod tym rękoma i nogami. W ogóle uważam (i nie jestem w tym osamotniona), że - w przeciwieństwie do dra House'a - trzeba poznać swojego pacjenta, czyli swoje dane. A to, czy braki danych nie przejawiają jakiś prawidłowości jest jedną z diagnostyk.

Mamy trzy typy mechanizmów generowania braków danych: MCAR, MAR i MNAR. Najbardziej cieszylibyśmy się, gdyby to był MCAR, czyli missing completely at random. Nieco mniejszy powód do radości daje MAR (missing at random). Trzeci mechanizm przysparza sporo problemów - jest to missing not at random. Tyle, jeśli chodzi o rozwikłanie skrótów. 
Przykład.
Przeanalizujmy trzy przykłady zmiennych z brakami danych.

Moja baza ma taką postać:
Rys. Przykładowa baza (LJK).
Zmienna wiek, jest taką zmienną, której podanie wartości nie sprawia problemu, dlatego nie obserwujemy żadnych braków w tej kolumnie.

(1). Zmienna wykształcenie również nie jest kłopotliwą zmienną, ale w naszym zbiorze danych zdarzył się przypadek zagubienia wartości obserwacji, np. dlatego, że jakiś badany przeoczył te pytanie, albo coś się wydarzyło przy wpisywaniu danych do pliku.

(2). Dalej idąc, mamy zmienną przychód. W tych badaniach okazało się, że osoby o wykształceniu wyższym nie podają poziomu swoich zarobków. Obecność missing values na zmiennej zarobki jest zależna od wartości zmiennej Wykształcenie. Osoby o wykształceniu innym niż wyższe, nie mają problemów z wpisaniem kwoty comiesięcznego przelewu z pracy, ale osoby z wykształceniem wyższym - nie chcą dzielić się tą informację.

(3). Na samym końcu mamy drażniące pytanie o ilość partnerów seksualnych. Ludzie nie lubią podawać zawyżonych wartości tej zmiennej ze względu na dobrą reputację. Dlatego też brak danych dla tej zmiennej zależy od jej wartości, tzn. od ilości partnerów seksualnych - im więcej, tym mniejsza chęć do udzielenia odpowiedzi.

Typ mechanizmów
Wzorzec braków danych jest inny dla każdej z trzech zmiennych - różnią się one mechanizmem powstawania pustych miejsc. Pierwszy jest całkowicie nieprzewidywalny - ktoś nie wpisał wartości, bo przeoczył, mógł być to badany, albo badacz. Drugi jest nieco bardziej specyficzny - o braku danych w jednej zmiennej decyduje wartość w drugiej zmiennej. Trzeci jest już całkowicie zależny od charakteru tej zmiennej, w której obserwujemy braki (m.in. ludzie z jakichś powodów nie chcą odpowiadać na to pytanie).

MCAR, MAR i MNAR w przykładzie.
Jakie typy mechanizmów (MCAR, MAR i MNAR) pojawiają się w przykładzie?

(1) Braki danych w zmiennej wykształcenie jest kompletnie losowy - przecież przypadkowo akurat ta obserwacja została zgubiona czy pominięta, więc mechanizm powstawania takich braków jest typu MCAR. 

(2) Braki danych w zmiennej przychód są uzależnione od tego, co jest w zmiennej wykształcenie. Sama zmienna wykształcenie wprawdzie nie jest problematyczna, ale to od jej wartości zależy, czy zmienna zarobki będzie miała wypełnione pole, czy nie (przypominam dlaczego: osoby z wyższym wykształceniem pozostawiają pole zarobki puste). Mechanizm generowania braków danych jest tutaj MAR - missing at random. W zasadzie prawidłowa nazwa jest missing conditionally at random, ponieważ inna zmienna 'stawia warunki' zmiennej Zarobki przy jakich pojawia się braki. Ale akronim utworzony z pierwszych liter brzmiały tak samo jak akronim missing completely at random MCAR.

(3) Braki danych w zmiennej ilość partnerów seksualnych zależy już wartości tylko tej zmiennej i w przypadku omawianej bazy danych, zauważamy pewną prawidłowość - im więcej partnerów seksualnych tym mniejsza chęć do dzielenia się tą liczbą. Ma to swoje uzasadnienie - ludzie instynktownie nawet czują, że łatka rozwiązłych nie jest im potrzebna, dlatego pozostawiają te miejsca puste.

Co dalej?
Spytacie 'czy istnieją jakieś testy, które pozwalałyby wykazać, że na poziomie istności 0.05 dana zmienna ma istotne statystycznie braki danych'. Po pierwsze: nie ma takich testów, ani istotności, ani innych. Można uzasadniać to, czy braki danych są MAR, MNAR czy MCAR na podstawie teorii (z paroma wyjątkami, ale zagłębianie się w szczegóły wykracza poza ramy posta). Natomiast jest kilka sposób jak sobie z nimi radzić (uwaga, usuwanie całych wierszy jest 'niemodne' statystycznie). Temat ten jest jednak obszeernym materiałem na kolejny post. 

Brak komentarzy: