Transformacje danych (logarytmiczna).

Cześć! Miło, że tu jesteś, że chcesz przeczytać tę treść. Piszę, bo chciałabym, abyś wiedziała/wiedział, że mam w planach odświeżyć tego posta. Teraz jest taki ... nie to, że treść jest zła, błędna i do wyrzucenia, ale oprawa graficzna pozostaje wiele do życzenia. Więc są takie opcje: jeśli masz czas, to powróć za co najmniej kilka dni; jeśli to jest pilne - to zapraszam do czytania tekstu w tejże formie.

Metodą 'uzdatniania' danych do analiz jest ich transformacja, czyli przekształcanie. Przekształcać można w dowolny sposób. Najbardziej banalny to identyczność, gdzie nic nie robimy. Najprostszy nietrywialny: to liniowe przekształcenia - czyli mnożenie przez jedną liczbę i dodawanie kolejnej, np.3*wiek+2. Nieco bardziej zaawansowaną metodą są przekształcenia nie-liniowe, np. logarytm zmiennej niezależnej. Robi się to na przykład po to, aby "udała się" regresja liniowa - rozkład błędów ma być białym szumem, nietworzącym żadnych wzorców.
Dane bywają kapryśne i skośne. Czasami warto zastanowić się na przekształceniem ich do 'lepszej' postaci, np. za pomocą pierwiastka, potęgi czy logarytmu. Ale nawet popularny logarytm może wyświadczyć nam niedźwiedzią przysługę i odwrócić skośność danych w drugą stronę, o czym traktuje niniejszy przykład zamieszczony ku przestrodze beztroskiej transformacji. Celem tej transformacji jest ujrzeć dane przypominające rozkład normalny:

Ryc.1. Transformacja logarytmiczna danych (LJK)
Rysunek pokazuje, że transformacja poprzez 'wzięcie logarytmu' nie sprowadziła danych do oczekiwanej krzywej dzwonowej. Morał z tego taki: nie ma prostych przepisów statystycznych, które gwarantują powodzenie niezależnie od warunków. Logarytm potrafi wywrócić dane do góry nogami!

Brak komentarzy: