ESTYMATOR — Powiedzieć, że estymator to coś, która szacuje wartość parametru w populacji, to tak jakby nic nie powiedzieć. Owszem, to prawda, że średnia arymetyczna jest dobrym estymatorem średniego poziomu jakiejś cechy w populacji. Wierzymy temu stwierdzeniu na słowo honoru, nie interesując się dlaczego, tak się dzieje a wynalezienie estymatora nie jest wcale takim łatwym zadaniem.
Jeśli nawet w podręczniku znajdzie się wprowadzenie do estymacji, to po zwięzłej definicji estymatora szybko pada przykład w stylu: z pewnej populacji pobrano jakąś liczbę osób badanych (zwaną próbą), którą zmierzono pod kątem wybranej cechy. Zebrane pomiary posłużyły do obliczenia jednej z możliwych charakterystyk, dajmy: średniej, o której można powiedzieć, że jest estymatorem średniego poziomu cechy w populacji. Nie znany jest - jak piszą podręczniki - prawdziwy parametr w populacji, a możemy tylko szacować go za pomocą estymatora.
PARAMETR I ESTYMATOR — Tu widać wyraźne rozróżnienie między parametrem a estymatorem. W klasycznej statystyce jest tak, że parametr jest nieznaną liczbą. Estymator jest czymś znacznie więcej.
Ja również posłużę się podobnym przykładem, ale wykorzystam go do pokazania tego, czego nie widać na pierwszy rzut oka - piękna prawdziwej natury.
Wyobraźmy sobie, że rzeczywiście zbadaliśmy jakąś liczbę osób pod kątem wybranej cechy. Cecha ta musi wykazywać jakąś zmienność w populacji. Nie może być to na przykład fakt bycia urodzonym, bo wszyscy jesteśmy urodzeni. Kolumna odpowiadająca takiej zmiennej była wypełniona samymi jedynkami. Podobnie jak z faktem pozostawania przy życiu - zakładam, że jeśli czytasz te słowa jako osoba żyjąca. Nieumarły raczej mieliby inne przyjemności niż czytanie postów o statystyce. Doszliśmy więc do wniosku, że musi być to cecha, dzięki której ludzie różnią się między sobą. Dla ułatwienia weźmy coś bardzo oczywistego - waga. Ludzie różnią się wagą, prawda?
Spójrzmy zatem na nasz zbiór pomiarów. Oto rysunek. Nad głowami osób badanych umieściłam odpowiadające im wagi.
Celem dokonania pomiarów jest zdobycie wiedzy o populacji na temat wybranej cechy.
Robimy to na podstawie próby.
MASZYNKA - A więc estymator to po prostu taka maszynka, która przekłada zebraną próbę na liczbę. Profesjonalnie tę liczbę nazywa się wartością estymatora. Należy ona do tej dokładnie jednej próby, którą przebadałaś.
Dane, czy też próba, wchodzą tędy...
Ale i tak dokonujemy pewnego rodzaju skrótu. Za całej próby wyciskamy jedną liczbę - wartość estymatora.
WYRZUCANIE INFORMACJI — Mimo, że interesujemy się tylko wagą, to mamy też wiele więcej informacji. Znamy kolejność zapisania poszczególnych pomiarów. Wiemy, kto ile waży. Czy to wszystko jest potrzebne do oszacowania wartości parametru w populacji? Nie, interesuje nas tylko wzrost, niezależnie od tego, że Zenek przyszedł przed Cześkiem, a po Marku. Interesuje nas tylko zbiór wyników.
AGREGACJA DANYCH — Możesz analizować krok po kroku każdą obserwację z osobna i próbować stworzyć sobie ogólny obraz próby. Możesz też użyć narzędzi statystycznych. Umysłem, czy statystyką, wyrobisz sobie zdanie próbie, jako o całości, zapominając szczegóły. Mówiąc profesjonalnie - dokonasz agregacji danych, a część informacji zostanie odrzucona jako niepotrzebna do dalszego procesu szacowania.
Zobacz, że nawet taka średnia nie przechowuje całej informacji o próbie - kiedy już policzysz średnią, to nie wiesz, która osoba badana wniosła jaką konkretną wartość. Ta informacja została utracona w procesie agregacji.
Tak właśnie działają estymatory. Estymatory pozwalają szacować prawdziwą wartość parametru, wyciągając z próby część informację, a odrzucając inną, która nie jest potrzebna. To jest to, co robi estymator, a czego nie ma zwięzłej definicji z początku posta.
DOBRY ESTYMATOR — Już wiemy, do czego służą estymatory. Teraz pomyślmy - co to znaczy dobry estymator? Przejdziemy teraz do trzech własności dobrego estymatora, o których najczęściej słyszycie na wykładzie lub czytacie w podręczniku. Zanim jednak o tym, znów zrobimy objazdówkę.
Część Czytelników już wie, z posta o zmiennej losowej, że estymator to zmienna losowa.
ESTYMATOR ZMIENNĄ LOSOWĄ? — Nie ujmując nic matematycznej definicji zmiennej losowej - że jest mierzalna funkcja określona na zbiorze i tak dalej - wyjmijmy tylko ten fragment dotyczący losowości. Ma on konkretne przełożenie na zachowanie estymatora. Nie powinno to nikogo zdziwić, kiedy napiszę, że badacz badający to samo zjawisko na dwóch różnych próbach otrzyma dwie różne średnie i że tych wartości nie da się przed badaniem przewidzieć ze 100-procentową pewnością.
Jeśli wierzysz mi, że średnia jest przykładem estymatora, to mogę napisać nieco ogólniej, że na różnych danych badacz otrzyma różne wartości estymatora dla różnych prób. Wydaje się, że to nic nadzwyczajnego - to przecież oczywiste. Ale zaraz przekonasz się, po co taka objazdówka.
Uprzedzając nieco kolejne posty, jeśli czytasz zgodnie ze spisem treści, w bardzo podobny sposób będzie zachowywać się statystyka testowa w klasycznych testach statystycznych.
Teraz przejdziemy do sedna sprawy. W naszym przykładzie owo 52,41 jest właśnie wartością estymatora średniego poziomu zmiennej wzrost w populacji. Chciałoby się spytać, czy to jest dobra, akuratna wartość - albo jak dobra? Jak blisko 52,41 leży prawdziwej wartości parametru w populacji? Teoria estymacji nie dostarcza odpowiedzi na takie pytania. Nie możemy dowiedzieć się, czy 172,41 jest przeszacowaniem, czy jest niedoszacowaniem, ale możemy dowiedzieć się czegoś o samym estymatorze, o samej maszynce z powyższego rysunku. O tym, jakby się zachowywała, gdybyśmy mogli mieć wszystkie możliwe próby.
Nawet na rysunku nie zmieściłyby mi się, dlatego ten poniższy będzie zawierał tylko pięć prób.
Tak jak w przypadku człowieka dla naszych prababek wyznacznikami dobroci było to czy nie pije i nie bije, tak i w przypadku estymatorów są własności odnośnie ogólnego zachowania. Wyznacznikami są nieobciążoność, minimalne rozproszenie i zgodność.
Jeśli czytałaś już post o zmiennej losowej, to wiesz, że zwykle można spodziewać się wartości oczekiwanej oraz wariancji.
NIEOBCIĄŻONY - Nieobciążony odnosi się do wartości oczekiwanej. Najpierw powiem, jaki estymator jest obciążony. Estymator, który jest obciążony, to taki, który popełnia błędy - albo niedoszacowuje albo przeszacowuje prawdziwą wartość parametru. Coś jak popsuta waga, która odejmuje nam kilogramów. Nieobciążony estymator to estymator, który średnio rzecz biorąc wyrzuca prawdziwą wartość parametru. Haczyk tkwi w słowach:"średnio rzecz biorąc" - przecież Ty masz konkretną próbę. To teraz wyobraź sobie, że masz wszystkie możliwe próby, które można zebrać z danej populacji, to wtedy średnio rzecz biorąc będą one pokazywać prawdziwą wartość parametru.
EFEKTYWNY - Efektywność jest związana z tym, jak bardzo różnią się wartości estymatora między różnymi próbami. Źle byłoby, gdyby z tej maszynki wychodziły rozstrzelone wyniki od Sasa do Lasa. Raz farbujesz włosy i wychodzą rude, a innym razem stosując tę samą farbę - czarne. A koleżance wyszły blond. Tego właśnie nie chcemy. Chcemy tego, aby na różnych próbach badacz otrzymywał podobne wartości estymatora, skoro nie możemy oczekiwać, że będą takie same. Najlepszy estymator to taki, który ma najmniejsze rozproszenie, czyli najmniejszą wariancję.
ZGODNY - Zgodność estymatora oznacza, że im więcej osób badanych przebadasz, tym bliżej nieznanego parametru w populacji będą znajdować się wartości estymatora. To jest najprostsza z własności - i najbardziej spodziewana.
Podsumowując, jeśli chodzi o własności estymatora, to nie pytamy o to, czy konkretna średnia arytmetyczna jest dobrą wartością, tylko zbiorczo - czy dany estymator porządnie się zachowuje. Bardzo podobne rozumowanie jest aktualne przy przedziale ufności - najczęściej dla średniej. Tam również nie możemy nie pytamy, z jakim prawdopodobieństwem przedział zawiera poszukiwaną wartość.
ESTYMATOR PUNKTOWY - W słowniku matematyki na pojedynczą liczbę można powiedzieć punkt. To dlatego, że gdy wyobrazisz sobie oś liczbową i zaznaczysz punkt, to będzie to równoważne z zaznaczeniem liczby. Na kartce papieru punktowi odpowiadają dwie liczby, zwane współrzędnymi punktu. Na osi liczbowej jest prościej. Pojedyncza liczba również jest jednocześnie współrzędną punktu, któremu odpowiada. Tak więc na estymator, którego wartość jest postaci pojedynczej liczby nazywa się estymatorem punktowy. Innymi słowami, jeśli Twój estymator po włożeniu do niego całej próby, wypluwa tylko liczbę, to mówi się, że jest estymatorem punktowym. Średnia arytmetyczna to jeden z przykładów. Wszystkie miary tendencji centralnej, rozproszenia, skośności i kurtozy to tzw. estymatory punktowe, ponieważ są pojedynczymi liczbami.
ESTYMATOR PRZEDZIAŁOWY - Estymator punktowy, czyli pojedyncza liczba, jest dość ubogą informacją. Dobrze byłoby wiedzieć, jakie jest rozstrzał możliwych wyników. W ten sposób, zamiast posługiwać się pojedynczą liczbą, możemy użyć estymatora przedziałowego, czyli przedziału liczb. Tutaj pojawia się mały problem z interpretacją. Jeśli jesteśmy w statystyce klasycznej, a najczęściej studenci psychologii wykonują właśnie analizy z tego podejścia, to pojawia się jest problem z interpretacją takiego przedziału. Zobaczysz to dość wyraźnie w poście o przedziale ufności dla średniej KLIK
Estymatory
Subskrybuj:
Komentarze do posta (Atom)
3 komentarze:
Ekstra!
Bardzo dziękuję :-) pozdrowienia!
Bardzo zrozumiale wytłumaczone
Prześlij komentarz