Błędy I i II rodzaju

Historię z błędami I-go i II-go rodzaju zwykle przedstawia się w bardzo prosty sposób. Badacz stawia hipotezę zerową, która jak sama nazwa wskazuje jest hipotezą o braku zależności, oraz hipotezę przeciwną do niej tzw. hipotezę alternatywną. Wobec tego, prowadząc badanie, może się pomylić na dwa sposoby. Albo odrzuci prawdziwą hipotezę zerową (i tym samym przyjmie fałszywą hipotezę alternatywną), albo przyjmie fałszywą hipotezę zerową (i tym samym odrzuci prawdziwą hipotezę alternatywną). Pierwszy błąd nazywany jest błędem I-go rodzaju. Drugi błąd jest nazywany błędem II-go rodzaju.

Aby mieć czarno na białym, co jest czym, pomocna jest taka tabela:

Wygodnie czytać ją ze świadomością, że są dwie rzeczywistości: obiektywna oraz subiektywna. Ta prawdziwa i to, co badacz sobie myśli.

Kiedy patrzysz na powyższą tabelę, widzisz taką czteropolówką, która pokazuje, które decyzje są dobre, a które złe i jak te złe profesjonalnie noszą nazwy. Jeśli decyzja badacza zgadza się z rzeczywistością, to wówczas są dobre decyzje. Te natomiast, w których badacz mija się z rzeczywistością, są złymi.

Wszystko jest bardzo ogólnie powiedziane, więc przydadzą się przykłady - sądowy lub ciążowy to najczęściej spotykane ilustracje powyższego myślenia

Ilustracja sądowa idzie tak: wyobraź sobie, że jesteś sędzią w procesie sądowym. Przed Tobą stoi oskarżony, a Ty musisz wydać wyrok: albo niewinny albo oskarżony. Jeśli jest on niewinny, a Ty skażesz go na więzienie, to popełnisz błąd I-go rodzaju. Jest to błędne odrzucenie prawdziwej hipotezy zerowej o braku zarzucanego czynu. Jeśli skazany jest winny, a Ty go wypuścisz, to popełnisz błąd II-go rodzaju. Jest to błędne przyjęcie fałszywej hipotezy zerowej o braku zarzucanego czynu.

Ilustracja ciążowa jest nieco krótsza.


Jak się dalej okaże, na tych przykładach można zajechać tylko do pewnego momentu (wiecej, w poście o mocy testu KLIK).

Zwyczajowo przyjmuje się, że poziom błędu I-go rodzaju wynosi 0.05 (lub: 5%) a błąd II-go rodzaju wynosi 20%.

Są to tylko umowne wartości, a ich pochodzenie można wyśledzić. Na przykład 5% jest progiem zaproponowanym przez Jerzego Neymana, a 20% - przez psychologa Jacoba Cohena. Nie jest tak, że jakieś skomplikowane twierdzenie dowodzi słuszności tych wartości. Ani też tak, że seria pomiarów wykazała, że one tyle wynoszą (tak jak badanie przyciągania ziemskiego). Są to raczej umowy. Można spotkać badania, gdzie poziom błędu I-go rodzaju ma być niższy i wynosić 0.01%. Możliwe jest również podwyższenie tego błędu do 10% - to jest kwestia oceny badacza w danej dziedzinie nauki.

Zobacz, że ani razu nie użyłam słowa istotny statystycznie lub p-wartość. Nie potrzebuję. Ba! Nawet mi nie wolno. BłędyI i II-go rodzaju to pojęcia ze słownika statystyki frekwentystycznej i ma to ogromne znaczenie do wniosków wysnuwanych na podstawie wyników. Frekwentystyczna statystyka opiera się na częstościowej interpretacji prawdopodobieństwa.

Ponieważ jesteśmy w interpretacji częstościowej, musimy więc wyobrazić sobie nieskończony ciąg powtórzeń tego samego eksperymentu. To może być coś prostego jak rzut monetą albo Twoje badanie. Postawmy dwie hipotezy. Jedna niech będzie zerowa o braku związku między zjawiskami, albo o braku zależności lub braku korelacji. Ma być brak związku. Druga hipoteza oznacza, że związek między zjawiskami jednak istnieje.

CZĘSTOŚCIOWA INTERPRETACJA PRAWDOPODOBIEŃSTWA — to świat, w którym nie interesuje nas jednostkowe doświadczenie, ale to, dokąd bieży cały ciąg tych doświadczeń. To wszystko oznacza, że nie wiesz, czy Twój wynik to błąd I-go lub II-go rodzaju. Wiesz tylko, że gdybyś wykonywała te doświadczenia, to myliłabyś się w 5%, gdyby Twoja hipoteza zerowa była prawdziwa, oraz w 20%, gdyby Twoja hipoteza alternatywna była prawdziwa. Kontrolujemy ile razy pomylimy się w bardzo długim ciągu powtórzeń tego samego eksperymentu.
Z podobną interpretacją mogłaś spotkać się przy okazji przedziału ufności. Tam również nie wiadomo było, czy Twój przedział zawiera prawdziwą wartość prawopodobieństwa, ani też, z jakim prawdopodobieństwem zawiera prawdziwą wartość. Ufność dotyczyła natury procesu tworzenia przedziału. Podobnie tutaj: kontrolujesz błędy I-go i II-go rodzaju w nieskończonym ciągu powtórzeń tego eksperymentu.

To również oznacza, że błąd I-go rodzaju nie jest p-wartością.
Tymczasem wiele książek, wpisów na blogu zawiera powielany przez lata mit/błąd, że błąd I-go rodzaju to poziom istotności statystycznej. Brzmi to mniej więcej tak:" Prawdopodobieństwo popełnienia błędu pierwszego rodzaju, jeśli hipoteza zerowa jest prawdziwa, to poziomem istotności (statystycznej)." Wobec tego pojawia się pytanie, dlaczego łatwo te dwie sprawy połączyć?

ZALEŻNOŚĆ MIĘDZY BŁĘDAMI - Życie uczy, że dobrze jest nie popełniać błędów. Dobrze jest nie szukać kluczy, tam gdzie ich nie ma. Dobrze jest nie szukać czegoś, co nie istnieje. Tak samo moglibyśmy zechcieć zminimalizować błąd I-go rodzaju. Najlepiej - wyzerować. Ale jeśli zaprojektujemy test, którego poziom błędu I rodzaju α był równy 0, to ceną, jaką za to zapłacimy jest maksymalizacja błędu II-go rodzaju. Jak to się dzieje?

KONSEKWENCJE MINIMALIZACJI BŁĘDU I-GO RODZAJU- Aby uniknąć błędu I-go rodzaju, chcielibyśmy przyjmować te hipotezy zerowe, które są prawdziwe. Projektujemy zatem test, który przyjmuje każdą hipotezę zerową. Pamiętaj, że cały czas pozostajemy w statystyce frekwentystycznej. Wyobraźmy sobie więc całą serię badań, a w każdym z nich przyjmujemy hipotezę zerową.

W zasadzie moglibyśmy nawet badań nie robić, bo i tak nie odrzucimy żadnej hipotezy zerowej. Nawet tej fałszywej. To z kolei prowadzi do tego, że jeśli w rzeczywistości jest jakiś efekt, jakaś różnica między grupami, czy korelacja, to i tak nie uznamy jej istnienia. A więc popełnimy błąd II-go rodzaju. W tej serii badań cały czas będziemy popełniać błąd drugiego rodzaju. To oznacza, że popełnimy 100% błędów drugiego rodzaju, chcąc wyzerować błędy pierwszego.

KONSEKWENCJE MINIMALIZACJI BŁĘDU II -GO RODZAJU - Wykorzystajmy jeszcze raz przykład prawniczy. W przykładzie prawniczym błąd II-go rodzaju oznacza błędne odrzucenie prawdziwej hipotezy alternatywnej (a brzmi ona tak: dana osoba jest przestępcą) i przyjęcie fałszywej hipotezy zerowej (dana osoba jest niewinna). Chcemy, aby było idealnie i perfekcyjnie, czyli w żadnym ze 100 przypadków nie popełnić tego błędu. Zatem w obawie przed popełnieniem błędu II-go rodzaju zwanego β profilaktycznie i przezornie uznajemy, że wszyscy oskarżeni są winni. I kropka. Co się wówczas dzieje? Przestępcy słusznie siedzą za kratkami, ale osoby niewinne również wędrują do więzienia. Błąd II-go rodzaju jest równy zero, ale zmaksymalizowaliśmy błąd I-go rodzaju.

A tak naprawdę to, chcielibyśmy zminimalizować błąd I-go i błąd II-go rodzaju. Ale one są ze sobą powiązane. Wyzerowanie błędu II-go rodzaju pociągnie zmaksymalizowanie błędu I-go rodzaju. Jaki byłby odpowiedni kompromis między poziom błędu I-go a II-go rodzaju?

TEST KONSERWATYWNY I TEST LIBERALNY - Chcemy, żeby poziom popełniania błędów I-go rodzaju był równy 5%. Ale czy to przypadkiem nie jest tylko myślenie życzeniowe czy zwykłe chciejstwo? Może są testy, które odrzucają więcej hipotez zerowych i testy, które odrzucają mniej? Są. Nawet mamy dla nich nazwy:-)
Test, który ma tendencję do nieodrzucania hipotezy zerowej (częściej uważa, że hipoteza zerowa jest prawdziwa), to test, którego rzeczywisty poziom błędu I-go rodzaju nie przewyższa nominalnego, najczęściej 5-procentowego progu, jest nazywany testem konserwatywnym.

Dlaczego piszę:"rzeczywisty"? Bo zawsze można w laboratorium sprawdzić, czy test naprawdę odrzuca 5%, czy może mniej. To laboratorium to są symulacje i dzięki temu wiemy, że niektóre testy mimo, że na etapie ich projektowania chcieliśmy aby myliły się dokładnie 5%, to jednak nie osiągają tego pułapu (to tylko na pozór dobrze). Pamiętaj, jeśli test jest konserwatywny, to popełnia mniej błędów I-go rodzaju, a kosztem tego jest zwiększenie błędów II-go rodzaju.

TEST KONSERWATYWNY - Wyobraź sobie wielkokrotne wykonywanie tego samego badania, a więc tego samego testu. Jak sama nazwa wskazuje, hipotezy zerowe zwykle mówią o braku efektu. Za to hipotezy alternatywne - o tym, że coś istnieje, co czyni je bardziej postępowymi. Z tej perspektywy taki test, który nie chce być postępowym a pragnie zachować status quo jest testem konserwatywnym.

Jeśli badacz chce popełniać mało błędów I-go rodzaju to oznacza, że chce rzadko odrzucać prawdziwe hipotezy zerowe. Aby rzadko odrzucać prawdziwe hipotezy zerowe, trzeba rzadko odrzucać hipotezy zerowe. Żeby rzadko odrzucać atrakcyjnych partnerów, trzeba rzadko odrzucać partnerów w ogóle. Ta strategia ma swój koszt - skoro rzadko odrzucać, to znaczy częściej przyjmować hipotezy zerowe. A to oznacza, że może zdarzać się przyjmowanie fałszywych hipotez zerowych. Przyjęcie fałszywej hipotezy zerowej to odrzucenie prawdziwej hipotezy alternatywnej, a hipotezy alternatywne mówią o istnieniu jakiegoś efektu. Skoro rzadko je przyjmujemy, to jesteśmy dość konserwatywni: częściej twierdzić, że nie ma efektu niż, że jakiś jest. Hipotezy zerowe mówią zwykle o braku istnienia jakiegoś efektu, a konserwatywny jest słowem o etymologii łacińskiej (conservare znaczy przechowywać, zachowywać) i ma znaczenie zachowawczy (‘lepiej nic nie zmieniać’), więc test, który ma tendencję do nieodrzucania hipotezy o zerowym efekcie, jest testem konserwatywnym. Taki test myśli sobi: na wszelki wypadek niczego nie wynajdę, co bym nie musiał się martwić, że społeczeństwo się zmieni. Taki test, który w wielokrotnym powtórzeniu tego samego badania ma obniżony poziom błędu I-go rodzaju ma jednocześnie podwyższony poziom błędu II-go rodzaju.

TEST LIBERALNY - Test liberalny to test, który nie jest testem konserwatywnym. Niektórzy nazywają je antykonserwatywnymi. Jeśli czytasz te słowa po przeczytaniu poprzedniego akapitu, najbliższa treść powinna być intuicyjna - a przynajmniej bardziej intuicyjna. Jeśli test jest testem liberalnym, to znaczy, że nie chce zachowywać ustalonego status quo. Wobec tego, będzie częściej odrzucał hipotezę zerową i - zarazem - częściej przyjmował hipotezę alternatywną. To oznacza, że spadnie mu błąd II-go rodzaju, ale jednocześnie wzrośnie błąd I-go rodzaju. Test, który ma rzeczywisty poziom alfa wyższy niż 5%, czyli mimo tego, że teoretycznie powinien popełniać nie więcej niż 5% pomyłek w rzeczywistości popełnia ich więcej.

Brak komentarzy: