LUTY 2025| LJK | ~2 000 słów| W trakcie poprawek
Ideę błędów I-go i II-go rodzaju zwykle przedstawia się w konkretny sposób. W procedurze NHST, badacz stawia hipotezę zerową, która - jak sama nazwa wskazuje - jest hipotezą o braku zależności. Oznacza ją H0 a następnie stawia drugą hipotezę, która treściowo jest do niej przeciwna, tzw. hipotezę alternatywną oznaczaną H1. Jedna hipoteza mówi, że coś istnieje, druga - że nie istnieje, zaś zadaniem badacza jest wybrać, która z nich jest tą prawdziwą - tą, która dobrze opisuje rzeczywistość. Wybierając źle, może pomylić się na dwa sposoby.
Błąd I i II-go rodzaju
Badacz popełni błąd, odrzucając prawdziwą hipotezę zerową H0 (i tym samym przyjmie fałszywą hipotezę alternatywną H1), albo przyjmując fałszywą hipotezę zerową (i tym samym odrzuci prawdziwą hipotezę alternatywną). Pierwszy błąd nazywany jest błędem I-go rodzaju. Drugi błąd jest nazywany błędem II-go rodzaju. Te błędy mają różne nazwy w różnych kontekstach. Wynik testu medycznego, w którym popełniono błąd I-go rodzaju, nazywa się fałszywie dodatnim (false positive), zaś wynik, w którym popełniono błąd II-go rodzaju, nazywa się fałszywie negatywnym (false negative). Z powodu odmiennych konsekwencji, jakie dla nauki niosą te błędy, błąd I-go rodzaju bywa kojarzony ze złudnymi artefaktami, a błąd II-go rodzaju - z przeoczeniami. Aby zrozumieć relację między błędami, najlepiej jest mieć wszystko czarne na białym - i na brązowym. Oto rysunek przedstawiający błędy w relacji do rzeczywistości.
BŁĄD I-GO RODZAJU, α - To błędne odrzucenie prawdziwej hipotezy zerowej H0. Choć hipoteza zerowa H0 jest prawdziwa, badacz odrzuca ją, popełniając przy tym ten błąd. Jeśli ją odrzuca, to musi wówczas przyjąć hipotezę alternatywną H1, a ta jest fałszywa. Skoro hipoteza zerowa jest tą o braku efektu (badanego zjawiska), to odrzucenie jej automatycznie oznacza przyjęcie, że zjawisko istnieje. W ten sposób można obawiać się, że do nauki będą wchodzić tzw. artefakty - nieistniejące efekty. Będziemy uznawać, że istnieją duchy, a tymczasem przecież one nie istnieją - prawda?
BŁĄD II-GO RODZAJU, β - To błędne odrzucenie prawdziwej hipotezy alternatywnej H1. Tym razem, to hipoteza alternatywna H1 jest prawdziwa, ale badacz odrzuca ją, popełniając przy tym ten typ błędu. Skoro hipoteza alternatywna mówi o istnieniu jakiegoś zjawiska, to odrzucenie jej automatycznie oznacza przyjęcie hipotezy o jego braku, nieistnieniu. W praktyce, oznacza uznanie, że dany lek jest nieskuteczny, terapia - nie działa, a ktoś nie spełnia jakichś wymogów. Dlatego błędy II-go rodzaju są nazywane błędami przeoczenia.
| Martwiąc się popełnieniem błędów I-go rodzaju, obrastamy w błędne przekonania, a potem mnóstwo energii zabiera nam usunięcie błędu II-go rodzaju.
Samo zrozumienie idei błędów I i II rodzaju raczej nie powinno sprawiać problemów. Kiedy czytasz te słowa, już jesteś na tym etapie życia, że masz już za sobą popełnienie każdego z nich - i to wiele razy. Ile razy błędnie założyłeś, że podobasz się dziewczynie (błąd II-go rodzaju)? Ile razy okazało się, że odrzuciłaś fajnego faceta, bo wydawał się beznadziejny (błąd I-go rodzaju)? Ile razy myślałaś, że wystarczy jeszcze szamponu w butelce, a okazywało się, że nie (błąd I-go rodzaju). A ile razy myślałeś, że nie uda się, a jednak udawało się? W życiu codziennym wciąż popełniamy mniejsze i większe błędy obu rodzajów. Martwiąc się popełnieniem błędu I-go rodzaju, obrastamy w błędne przekonania na temat siebie, życia i drugiego człowieka, a potem mnóstwo czasu i energii zabiera nam usunięcie błędów II-go rodzaju.
Koszmar z błędami I i II rodzaju leży w zupełnie innym miejscu - w żonglerce słowami. Zobacz, napisałam:"błąd I-go rodzaju to błędne odrzucenie prawdziwej hipotezy zerowej", ale też "błędne przyjęcie fałszywej hipotezy alternatywnej". Oba zdania są prawdziwe i wyrażają ten sam stan rzeczy - różnią się tylko perspektywą. To pierwsze jest pisane z perspektywy wystawionej za drzwi hipotezy zerowej, a to drugie - z perspektywy konia trojańskiego, hipotezy alternatywnej.
Jeśli w poprzednim akapicie miałeś trudności ze zrozumieniem fraz, to wiedz, że nie wynika z tego, że błędy to skomplikowane pojęcia albo, że to Ty nie rozumiesz matematyki - to po prostu kwestia językowa. W zdaniach opisujących błędy występuje nieprzyjemny miks abstrakcyjnych pojęć ("błąd", nie można pokazać błędu na tej samej zasadzie jak można pokazać krzesło), powtórzeń ("błąd", "błędny"), które zestawiono ze słowami o przeciwnym znaczeniu ("prawdziwy", najpierw pojawia się coś "błędnego", a nieco dalej - coś "prawdziwego"). Na dodatek wszystko osadzono w zdaniu o konstrukcji biernej, gdzie nie ma aktywnego podmiotu ("błędne odrzucenie"). W takich wypadkach wystarczy sekunda nieuwagi - i już można się zgubić. Zawsze, gdy na wykładzie mam mówić o błędach I i II rodzaju, mój mózg pracuje na podwyższonych obrotach, bo wiem, że ja sama nie mogę się pomylić 😁.
Mężczyzna w ciąży i nieciężarna ciężarna
Wszystko, co powyżej zostało napisane, jest na wysokim poziomie ogólności, dlatego czas na przykład. Błędem I-go rodzaju jest stwierdzenie, że zjawisko istnieje, gdy ono nie występuje. Świetnym przykładem obrazowo ilustrującym ten rodzaj pomyłki, jest uznanie, że mężczyzna jest w ciąży. Badanie obwodu brzucha jest rozsądne - podczas ciąży brzuch rośnie. Niestety, czasami rośnie z innych powodów niż ciąża, a to badanie nie ma sensu w przypadku mężczyzn.
Błędem II-go rodzaju jest przeoczenie zjawiska, gdy ono naprawdę istnieje. W tym przypadku mamy kobietę w wyraźnej ciąży z badaniem USG ujawniającym płód. Tym razem lekarz myli się i mówi, że ona w ciąży nie jest.
5% i 20% - akceptowalne poziomy błędów I i II rodzaju
Zwyczajowo przyjmuje się, że poziom błędu I-go rodzaju wynosi 0,05 lub: 5% zaś poziom błędu II-go rodzaju wynosi 0,20 lub: 20%.
Trudno powiedzieć, że wysokość tych progów wynika z jakiegoś twierdzenia matematycznego. Nie są też - jak stałe fizyczne - efektem serii pomiarów, które wskazałyby ich wysokość. Są po prostu... efektem umowy w środowisku naukowym - umowy zaproponowanej przez Ronalda Fishera oraz Jacoba Cohena. Ten pierwszy wskazał, że 5% próg błędów I-go rodzaju będzie dobrym poziomem pomyłek fałszywie pozytywnych. Ten drugi wskazał wartość 20%. I tak zostało.
Co nie oznacza, że tak musi być. Jak to bywa z umowami, można je zmieniać. Istnieją badania, w których testy mają inny niż pięć procent poziom błędów I-go rodzaju i inny niż dwadzieścia procent poziom błędów II-go rodzaju. Ten pierwszy może wynosić nawet 1%, jeśli chcemy być bardziej surowi. Może wynosi 10% - jeśli chcemy być bardziej liberalni. O testach liberatlnych i konserwatywnych porozmawiamy za chwilę.
Co znaczy, że błąd jakiegoś rodzaju wynosi 5% lub 20%?
Co to znaczy, że błąd I-go rodzaju wynosi 5%? Chciałoby się powiedzieć, że to w ilu procentach mylimy się, jeśli zależność nie istnieje. Innymi słowy, gdy hipoteza zerowa jest prawdziwa, mamy pięcioprocentową szansę pomylić się. Uważaj tutaj - poprzednie zdanie jest tak skonstruowane, aby uśpić Twoją czujność. Kluczem do zrozumienia błędu I-go rodzaju jest słowo "szansa". Co to w ogóle znaczy: “szansa” lub "prawdopodobieństwo"?
| Kluczem do zrozumienia błędu I-go rodzaju jest słowo "szansa".
Błąd I i II-go rodzaju to idee pochodzące z jednej ze szkół statystyki. Szkół? – pomyślisz. Tak, szkół w liczbie mnogiej. Wbrew przekonaniom, statystyce daleko od ujednoliconej dziedziny wiedzy. Wciąż ścierają się w niej różne idee. Proces testowania hipotez, ten z istotnością statystyczną, to efekt połączenia dwóch szkół, a tylko w jednej z nich pojawiają się błędy I i II rodzaju. Koncepty noszą w sobie sposób myślenia twórcy. W przypadku błędów jest to tzw. częstościowa interpretacja prawdopodobieństwa. Aby naprawdę zrozumieć, co znaczy pięcioprocentowa szansa popełnienia błędu I-go rodzaju - lub dwudziestoprocentowa błędu II-go rodzaju - w trakcie weryfikacji hipotez statystycznych, należy zgłębić coś, co stanowi jej sedno.
Częstościowa interpretacja prawdopodobieństwa w służbie błędów I i II rodzaju
Wyobraź sobie, że rzucasz złotówką. Na jednej stronie ma orła, na drugiej wybito napis "1 złoty". W języku angielskim o monecie, która jest dobrze wyważona, mówi się, że jest fair - uczciwa. Szansa otrzymania orła podczas rzucania uczciwą monetą jest taka sama jak reszki, czyli ½. Co praktycznie oznacza ta liczba ½ ? Czy to, że otrzymamy pół orła i pół reszki? Że moneta spadnie na brzeg? Nie. Ta jedna druga oznacza, że gdybyśmy długo rzucali tą monetą, stosunek liczby otrzymanych orłów do liczby rzutów zbliżałby się ku ½. Taka jest częstościowa interpretacja prawdopodobieństwa - opowiada ona o tym, co zdarzy się het, daleko za horyzontem powtarzanych zdarzeń. Powtarzanym doświadczeniem losowym może być rzucanie monetą albo kostką. Równie dobrze to też może być badanie z zakresu psychologii, w którym postawiono dwie hipotezy.
Co znaczy, że błąd I rodzaju wynosi 5%?
Pięcioprocentowy błąd I-go rodzaju oznacza, że gdybyśmy prowadzili to samo badanie wiele razy a zjawisko nie istniałoby, to po jakimś czasie zauważylibyśmy, że istnieje pewien odsetek replikacji, które mimo wszystko pokazują pozytywny wynik - pokazują, że zjawisko istnieje. Odsetek takich wyników testu wynosiłby pięć procent.
Co znaczy, że błąd II rodzaju wynosi 20%?
W podobny sposób należy myśleć o błędzie II-go rodzaju. Dwudziestoprocentowy błąd II-go rodzaju oznacza, że gdybyśmy prowadzili to samo badanie wiele razy, a badane zjawisko naprawdę istniałoby, to zauważylibyśmy, że są takie wyniki testu, które mylą się, pokazując, że zjawisko nie istnieje. Odsetek takich replikacji wynosiłby właśnie dwadzieścia procent.
Konsekwencje częstościowej interpretacji dla testu
Na szczęście, nie oznacza to, że musisz prowadzić tak wiele badań, aby wreszcie zobaczyć, że w pięciu procentach mylisz się. Badacz zwykle nie dysponuje więcej niż kilkoma replikacjami swojego eksperymentu. Student najczęściej ma jedno badanie - to do pracy magisterskiej. Czy to oznacza, że nie może określić błędu I-go rodzaju dla wybranego testu statystycznego? Nie. Błąd I i II rodzaju to teoretyczne koncepty. Staramy się tak dobrać parametry testu (liczebność próby, wielkość szukanej zależności), aby teoretycznie te błędy pozostawały na wybranych poziomach. "Teoretycznie" znaczy: "w odpowiednio długiej perspektywie". Gdybyśmy tę długą perspektywę oglądali, wykonując ponownie i ponownie te badania.
| Teoretycznie znaczy w odpowiednio długiej perspektywie.
To wszystko oznacza, że w jednym badaniu nie wiadomo, czy poprawnie przyjmujesz czy odrzucasz hipotezę zerową. Tego nie wiesz - ufasz, że gdyby je prowadzono i prowadzono, to jedynie w 5% błędnie odrzucano by prawdziwą hipotezę zerową. I w 20% błędnie odrzucano by prawdziwą hipotezę alternatywną.
| Nie można umrzeć w 5% a żyć w 95%.
Czy to w ogóle ma sens? - pomyślisz. Zauważ, że to rozumowanie w zupełnie innym kontekście nabiera sensu a dzieje się tak, gdy rozmawiamy o szansach na śmiertelne powikłania przy pewnej operacji. Co oznacza, że operowany pacjent ma 5% szans na zejście? Konkretny pacjent przeżyje albo nie przeżyje operacji - nie można umrzeć w 5% a żyć w 95%. O tych pięciu procentach myśli się zbiorczo - wśród operowanych pacjentów odsetek śmiertelności wynosi 5%. Co dwudziesty pacjent nie przeżyje, ale nie wiadomo na kogo padnie. Jak widzisz, częstościowy sposób rozumienia szans masz już w głowie. Wystarczy go tylko przenieść na grunt testów statystycznych.
Współzależność błędów I i II-go rodzaju
Życie uczy, że dobrze jest nie popełniać błędów. Dobrze jest nie szukać kluczy, tam gdzie ich nie ma. Dobrze jest nie szukać czegoś, co nie istnieje. Tak samo moglibyśmy zechcieć zminimalizować błąd I-go rodzaju. Najlepiej - wyzerować. Ale jeśli zaprojektujemy test, którego poziom błędu I rodzaju α był równy 0, to ceną, jaką za to zapłacimy jest maksymalizacja błędu II-go rodzaju. Jak to się dzieje?
Czy można wyzerować błędy?
KONSEKWENCJE MINIMALIZACJI BŁĘDU I-GO RODZAJU- Aby uniknąć błędu I-go rodzaju, chcielibyśmy przyjmować te hipotezy zerowe, które są prawdziwe. Projektujemy zatem test, który przyjmuje każdą hipotezę zerową. Pamiętaj, że cały czas pozostajemy w statystyce częstościowej, frekwentystycznej. Wyobraźmy sobie więc całą serię badań, a w każdym z nich przyjmujemy hipotezę zerową.
W zasadzie moglibyśmy nawet badań nie robić, bo i tak nie odrzucimy żadnej hipotezy zerowej. Nawet tej fałszywej. To z kolei prowadzi do tego, że jeśli w rzeczywistości jest jakiś efekt, jakaś różnica między grupami, czy korelacja, to i tak nie uznamy jej istnienia. A więc popełnimy błąd II-go rodzaju. W tej serii badań cały czas będziemy popełniać błąd drugiego rodzaju. To oznacza, że popełnimy 100% błędów drugiego rodzaju, chcąc wyzerować błędy pierwszego.
KONSEKWENCJE MINIMALIZACJI BŁĘDU II-GO RODZAJU - Wykorzystajmy jeszcze raz przykład prawniczy. W przykładzie prawniczym błąd II-go rodzaju oznacza błędne odrzucenie prawdziwej hipotezy alternatywnej (a brzmi ona tak: dana osoba jest przestępcą) i przyjęcie fałszywej hipotezy zerowej (dana osoba jest niewinna). Chcemy, aby było idealnie i perfekcyjnie, czyli w żadnym ze 100 przypadków nie popełnić tego błędu. Zatem w obawie przed popełnieniem błędu II-go rodzaju zwanego β profilaktycznie i przezornie uznajemy, że wszyscy oskarżeni są winni. I kropka. Co się wówczas dzieje? Przestępcy słusznie siedzą za kratkami, ale osoby niewinne również wędrują do więzienia. Błąd II-go rodzaju jest równy zero, ale zmaksymalizowaliśmy błąd I-go rodzaju.
A tak naprawdę to, chcielibyśmy zminimalizować błąd I-go i błąd II-go rodzaju. Ale one są ze sobą powiązane. Wyzerowanie błędu II-go rodzaju pociągnie zmaksymalizowanie błędu I-go rodzaju. Jaki byłby odpowiedni kompromis między poziom błędu I-go a II-go rodzaju?
Test konserwatywny i test liberalny
Chcemy, żeby poziom popełniania błędów I-go rodzaju był równy 5%. Ale czy to przypadkiem nie jest tylko myślenie życzeniowe czy zwykłe chciejstwo? Może są testy, które odrzucają więcej hipotez zerowych i testy, które odrzucają mniej? Są. Nawet mamy dla nich nazwy 😁
Test, który ma tendencję do nieodrzucania hipotezy zerowej (częściej uważa, że hipoteza zerowa jest prawdziwa), to test, którego rzeczywisty poziom błędu I-go rodzaju nie przewyższa nominalnego, najczęściej 5-procentowego progu, jest nazywany testem konserwatywnym.
Dlaczego piszę:"rzeczywisty"? Bo zawsze można w laboratorium sprawdzić, czy test naprawdę odrzuca 5%, czy może mniej. To laboratorium to są symulacje i dzięki temu wiemy, że niektóre testy mimo, że na etapie ich projektowania chcieliśmy aby myliły się dokładnie 5%, to jednak nie osiągają tego pułapu (to tylko na pozór dobrze). Pamiętaj, jeśli test jest konserwatywny, to popełnia mniej błędów I-go rodzaju, a kosztem tego jest zwiększenie błędów II-go rodzaju.
TEST KONSERWATYWNY - Wyobraź sobie wielokrotne wykonywanie tego samego badania, a więc tego samego testu. Jak sama nazwa wskazuje, hipotezy zerowe zwykle mówią o braku efektu. Za to hipotezy alternatywne - o tym, że coś istnieje, co czyni je bardziej postępowymi. Z tej perspektywy taki test, który nie chce być postępowym a pragnie zachować status quo jest testem konserwatywnym.
Jeśli badacz chce popełniać mało błędów I-go rodzaju to oznacza, że chce rzadko odrzucać prawdziwe hipotezy zerowe. Aby rzadko odrzucać prawdziwe hipotezy zerowe, trzeba rzadko odrzucać hipotezy zerowe. Żeby rzadko odrzucać atrakcyjnych partnerów, trzeba rzadko odrzucać partnerów w ogóle. Ta strategia ma swój koszt - skoro rzadko odrzucać, to znaczy częściej przyjmować hipotezy zerowe. A to oznacza, że może zdarzać się przyjmowanie fałszywych hipotez zerowych. Przyjęcie fałszywej hipotezy zerowej to odrzucenie prawdziwej hipotezy alternatywnej, a hipotezy alternatywne mówią o istnieniu jakiegoś efektu. Skoro rzadko je przyjmujemy, to jesteśmy dość konserwatywni: częściej twierdzić, że nie ma efektu niż, że jakiś jest.
Hipotezy zerowe mówią zwykle o braku istnienia jakiegoś efektu, a konserwatywny jest słowem o etymologii łacińskiej (conservare znaczy przechowywać, zachowywać) i ma znaczenie zachowawczy (‘lepiej nic nie zmieniać’), więc test, który ma tendencję do nieodrzucania hipotezy o zerowym efekcie, jest testem konserwatywnym. Taki test myśli sobi: na wszelki wypadek niczego nie wynajdę, co bym nie musiał się martwić, że społeczeństwo się zmieni.
Taki test, który w wielokrotnym powtórzeniu tego samego badania ma obniżony poziom błędu I-go rodzaju ma jednocześnie podwyższony poziom błędu II-go rodzaju.
| Test konserwatywny jest jak człowiek, który nikomu nie wybacza. Test liberalny - jak ten, który wybacza wszystko.
TEST LIBERALNY - Test liberalny to test, który nie jest testem konserwatywnym. Niektórzy nazywają je antykonserwatywnymi. Jeśli czytasz te słowa po przeczytaniu poprzedniego akapitu, najbliższa treść powinna być intuicyjna - a przynajmniej bardziej intuicyjna. Jeśli test jest testem liberalnym, to znaczy, że nie chce zachowywać ustalonego status quo. Wobec tego, będzie częściej odrzucał hipotezę zerową i - zarazem - częściej przyjmował hipotezę alternatywną. To oznacza, że spadnie mu błąd II-go rodzaju, ale jednocześnie wzrośnie błąd I-go rodzaju. Test, który ma rzeczywisty poziom alfa wyższy niż 5%, czyli mimo tego, że teoretycznie powinien popełniać nie więcej niż 5% pomyłek w rzeczywistości popełnia ich więcej.⬛️
Więcej informacji…
➡️Błąd II-rodzaju jest związany z analizą mocy - techniką statystyczną, która służy do wyznaczania potrzebnej wielkości próby. Jeśli błąd II-go rodzaju wynosi 20%, to moc testu wynosi 80%. Więcej tu: KLIK
➡️ Częstościowa interpretacja działa również w przypadku 95% przedziału ufności, który oznaczał, że gdybyśmy przeprowadzili doświadczenie wiele, wiele razy i za każdym razem obliczali przedział ufności, to 95% z nich zawierałoby prawdziwą wartość parametru. Jeden konkretny przedział ufności zawiera, albo nie zawiera - tego nie wiadomo. Podobnie tutaj: kontrolujesz błędy I-go i II-go rodzaju w teoretycznym ciągu replikacji eksperymentu, ale w konkretnym przypadku nie wiesz, jak jest.
➡️ Błąd I-go rodzaju nie jest istotnością statystyczną lub p-wartością, wbrew temu, co niektórzy piszą, a brzmi to mniej więcej tak:"Istotność statystyczna to prawdopodobieństwo popełnienia błędu pierwszego rodzaju, jeśli hipoteza zerowa jest prawdziwa." Dlaczego to problem? Momenty czasowe nie zgadzają się. Błąd I-go rodzaju jest ustalany przed przeprowadzeniem badania. Wynosi 5%. Istotność statystyczna (p-wartość) to coś, co obliczane jest po jego przeprowadzeniu.
Brak komentarzy:
Prześlij komentarz