The Normal Story

Jak powstawał rozkład normalny?

Annały (pluralia tantum, tylko w liczbie mnogiej tak jak chrzciny) to uporządkowany rejestr wydarzeń ułożonych chronologicznie rok po roku; inaczej: ciąg rocznych dat wraz z wydarzeniami. W takich właśnie annałach rok 1809 jest tylko szarym, matowym paciorkiem na nitce historii. Nie jest tak mocno obecny w światowej pamięci jak 1939 (wybuch WWII), 1492 (odkrycie Ameryki), 1517 (reformacja Lutra) czy 2001 (WTC). Również w powszechnej pamięci polskiej nie jest żywy w przeciwieństwie do 1989, 966 lub 1410, które zna każdy ze szkoły. To, że rok 1809 zdecydowanie nie wyróżnia się niczym szczególnym, wcale nie znaczy, że wówczas zatrzymała się Ziemia. Wręcz przeciwnie ‒ wykorzystując względność ruchu, można powiedzieć, że uderzyła w mały meteoryt tym miejscem na mapie, w którym odnajdziemy wioskę pod niegdyś polskim miastem, Wiaźmą, dzisiaj znajdującym się w granicach Ukrainy (w okolicach tego Smoleńska).
Meteoryt, który odziedziczył nazwę Kikino (od sioła, na które spadł), był według poszukiwaczy meteorytów ledwie poślednim kamykiem. Ot, spadł, nie pozostawiając po sobie żadnych zniszczeń i nikt na niego nie zwrócił uwagi. Wzmiankę o nim można jedynie wyszperać w Podręczniku mineralogji [sic!] z 1931 r., „dziele zawierającym 970 figur w tekście oraz 3 tablice kolorowe i 1 tablicę roentgenogramów” (Tschermak, 1931, s. 1). 
Tymczasem po drugiej stronie globu, w Bostonie w stanie Massachusetts, 1809 to rok, w którym maski spadły z twarzy balowiczów – władze miasta wydały zakaz noszenia zasłon zdobionych pajetkami (tudzież cekinami) podczas balów i przyjęć. Czemu? Aby uniemożliwić młodym pokątnego ‒dosłownie i w przenośni – nadużycia mięty. Nie powinno nas to dziwić ze względu na purytańskie dusze praojców założycieli. Boston to dzisiaj duże miasto, piąte pod względem liberalności w USA (Tausanowicz, Warshaw, 2014), które miewało jednak swoje purytańskie wykwity (trudny dla wyobraźni zakaz urządzania świąt Bożego Narodzenia).
W tym samym 1809 roku Napoleon wygrał pod Wagram. Z Austrią. Bitwę. Z perspektywy 2018 roku to może i żadna wielka rzecz, ale ponad 200 lat temu sytuacja przedstawiała się zgoła inaczej. Po wybuchu rewolucji francuskiej, tej z lipcowym obaleniem Bastylii oraz zgilotynowaniem króla Francji z dynastii Burbonów i jego kontrowersyjnej po dziś dzień małżonki Marii Antoniny, sprawa nie przedstawiała się tak różowo, że pozostałe kraje europejskie ochoczo przyjęły do grona nową koleżankę z uśmiechami, grzecznie robiąc miejsce przy stole, „proszę, może ciasteczko?”. Ostatecznie pod nóż poszły nie dwie przypadkowe osoby, ale członkowie rodziny skoligaconej z innymi rodami królewskimi. Maria Antonina była austriacką księżniczką (gałąź rodziny Burbonów zasiada do dziś w Hiszpanii). Rody panujące w państwach europejskich chciały przywrócić monarchię we Francji, nie tyle po to, aby honorowo pomścić śmierć członków rodziny, ile by samemu nie skończyć tak samo. Obawiano się, że rewolucyjne idee rozleją się na inne kraje. Powstawały kolejne międzynarodowe koalicje przeciwko Francji i toczono z nią wojny. Przez większość czasu Francja była zwycięska. Tworzyły się pomniejsze republiki państewek ościennych. Skoro Napoleonowi Bonapartemu tak dobrze szło, to i Polska zaczęła wyglądać w jego kierunku, czy może też nas rzutem na taśmę nie wyzwoliłby spod jarzma zaborców – o tym właśnie mowa w drugiej zwrotce Mazurka Dąbrowskiego. Wagram z 1809 r. jest taką decydującą bitwą z pozytywnym rezultatem dla Napoleona. 
Tak, rok 1809 jest bardzo normalny, niewiele wydarzeń zatrzęsło płytami tektonicznymi historii, ku uciesze szkolnej dziatwy, zobligowanej do kucia dat na lekcjach. Czyżby? Poza Napoleonem jest jeszcze jedna osoba, dla której 1809 będzie przełomowy – Pierre Simon de Laplace. Ten francuski matematyk wtedy właśnie przeczyta wydaną dopiero co publikację innego uczonego, Karola Fryderyka Gaussa, o odkryciu Ceres. Nie chodzi tu bynajmniej ani o rzymską boginię wegetacji, ani o tłuszcz roślinny do smażenia pączków, ale o planetę karłowatą.
W książce tej, którą trudno uznać za beletrystykę, Gauss zamieścił obliczenia trajektorii Ceres ‒ jej wędrówki po niebie oraz jeszcze coś. W gąszczu matematycznych zawijasów Laplace dostrzega to, co uderzyło go z siłą większą niż meteoryt Kikino rypnął w Ziemię; coś, co sprawiło, że spadły mu z oczu klapki jak maski balowe z twarzy uczestników potańcówek w Bostonie w stanie Massachusetts, i coś co, podbiło statystykę jak Napoleon Austrię pod Wagram. Rozkład normalny.
Historia odkrycia rozkładu normalnego pokazuje, jak często my, ludzie dnia dzisiejszego, nie doceniamy żmudnych wysiłków i gorzkich porażek naszych poprzedników. To, co dla nas jest normalne i zwyczajne, dla innych było z trudem zdobytym osiągnięciem. Na przykład, naukowiec (lub naukowczyni) automatycznie zakłada, że każdy pomiar może być obciążony błędem. Że w ogóle ma sens powtarzanie pomiarów i błąd pomiaru to oczywiste towarzyszące zjawisko.
Nie zawsze tak było – eksperymenty nie zawsze miały współczesny status lepszej siostry wśród dwóch metod badawczych. Około 1660 Robert Boyle pisał tak: „Eksperymenty należy szacować poprzez ich wartość, a nie liczbę”. Dalej jest coś o ogromnych orientalnych perłach w koronie monarszej i ich przewadze nad mniejszymi, jubilerskimi, co ogólnie można zinterpretować jako stwierdzenie, że jeden dobry eksperyment wart jest miliona powtórzeń – może rozwiać więcej wątpliwości.
Dziś wiemy, że obecność błędów jest naturalnym zjawiskiem w nauce, choć pierwszą dziedziną, która musiała stawić im czoło – a może raczej cyrkiel – jest astronomia. Dlaczego akurat astronomia? Bo obliczyć miejsce położenia gwiazdy znaczy wiedzieć, gdzie się człowiek znajduje i nie zgubić się na lądzie i morzu. Starożytni Grecy spoglądali w górę i badali położenie gwiazd. Przypuszczali też, że pomiary różnią się, ale nie za bardzo wiedzieli, co z tym fantem zrobić. Nie wiedzieli też, jak zlepić wiele pomiarów w pojedynczą podsumowującą wartość. Dziś to dla nas nic trudnego: obliczamy średnią, która często niweluje wpływ błędu pomiarów. Do XVI wieku było zupełnie inaczej i dopiero wówczas (najpierw w astronomii) przyznano, że błędy to nieodzowny element nauki, który należy potraktować poważnie.
Wówczas Galileusz ‒ poza szukaniem dobrego powodu, aby dać spalić się na stosie za herezje (a herezją było wówczas powiedzieć, że Ziemia krąży wokół Słońca) ‒ jako jeden z pierwszych zajmował się naturą błędów. Wydedukował nawet parę mądrych wniosków: (a) jest jedna liczba, prawdziwa wartość, która opisuje dystans między gwiazdą a ziemią, (b) wszystkie obserwacje są obciążone błędami, (b) częstotliwość ich pojawiania się jest symetryczna wokół prawdziwej wartości i ‒ uwaga, uwaga ‒ małe błędy mają dużą częstotliwość, a duże błędy ‒ małą. Pratchett (1987) napisał potem, że „uczeni wyliczyli, że jest tylko jedna szansa na bilion, by zaistniało coś [tak] całkowicie absurdalnego. Jednak magowie obliczyli, że szanse jedna na bilion sprawdzają się w dziewięciu przypadkach na dziesięć” (s.7-8). Jak to pogodzić?
Prawdopodobnie przyczyną takiej niezgodność może być fakt, że Galileusz nie żył w świecie Dysku. Ziemski uczony tylko opisał zachowanie błędów. Gdyby powyższe rozważania o naturze błędów pomiarowych mógł zgrabnie przełożyć na język matematyki, to być może dziś rozkład normalny nazywalibyśmy galilejskim. W tamtych czasach Galileusz nie umiał w pojedynczym równaniu zawrzeć swoich spostrzeżeń. Nie mógł –rachunek różniczkowy dopiero czekał na odkrycie.
To właśnie równania różniczkowe pozwalają w obrębie jednego równania opisać zarówno cechę, jak i dynamikę jej zmian (wyrażoną w pochodnych). Rachunek różniczkowy musiał poczekać na Leibnitza i Newtona - obaj urodzili się już po śmierci Galileusza. Zatem historia potoczyła się tak, że Galileusz wprawdzie nie odkrył rozkładu normalnego, ale tok jego rozumowania wytyczył kierunek myślenia kolejnego uczonego, urodzonego ponad 100 lat po jego śmierci: Laplace’a.
Laplace, mając wyjściowy charakter błędów jako tzw. warunki brzegowe, przedstawił równanie różniczkowe opisujące zachowanie błędów. Gdyby udało mu się to jednoznacznie rozwiązać, uzyskałby rozkład normalny i którym potem może nazywalibyśmy rozkładem laplasjańskim. Niestety, Galileuszowe spostrzeżenia nie wystarczyły. Aby otrzymać jednoznaczne rozwiązanie w postaci wzoru funkcji, Laplace musiał dosztukowywać dodatkowe warunki brzegowe. Dwoił się i troił nad propozycjami, lecz coraz to nowsze pomysły nie przynosiły dobrego rezultatu: a to końcowe rozwiązanie wybuchało bezsensownie osobliwościami, a to pokazywało, że błąd może występować tylko w pewnym zakresie (tylko w pewnych warunkach to ma sens).
Wyglądało prawie jak wzór na rozkład normalny, ale jeszcze nim nie było. Można powiedzieć, że Laplace był blisko, że trafiał w deseń, ale nie we wzór. Męczył się nad tym problemem przez ponad 35 lat ‒ pierwsze propozycje zaczął składać, kiedy dopiero zaczynały się rozbiory Polski w 1772 r., i musiał zadowolić się jedynie przybliżonym rozwiązaniem. Do czasu.
Przesuńmy się 30 lat naprzód. W pierwszy dzień roku 1801 Piazzi oraz Ceres zobaczyli się po raz pierwszy. Podobnie jak Pluton, Ceres od 2006 r. była (nadal zresztą jest) planetą karłowatą. Piazzi zaś był włoskim uczonym, tak jak wielu innych uczonych też zakonnikiem. Jednak zanim zdołał dobrze przyjrzeć się Ceres, umknęła za tarczę słoneczną. Piazziemu pozostało na pamiątkę kilka pomiarów i typowo naukowa chęć sprawdzenia, czy odkrył planetę, czy kometę. Należało więc wyznaczyć miejsce jej ponownego wychylenia się zza Słońca. Znalezienia tego miejsca podjął się między innymi Gauss. Gauss był niemieckim uczonym, matematykiem i ... nie, on akurat nie był zakonnikiem.
Był synem niepiśmiennej matki, ale miał dobrze działającą korę mózgową i błyskotliwy umysł.W ciągu kilku miesięcy obmyślił rewolucyjną jak na tamte czasy metodę, znaną dziś jako metoda najmniejszych kwadratów (MNK). O co w niej chodzi? Najprościej mówiąc, bada się najkrótszą odległość punktu od prostej, która przezeń nie przechodzi (bo gdyby przechodziła, to ta odległość wynosiłaby zero). Najkrótsza odległość punktu od prostej wiedzie wzdłuż odcinka, który jednocześnie jest odcinkiem prostopadłym – prostopadłym do tej prostej.
Gauss miał kilka pomiarów Ceres, bodaj trzy, więc i my załóżmy, że mamy garść leżących w nieładzie punktów, rzuconych na ziemię niedbale jak kurom ziarno. Chcemy stworzyć prostą przebijającą na wylot ten zbiór, lecz nie byle jaką prostą, tylko prostą, która w jak najlepszy sposób pokazuje charakter tej chmury punktów: gdy punkty unoszą się, będzie ona rosnąć; gdy punkty opadają, będzie maleć (można to wyrazić bardziej profesjonalnie w terminach współczynników kierunkowych prostej, ale zostawmy liceum na boku).
Ponieważ nie da się wszystkich umieścić na jednej prostej, bo wyszłaby łamana, to po chwili zastanowienia okazuje się, że trzeba wziąć prostą, do której wszystkie ziarenka będą miały jak najbliżej, czyli prostopadle. Takich prostych będzie bardzo, bardzo dużo. W takim razie trzeba przyjąć jakieś kryterium oceny. Przydałby się jakiś drobny arytmetyczny zabieg, który wyolbrzymiłby i tak już duże odległości, a umniejszył te, które są małe – podniesienie do kwadratu i zsumowanie, tak aby mieć zbiorczą liczbę, wskaźnik. Szukanie sprowadzi się wtedy do znalezienia jednej takiej prostej, dla której powyższy wskaźnik będzie jak najmniejszy.
Współcześnie używamy tej metody w nieco zmienionej wersji, zobaczycie to po narysowaniu powyższej instrukcji na kartce papieru. Idea pozostaje ta sama. Powstałą prostą wówczas nazywa się prostą MNK, a metodę – metodą najmniejszych kwadratów. Tak to sobie wymyślił Gauss. Okazuje się, że przy zastosowaniu MNK dostajemy prostą, która po pierwsze: w najbliższym stopniu oddaje charakter chmury punktów, po drugie: minimalizuje w możliwie największym stopniu rozproszenie punktów od tej prostej i po trzecie: rozkład tych odległości jest rozkładem normalnym.
O odległości punktu (obserwacji) od prostej można myśleć inaczej: skoro obserwacja powinna być na prostej, ale jest pod nią lub nad nią, to odchylenie od tejże prostej można potraktować jako błąd (obserwacji).
Obecnie powyższe zagadnienie przedstawiamy w formie pytania o parametr położenia przy zadanym zbiorze obserwacji – rozwiązują je uczniowie z liceum lub studenci na zajęciach z analizy regresji ‒ wystarczy zastosować odpowiednie wzory. Jeśli komuś się nie chce, to włącza program statystyczny. Za Gaussa były tylko liczydła. Rzeczywistość zweryfikowała przewidywania młodego matematyka: dzień przed Gwiazdką 1801 znaleziono Ceres dokładnie w tym miejscu, na które wskazywały jego wyliczenia. Podanie przewidywanego miejsca położenia obiektu niebieskiego natychmiast wyniosło Dra Gaussa do statusu rozpoznawalnej gwiazdy wśród uczonych – i to bez kręcenia taśm video. Kiedy Laplace zobaczył właśnie te obliczenia Gaussa w publikacji z 1809 r., doznał olśnienia.
Wrócił do swoich prac i w następnym roku opublikował Centralne Twierdzenie Graniczne, nadając funkcji opisującej zachowanie błędów nazwę rozkład Gaussa. Oczywiście na szczyt można wejść kilkoma sposobami: punktem wyjścia dla Gaussa i Laplace'a była teoria błędów. Inny matematyk, de Moivre, na przykład wybrał podejście od strony rachunku prawdopodobieństwa. W wyniku obliczeń otrzymał rozkład normalny, przy czym... w ogóle nie docenił swojego odkrycia. Jest to o tyle zaskakujące, że był to rok 1738 – jednego dziadka wcześniej niż odkrycie Gaussa i Laplace'a.
Na koniec pozostają dwa pytania: dlaczego rozkład normalny jest normalny? Patrząc na kątownik stolarski, trudno dostrzec odpowiedź. Przepraszam, że co? Już wyjaśniam. Kątownik to narzędzie o dwóch ramionach – jednym drewnianym, drugim metalowym – tworzących dużą literę L. Po jego kształcie można domyślić się, że służy ono stolarzowi do wyznaczania pewnego szczególnego kąta – kąta o 90 stopniach. Kąt jest dość szczególny, zważywszy choćby jego nazwę – mamy wiele kątów ostrych i rozwartych. I tylko jeden kąt prosty na cały świat. W praktyce kąt prosty jest bardzo ważny – gwarantuje na przykład, że budynek ma najmniejszą szansę na zawalenie się, jeśli jego ściany są położone pod kątem prostym do podłogi. Co więcej, kąt prosty jest punktem wyjścia w trygonometrii – małej ambasadzie psychologii w geometrii – opisującej relacje między kątami a odcinkami. Sinusy, cosinusy i tangensy są stosunkami w trójkącie prostokątnym: ich znajomość rozwiązuje wiele problemów budowlanych. Po łacinie kątownik stolarski to norma. Stąd normalny znaczy prostopadły. Gauss sam nazwał swoje równania (traktujące o odległościach) normalnymi. Chciał przenieść geometryczny posmak „prostopadłości” do nazwy.
Do rozpowszechnienia etykiety normalny przyczynił się Karl Pearson, aby ‒ jak to opisał ‒ uniknąć sporów o pierwszeństwo między nazwiskami. W 1920 r. napisał tak: „nazwałem krzywą Laplace'a-Gaussa krzywą normalną, choć nazwa, która unika międzynarodowej kwestii pierwszeństwa, ma tę wadę, że pozwala ludziom myśleć, że wszystkie inne rozkłady częstotliwości [sic!] są w pewnym sensie nienormalne.” (s.113, za: Stahl, 2006), choć zdawał sobie sprawę z tego, że jest to nieszczęśliwa nazwa, sugerująca że inne rozkłady są nienormalne (Jaynes, 2003).
Prawdę mówiąc, rozkład normalny jest w zasadzie „nienormalny”: symetryczny względem średniej (mało takich), jego średnia, mediana i moda (inaczej: dominanta) są w tym samym punkcie (bardzo mało jest takich), spełnia regułę trzech sigm (on sam). Posiada też kilka innych bardzo finezyjnych matematycznych właściwości, jednakże pozostawmy opisywanie ich urody podręcznikom matematyki. Natomiast szczęśliwy jest następujący zbieg okoliczności: rozkład normalny jest typowy w powszechniejszym znaczeniu tego słowa. Wiele zjawisk dookoła ma rozkład normalny. Dlaczego? Wynika to z Centralnego Twierdzenia Granicznego (CTG), o którym przeczytacie w poście o CTG.KLIK

4 komentarze:

W.K. pisze...

Literówka: Pretchett => Pratchett (Terry)
Bardzo interesująco opisane. Dziękuję.

Lilianna Jarmakowska-Kostrzanowska pisze...

Cześć! Dzięki, już poprawiłam. Literówki to moja zmora :-(
wesołych! - Lili.

Anonimowy pisze...

Cześć, wspaniały blog statystyczny. Przeczytałam z zainteresowaniem tekst o testowaniu normalności i mam pytanie - z czego wynikają rozbieżności między wynikami dla skośności, kurtozy i testu Sz-W, np. skośność 0,95, kurtoza -0,20 (czyli akceptowalnie), a test p=0,000* (liczebność próby 45). Czy im mniejsza próba, tym wyniki (s, k i Sz-W) będą się bardziej rozjeżdżać? Pracuję na małych próbach od 10 do 50. Jaka będzie w takim wypadku najlepsza "miara" normalności?

wetalk pisze...

Ogromny szacunek za ta dawkę wiedzy