Rozkłady związane z normalnym

(normalny, t-Studenta, chi-kwadrat, Fishera)

 

1. Intuicje przestrzenne (takie uczone określenie na wykresy).

2. Teoria.

3. Ćwiczenie laboratoryjne.

 

Ad. 2 Teoria

 

I. Rozkład normalny (wielowymiarowy).

 

A. T-wymiarowy rozkład normalny (zwany także gaussowskim) jest jednoznacznie definiowany przez T-wymiarowy wektor wartości oczekiwanej m [to jest greckie małe „mi”] oraz macierz kowariancji S (T na T) kwadratową symetryczną i nieujemnie określoną. Kiedy macierz S jest dodatnio określona (a więc nieosobliwa) istnieje funkcja gęstości T-wymiarowego rozkładu normalnego dana wzorem:

             f(x|m,S) = (2p)-T/2(det(S)-1/2)exp{-1/2(x-m)’S-1(x-m)}

(gdzie p to oczywiście liczba pi, exp(.) oznacza funkcję potęgową o podstawie równej e (podstawa logarytmu natrualnego), natomiast det(S) to wyznacznik macierzy S. Notacja jest następująca: „x ma T-wymiarowy rozkład normalny: x~NT(m, S)” (czasem bez T, jeżeli wymiar wynika z kontekstu lub wynosi 1)

 

B. Momenty rozkładu normalnego 1,2 rzędu to (jak się łatwo domyślic – wartość oczekiwana m i macierz kowariancji S; momenty wyższych rzędów są przez te wielkości jednoznacznie wyznaczone. W rozkładzie normalnym momenty zawsze istnieją.

 

C. Liniowa transformacja wielowymiarowej zmiennej normalnej ma także rozkład normalny:

             Dla x~Nn(m, S); gdy y = b + Ax, to y~Nm(Am+b, ASA’)

(dla macierzy A wymiaru m na n i rzędu m)

 

D. W wypadku rozkładu normalnego nieskorelowanie (zerowe korelacje a więc i kowariancje) jest równoznaczne z niezależnością. Dla wielowymiarowej zmiennej losowej (wektora losowego) niezależność podwektorów jest równoznaczna z zerowaniem się odpowiednich bloków w macierzy kowariancji.

 

E. Standaryzowany rozkład normalny to rozkład o zerowej wartości oczekiwanej (wektorze zerowym) i jednostkowej wariancji (macierzy kowariancji równej I) (a więc i jednostkowym odchyleniu standardowym) x~N(0, I).

 

II. Rozkład chi-kwadrat c2 (jednowymiarowy).

 

A. Rozkład chi-kwadrat (jednowymiarowy) ze skalarnym parametrem n (liczba stopni swobody) jest szczególnym przypadkiem rozkładu gamma (z parametrami n/2 i ½). Istnieje także niecentralny rozkład chi-kwadrat którym się nie będziemy zajmować. Funkcja gęstości tego rozkładu ma postać:

   g(w|n) = [2(n/2)G(n/2)]-1exp(-w/2)wn/2-1 dla w>0 oraz przyjmuje 0 dla w <= 0. G(.) to funkcja gamma Eulera.

 

B. Rozkład chi-kwadrat o n stopniach swobody, tj. c2(n), to rozkład sumy kwadratów n standaryzowanych zmiennych normalnych:

dla n-wymiarowego x~Nn(0, I), w = x12 + x22 +   + xn2 = xx ma rozkład c2(n).

 

C. Jeżeli w B zmienne normalne mają wariancję wynoszącą s2 (zamiast 1), to s -2xx ma rozkład c2(n). Dla niezależnych zmiennych w1~c2(n1) i w2~c2(n2); w3=w1+w2~c2(n1+n2).

 

III. Rozkład t-Studenta (wielowymiarowy).

 

A. n-wymiarowy rozkład t-Studenta z wektorem niecentralności m, macierzą przecyzji W (kwadratową, symetryczną i dodatnio określoną) oraz skalarnym parametrem liczby stopni swobody n (małe „ni”) ma funkcję gęstości o postaci:

 

h(x|m, W, n) = G(n/2+n/2)[ G(n/2) (np)n/2]-10[det(W)]1/2[1+1/n(x-m)’W(x-m)]-(n+n)/2

 

gdzie G to funkcja gamma Eulera a det(W) to wyznacznik W. Przyjmuje się macierz precyzji W (jej odwrotność razy (n/n-2) to macierz kowariancji jeżeli istnieje) aby uniknąć problemów z istnieniem momentów. Rozkład t-Studenta ma skończoną wartość oczekiwaną oraz macierz kowariancji dla n>2. Dla n = 1 rozkład t-Studenta jest tożsamy z rozkładem Cauchy’ego, którego wartość oczekiwana fundamentalnie nie istnieje.

 

B. <Roboty drogowe! Podlega sprawdzaniu może być źle> jeżeli x~Nn(mi, s2I) (i to „jota” czyli wektor jedynek o wymiarze wynikającym z kontekstu); widać, że x grupuje n niezależnych zmiennych normalncyh o wartości oczekiwanej m oraz wariancji s2). Dla X = (1/n)xi oraz S2 = (1/n) (x-iX)’(x-iX) (są to identyczne formuły jak na wartość oczekiwaną i wariancję w rozkładzie dyskretnym lub z próby, X ma kreskę na dole bo nie umiem na górze):

             t = (n-1)1/2(X-m)/S     (to jest do sprawdzenia, proszę pominąć ten punkt)

ma rozkład t-Studenta o (n-1) stopniach swobody (jednowymiarowy, z zerowym parametrem położenia i jednostkowym parametrem wariancji według gęstości danej powyżej). Ten rozkład nie zależy od s2 i stąd cała uciecha, bo s2 zwykle nie znamy.

 

C. Jeżeli x ma jednowymiarowy standaryzowany rozkład normalny [x~N(0,1)] oraz w ma rozkład chi kwadrat o n stopniach swobody [w~c2(n)] przy czym w i x są niezależne, to:

             t = x(w/n)-1/2   ma rozkład t-studenta o n stopniach swobody. Przy rozkładzie t jeżeli podane są tylko stopnie swobody, to rozkład jest jednowymiarowy, parametr położenia jest zerowy a parametr precyzji jest równy 1.

Powyżej t to iloraz zmiennej normalnej standaryzowanej i pierwiastka ze zmiennej chi-kwadrat podzielonej przez liczbę stopni swobody. Wobec tego (i definicji rozkładu chi-kwadrat) rozkład t(1) czyli rozkład Cauchy’ego to rozkład ilorazu dwóch (niezależnych) standaryzowanych zmiennych normalnych (tako rzecze Greene (2000) str. 68 przypis).

 

D. W miarę wzrostu liczby stopni swobody do nieskończoności rozkład t-Studenta jest zbieżny do rozkładu normalnego [dowód podaje M. Fisz (1969) str. 367 ]. Dla liczby stopni swobody większej niż 100 w praktyce można przyjąć ich identyczność.

 

IV. Rozkład F Fishera (jednowymiarowy).

 

A. Funkcję gęstości rozkładu F proszę sobie znaleźć jeśli ktoś bardzo chce. Jej postać nie będzie nam do niczego potrzebna. (por. M. Fisz (1969) str. 373)

 

B. Dla niezależnych zmiennych w1~c2(n1) i w2~c2(n2), F= (w1/n1)/(w2/n2)~F(n1,n2) tj. ma rozkład F Fishera o n1, n1 stopniach swobody.

 

C. Gdy zmienna t~t(n), to t2~F(1,n), co wynika z III C oraz II B.

 

V. Rozkład formy kwadratowej.

 

A. Jeżeli x~Nn(m, S), to (x-m)’S-1(x-m)~c2(n) (gdzie S to macierz kwadratowa, symetryczna, dodatnio określona). Dowód podaje J. Geweke w JGLN p. 15. Szczególne przypadki dla S=I oraz S=s2I są podane wyżej (II B, C)

B. Jeżeli A1 i A2 to macierze kwadratowe stopnia n symetryczne idempotentne rzędu odpowiednio k1 i k2, przy czym A1A2 = 0 oraz x~Nn(0, I), to:

[(xA1x)/k1]/[(xA2x)/k2]~F(k1,k2).

(Dowód patrz j.w. John Geweke).

 

Literatura:

(czyli kto zrobił powyżej błędy, bo przecież nie ja)

Uwaga!! Te odnośniki nie zawierają prac fundamentalnych. Podaję tylko skąd przepisałem. Notatki J. Geweke są tu umieszczone ze względu na najlepszą (moim zdaniem) dla Państwa dostępność, ale to samo jest w wielu innych książkach.

 

Marek Fisz, Rachunek prawdopodobieństwa i statystyka matematyczna Warszawa, PWN 1969

William Greene Econometric Analysis (International Edition) wyd. 4. Prentice Hall (jakaś straszna ilość miast, ale Upper Saddle River jest chyba najważniejsze) 2000

John Geweke Notatki z wykładów (2000)

Jacek Osiewalski Bayesowska estymacja i predykcja dla jednorównaniowych modeli ekonometrycznych, Wyd. AE w Krakowie, Kraków 1991  (stąd jest przepisana wielowymiarowa gęstość rozkładu t-Studenta)