podstawy_statystyki_-_sciagij.doc

(118 KB) Pobierz
Jaka jest różnica między analizą wariancji a regresji

11. Jaka jest różnica między analizą wariancji a regresji?

Analiza wariancji polega na badaniu istotności wpływu wyodrębnionego czynnika klasyfikacyjnego (zabiegu) na zmienną objaśnianą. Hipoteza jaką chcemy weryfikować to: Ho = m1=m2=mr czyli wszystkie średnie we wszystkich wyodrębnionych populacjach są identyczne wobec hipotezy alternatywnej H1:mi¹mj dla co najmniej  jednej pary wskaźników i, j (i¹j).

Y=m+ai+eki

m - jest pewną nie znaną stałą wartością wspólną dla wszystkich populacji i równą ich średniej,

ai - jest również nieznaną stałą, która wyraża efekt i-tego poziomu czynnika klasyfikacyjnego na wartość obserwacji,

eki - jest zmienną losową wyrażającą łączny efekt wpływu różnych innych czynników o charakterze przypadkowym na wartość obserwacji i jest nazywana błędem losowym.

 

Analiza regresji zajmuje się wyznaczaniem funkcji f(x) na podstawie wartości zaobserwowanych Y dla różnych wartości X badamy np. zależność ilości spożywanego masła Y od ceny margaryny X.

Regresja - jest zależność zmiennej losowej Y od zmiennej X typu:

Y = f(x) + e

e - pewna zmienna losowa której wartość oczekiwana jest zero.

 

12. Wyjaśnij metodę najmniejszych kwadratów.

Jest to najstarsza metoda konstruowania estymatorów.

Idea metody najmniejszych kwadratów jest następująca: jeśli na podstawie próby (x1,x2,...,xn) szacuje się wartość średnią m. populacji to można opisać xi = m. + ei ,   i = 1,...,n

gdzie ei jest odchyleniem zmiennej Xi od m.

Należy oczekiwać że odchylenia te są małe gdyż obserwacje dostarczają pewnych informacji o m. Stąd, jako estymatora średniej m. można użyć takiej wielkości m. , która minimalizuje sumę:

 

14. Na czym polega metoda wszystkich regresji doboru zmiennych.

Liczba wszystkich funkcji regresji jest a^p. „Optymalny podzbiór: jest podzbiór o największym poprawionym współczynniku determinacji.

S=r^2-Adekuate (a stat)   dla danego a jeżeli:

Rs^2 > 1-(1-r^2)(1 + dn,p. ^a) jeżeli:

p.jest bardzo dużo i zmiennych niezależnych jest dużo) gdzie:

 

15. Jakie wnioski wyprowadzamy na podstawie przedziału ufności w funkcji regresji.

Przedział ufności (estymator przedziałowy) - jest przedziałem o końcach zależnych od próby, który z pewnym z góry zadanym prawdopodobieństwem pokrywa nieznaną wartość parametru.

Na podstawie przedziału ufności możemy wnioskować o wartościach średnich cechy Y jednocześnie dla wielu wybranych wartości cechy X.

 

16. Wyjaśnij co mierzy poprawiony współczynnik determinacji.

Współczynnik determinacji jest miarą dopasowania hiperpłaszczyzny regresji, wyznaczonej metodą najmniejszych kwadratów do danych empirycznych.

Jednakże przy dodawaniu zmiennych do modelu wartość współczynnika determinacji liniowej stale rośnie (z wyjątkiem sytuacji kiedy ocena parametru równa się zero). Tej wady nie ma współczynnik determinacji skorygowany ze względu na stopnie swobody. Określa jaką część całkowitej wariancji zmiennej zależnej stanowi wariancja reszt. Wartość skorygowanego współczynnika determinacji maleje przy wprowadzaniu zmiennych nie wywołujących znacznego przyrostu wyjaśnionej regresją sumy kwadratów odchyleń.

 

17. Co to jest reszta w analizie regresji.

Wartości zmiennej losowej wyznaczanej w następujący sposób:

ei = Yi - Yi (z daszkiem)

określamy jako reszty modelu.

Yi (z dachem) – teoretyczne wartości zmiennej Y (wyznaczane z próby).

 

18. Co mierzy współczynnik korelacji wielokrotnej.

Współczynnik ten przyjmuje wartości z przedziału <0;1> (kowariancja zmiennych Y i Y(z dachem) jest zawsze dodatnia. Współczynnik ten informuje o sile związku między zmienną Y a całym zespołem zmiennych x1, x2, itd.

 

19. W 2 czynnikowej analizie wariancji hipotezę o braku współdziałania czynników A oraz B odrzucono. Zinterpretuj wynik.

Oznacza to, że czynniki wpływające na zmienną objaśnianą są skorelowane i każda ocena zmiennej jest zależna od obu czynników jednocześnie.

 

 

20. Wyjaśnić jakie wnioski można wyprowadzić z analizy normalnego wykresu prawdopodobieństwa.

Wyniki z takiej analizy charakteryzują stopień skupiania się wartości zmiennej losowej wokół średniej w rozkładzie normalnym. np. 68% obserwacji mieści się w granicach jednego odchylenia standardowego (wokół średniej), około 95% w granicach dwóch odchyleń i 99% w granicach trzech. (reguła 3sigm).

 

ANALIZA RESZTOWA

polega na zbadaniu czy reszty empir. Ej=Yj-Yi^ mogą być traktowane jako próba losowa z rozkładu normalnego.

BLĄD II RODZAJU

błąd wnioskowania polegający na nie odrzuceniu hipotezy gdy w rzeczywistości jest ona fałszywa.

BŁĄD I RODZAJU

błąd polegający na odrzuceniu hipotezy gdy w rzeczywistości jest ona prawdziwa .

CECHY CIĄGŁE

mogą przyjmować wartości rzeczywiste np. waga, wzrost.

DOMINATĄ

Do (modą) zmiennej losowej X nazywamy wartość x zmiennej losowej, której odpowiada największe prawdopodobieństwo w przypadku zmiennej losowej skokowej, maksimum lokalne funkcji gęstości - w przypadku zmiennej losowej.

DOPEŁNIENIE ALGEBRAICZNE

wyznaczamy Aij powstałej z macierzy A przez określenie  i-tego wiersza oraz j-tej kolumny

DYSTRYBUANTĄ

zmiennej losowej X nazywamy funkcję F(x) określoną na zbiorze liczb rzeczywistych.: F(x) = P(X<=x).

Przyjmuje ona wartości równe prawdopodobieństwu tego, że zmienna losowa X przyjmie wartość nie większą od wartości argumentu.

ESTYMACJA MODELU REGRESJI

Do estymacji tego modelu wykorzystuje się metodę najmniejszych kwadratów

ESTYMATOR

 

Estymatorem Tn parametru q rozkładu populacji generalnej nazywamy staystykę z próby Tn = t (X1,X2 ITD.) która służy do oszacowania wartości tego parametru.

Rozkład estymatora jest zdeterminowany przez rozkład zmiennej losowej X a przy tym jest zależny od parametru q.

ESTYMATOR

rozsądne oszacowanie wartości parametru.

ESTYMATOR PUNKTOWY

jest funkcją próby 0~^=0`^(x1,x2...xn) w rozsądny sposób przybliżający wartość parametru 0~(~jest w 0 a ^ nad)

FUNKCJA REGRESJI (WIELORAKIEJ)

Funkcję m1 (x1,x2 itd.) której wartościami są warunkowe wartości oczekiwane zmiennej losowej Y nazywamy funkcją regresji (wielorakiej / wielokrotnej) I rodzaju zmiennej losowej Y względem zmiennych losowych X1, X2 itd.

HIPOTEZA STATYSTYCZNA

rozumie się dowolne przypuszczenie co do rozkładu populacji generalnej. Prawdziwość tego przypuszczenia jest oceniana na podstawie wyników próby losowej.

HIPOTEZA STATYSTYCZNA

dowolne przypuszczenie dot. rozkładu prawdopodobieństwa cechy (oznaczenie Ho).

JEDNOCZYNNIKOWA ANALIZA WARIANCJI:

 

warunki:

I. zmienne niezależne występują lub nie

II. każda X obserwacji zmiennej Y uzależniona jest tylko od jednej ze zmiennych niezależnych.

KLASYCZYNY MODEL REGRESJI LINIOWEJ

Każdej ustalonej wartości jednej zmiennej powiedzmy X druga zmienna losowa czyli Y ma warunkowy rozkład z wartością oczekiwaną.

E (Y[X = x) ax +b

KWANTYL

Kwantylem rzędu p. (0<p.<1) w rozkładzie empirycznym nazywamy taką wartość cechy kp dla której - jako pierwszej - dystrybuanta empiryczna spełnia warunek Fn (kp) >= p.

Kwantyle są rzędu 0,25, 0,5 0,75 i oddzielają one 25% obserwacji o wartościach niższych i 75 obserwacji o wartościach wyższych.

 

Kwantylem rzędu p. zmiennej losowej X nazywamy wartość Kp spełniającą nierówności

P.(X<=kP)>=P.         p.(x>=kP)>=1-P.       0<P.<1

MEDIANA ROZKŁADU EMPIRYCZNEGO

 

nazywamy taką wartość cechy że conajmnej połowa jednostek zbiorowości ma wartość cechy  nie większą od niej i równocześnie najmniej połowa jednostek ma wartość cechy nie mniejszą od tej wartości

MOC TESTU

jest to prawdopodobieństwo odrzucenia fałszywej hipotezy Ho i przyjęcia w to miejsce prawdziwej hipotezy alternatywnej.

MODEL JEDNOCZYNNIKOWY

rozpatrujemy oddzielnie dla pojedynczego czynnika jego wpływ na zmienną objaśnianą.

MODELWIELOCZYNNIKOWY

badamy wpływ na zmienną objaśnianą kilku czynników razem

OBSZAR PREDYKCJI

na jego podstawie możemy wnioskować o wartości średniej cechy Y jednocześnie dla wielu wybranych wartości cechy X.

ODCHYLENIE STANDARDOWE

Ze względu na to że miana wariancji są kwadraty jednostek w których mierzona jest badana cecha jako miary zróżnicowania używa się też dodatniego pierwiastka kwadratowego z wariancji, który określa się mianem odchylenia standardowego.

ODCHYLENIE STANDARDOWE RESZT

Pierwiastek kwadratowy z wariancji reszt Se określamy mianem odchylenia standardowego reszt.

ORTOGONALNE WEKTORY

A i B nazywamy ortogonalnymi  prostopadłymi E ai bi=0

PEŁNEGO RZĘDU

nie jest Macierz X gdy układ równań normalnych ma nieskończenie wiele rozwiązań.

PORÓWNYWANIE PROSTYCH REGRESJI:

zbadać równoległość, identyczność, istnienie punktu wspólnego.

...
Zgłoś jeśli naruszono regulamin