metodologia.doc

(236 KB) Pobierz

1.      Miary tendencji centralnej (podstawowe):

- średnia arytmetyczna:  suma wartości wszystkich jednostek zbiorowości statystycznej, podzielona przez liczebność tej zbiorowości (tj. liczbę tych jednostek). Wzór na średnią arytmetyczną ma postać:

[wzór]

gdzie: M - średnia arytmetyczna, x1,x2,...,xn - poszczególne wartości pojedynczych jednostek zbiorowości statystycznej, n - ogólna liczebność badanej zbiorowości (tj. liczba wszystkich jednostek wchodzących w skład zbiorowości statystycznej)

- modalna: wartość najczęściej występująca w zbiorowości (zbiorze danych).

- mediana: wartość środkowa; wartość mediany wskazuje nam, że połowa naszych wyników ma wartość poniżej wartości mediany, a druga połowa ma wartość powyżej wartości mediany.

 

2.      Miary dyspersji

 

- wariancja: informuje o tym, jak duże jest zróżnicowanie wyników w danym zbiorze wyników (zmiennej).

- odchylenie standardowe: mówi, jak szeroko wartości jakiejś wielkości (tj. np. wiek) są rozrzucone wokół jej średniej. (czy rozrzut wyników wokół średniej jest niewielki czy wielki.) Im mniejsza wartość odchylenia tym obserwacje są bardziej skupione wokół średniej.

- rozstęp: różnica między wartością maksymalną a minimalną z naszego zbioru obserwacji.

 

3.      Miary skośności

 

- skośność: miara symetrii

- kurioza: miara spłaszczenia rozkładu wartości cech.

 

4.      Rozkład normalny (krzywa Gaussa)

 

 

 

5.      Skale pomiarowe wg Stevensa

- nominalna pozwala elementy klasyfikować ze względu na posiadany wariant badanej cechy. Skala musi być rozłączna i zupełna. Zupełna tzn. , że każdy badany element musi znaleźć odpowiednie miejsce w odpowiedniej kategorii. Rozłączny oznacza, że nie może istnieć element, który da się zaszeregować do więcej niż jednej kategorii.

Zmienne mierzone na skali nominalnej można zdefiniować jako wyszczególnienie występujących przypadków. Zmienna mierzona na skali nominalnej nie wartościowuje poszczególnych przypadków, tzn. nie można określić, który z przypadków jest lepszy/większy/szybszy/itd. od innego. Dla zmiennej mierzonej na skali nominalnej możemy obliczyć dominantę, ale nie można obliczyć mediany i średniej.

Przykłady:
Płeć: kobieta, mężczyzna
Pora roku: lato, jesień, itd...
Kolor oczu: piwne, niebieskie, itd...

 

- porządkowa : pozwala ustalić relacje między jednostkami pod względem natężenia badanej cechy

Zmienne mierzone na skali nominalnej można zdefiniować jako uszeregowanie poszczególnych przypadków ze względu na jakąś właściwość (przypadki można uporządkować wg. danego kryterium). Możemy obliczyć dominantę, medianę; średniej nie możemy wyznaczyć, a przez to nie można wyznaczyć np. odchylenia standardowego czy wariancji

Przykłady:
Wykształcenie: podstawowe, zawodowe, średnie, wyższe
wielkość miejsca zamieszkania: wieś, miasto, metropolia
Wzrost: niski, średni, wysoki

 

- interwałowa(przedziałowa): istnieje jednostka miary, wynik jest wyrażony liczbą i istniej zero względne; wynik testu traktujemy jako podział na skali przedziałowej.

Zmienna jest na skali interwałowej, gdy różnice między dwiema jej wartościami dają się obliczyć i mają interpretację w świecie rzeczywistym, jednak nie ma sensu dzielenie dwóch wartości zmiennej przez siebie. Innymi słowy określona jest jednostka miary, jednak punkt zero jest wybrany umownie.

Przykłady:

daty, np. data urodzenia, temperatura w stopniach Celsjusza

 

- ilorazowa(stosunkowa) jest to skala, na której wynik pomiaru wyrażony jest liczbą; istnieje jednostka miary i zero absolutne;

Zmienna jest na skali ilorazowej, gdy stosunki między dwiema jej wartościami mają interpretację w świecie rzeczywistym.

Przykład: temperatura w stopniach Kalwina

 

6.      Testy statystyczne weryfikujące hipotezy:

 

A)    WERYFIKUJĄCE ISTOTNOŚĆ RÓŻNIC

B)    BADAJĄCE SIŁĘ ZWIĄZKU, KORELACJE

 

7.      Kryterium doboru testów:

1)     skale pomiarowe zmiennej

2)     charakter danych (zależne, niezależne)

3)     wielkość grupy

4)     liczebność grup porównawczych

 

 

8.      Grupy testów

1)     test t-studenta (dla danych zależnych i niezależnych, test istotności różnic średnich arytmetycznych dla zmiennych ilościowych)

Testy t-Studenta służą do porównania ze sobą DWÓCH grup. Nie więcej! Korzystamy z nich wtedy, gdy mamy wyniki dla dwóch grup i chcemy porównać je ze sobą - tzn. stwierdzić, czy wyniki w jednej grupie są większe bądź mniejsze niż w drugiej grupie.

Standardowo istnieją trzy rodzaje testu t-Studenta:
- dla jednej próby
- dla prób niezależnych
- dla prób zależnych

2)     test U-Manna Whitneya do porównania 2 grup zmienna jest na skali porządkowej

to test nieparametryczny

Stosujemy go w celu porównania dwóch grup danych, gdy:

- dane są mierzalne (ilościowe), ale ich rozkład zdecydowanie odbiega od rozkładu normalnego (czyli nie jest spełnione założenie testu t-Studenta) - w takim przypadku możemy hipotezę zerową formułować jako brak istotnej różnicy średnich arytmetycznych; oczywiście test Manna i Whitneya możemy też zastosować do danych spełniających założenia testu t-Studenta; pamiętajmy jednak, że jego moc wynosi wówczas około 95% mocy testu t-Studenta;

- dane są typu porządkowego - w tym przypadku hipoteza zerowa zakłada, że badane grupy pochodzą z tych samych populacji, tzn. rozkłady danych w analizowanych grupach nie różnią się istotnie; dla danych porządkowych nie można bowiem obliczać wartości średniej, a prawidłową miarą tendencji centralnej jest mediana.

Punktem wyjścia w teście Manna i Whitneya jest nadanie wynikom obserwacji rang. Z tego powodu test ten znany jest również pod nazwą testu Wilcoxona dla sumy rang. Rangowanie przeprowadzamy następująco:

1. Porządkujemy rosnąco wartości obu prób.

2. Zaczynając od wartości najmniejszej (lub największej), przyporządkowujemy poszczególnym obserwacjom kolejne liczby naturalne.

3. W przypadku wystąpienia wartości jednakowych przyporządkowujemy im tzw. rangi wiązane (średnia arytmetyczna z rang, jakie powinno im się przypisać).

3)     test Wilcoxona (do porównania 2 pomiarów , dane zależne zmienna na skali porządkowej) dla par obserwacji jest nieparametryczną alternatywą dla testu t-Studenta dla przypadku dwóch równolicznych próbek dających się połączyć w pary. Często używa się tego testu do porównywania danych zebranych przed i po eksperymencie, w celu zbadania, czy nastąpiła istotna statystycznie zmiana.

O ile test t-Studenta sprawdza hipotezę zerową o równości średnich arytmetycznych w odpowiadających im populacjach, test Wilcoxona weryfikuje równość median.

Tak jak test t-Studenta, test Wilcoxona bazuje na różnicach pomiędzy wartościami cech z porównywanych zbiorów, stąd również wymaga zmiennych na skali interwałowej. W przeciwieństwie jednak do testu t-Studenta, nie posiada założeń dotyczących rozkładu próby. Może zatem być używany w sytuacjach, gdy założenia testu t-Studenta nie są spełnione.

testem Wilcoxona dla dwu próbek jest nieparametrycznym testem do sprawdzenia czy wartości próbek pobranych z dwu niezależnych populacji są jednakowo duże. Jest jednym z najbardziej popularnych nieparametrycznych testów znamienności. W ogólnym przypadku zakłada się, że: à wszystkie obserwacje, dla obydwu grup, są niezależne statystycznie,                    à zmienne X i Y mierzone są na skali porządkowej, a więc dla dowolnej pary obserwacji, można określić ich uporządkowanie: stwierdzić ich równość lub wskazać na większą spośród nich. -àtestowaną hipotezą zerową jest symetria względem prawdopodobieństwa większej wartości jednej ze zmiennych, a więc hipoteza zerowa zakłada jednakowe prawdopodobieństwo X > Y i Y > X: P(X > Y)=P(Y > X). à hipotezą alternatywną jest asymetria względem prawdopodobieństwa większej wartości jednej ze zmiennych, a więc w wersji dwustronnej testu, że prawdopodobieństwo X > Y jest różne od prawdopodobieństwa Y > X (w wersji jednostronnej, hipotezą alternatywną jest P(X > Y) > P(Y > X) lub P(X > Y) < P(Y > X)).

 

4)     test Kruskala Wallisa porównanie wielu grup, zmienna na skali porządkowej

rangowy test statystyczny porównujący rozkłady zmiennej w k > 2 populacjach. Test nie zakłada normalności rozkładów. Niekiedy uważany jest za nieparametryczną alternatywę dla jednoczynnikowej analizy wariancji pomiędzy grupami.

Hipotezą zerową H0 jest równość dystrybuant rozkładów w porównywanych populacjach.

Danymi wejściowymi jest n\;-elementowa próba statystyczna podzielona na k\;rozłącznych grup o licznościach n_1, n_2, \dots n_k. Zakłada się, że każda grupa jest losowana z innej populacji.

Wykonywane jest rangowanie całej próby (połączone wszystkie grupy). Niech Rij oznacza rangę w całej próbie j-tego elementu z i-tej grupy.

Statystyka testowa Kruskala-Wallisa:

T=\frac{12}{n(n+1)}\sum\limits_{i=1}^k n_i\left( \overline{R}_i-\frac{n+1}{2}\right) ^2

gdzie:

\overline{R}_i=\frac{1}{n_i}\sum_{j=1}^{n_i}R_{ij}

Statystyka ta jest miarą odstępstwa średnich próbkowych rang od wartości średniej wszystkich rang, równej (n+1)/2.

Dokładne obliczenie rozkładu tej statystyki wymagałoby sprawdzenia wszystkich układów rang. W praktyce, do obliczania p-wartości korzysta się z twierdzenia, mówiącego, że przy (jednocześnie):

- spełnionej hipotezie H0

- ciągłym rozkładzie cechy w porównywanych populacjach

- minimalnych licznościach grup n_1,n_2,n_3>5\;dla k=3\;lub n_1,n_2,\dots,n_k>4dla k>3\;

zachodzi:

P\{T\leqslant t\}\rightarrow P\{\chi_{k-1}^2\leqslant t\}dla t\rightarrow \infty

gdzie \chi_{k-1}^2to zmienna o rozkładzie chi-kwadrat z k − 1 stopniami swobody.

 

jest nieparametrycznym odpowiednikiem jednoczynnikowej analizy wariancji. Za pomocą tego testu sprawdzamy czy n niezależnych próbek pochodzi z tej samej populacji, czy z populacji z taką samą medianą. Poszczególne próbki nie muszą mieć takiej samej liczebności. Maksymalnie możemy porównywać 10 grup.

 

5)     Friedmana (porównanie wielu pomiarów (dane zależne) zmienna na skali porządkowej

jest nieparametrycznym odpowiednikiem jednoczynnikowej analizy wariancji dla pomiarów powtarzanych. Uważany jest za najlepszy nieparametryczny test dla danych tego rodzaju. Najczęściej są to wyniki dla tych samych osób otrzymane w n (n >>2) różnych badaniach lub wyniki równoważnych grup osób.

test Kruskala Wallisa i Friedmana à to nieparametryczne odpowiedniki analizy wariancji  Warunkiem ich użycia  jest  sprawdzenie założeń. Jeśli nie zostały one spełnione, wyciągnięte wnioski nie są w pełni poprawne lub tracą wiarygodność. Testy te stają się też bezużyteczne dla danych jakościowych i danych typu porządkowego. Oba testy są dostępne w pakiecie STATISTICA. Można je znaleźć w module.

6)Analiza wariancji ANOVA/MANOVA (porównanie wielu pomiarów lub wielu grup zmienna na skali ilościowej)

ANOVA to metoda statystyczna, służąca do badania obserwacji, które zależą od jednego lub wielu działających równocześnie czynników. Metoda ta wyjaśnia, z jakim prawdopodobieństwem wyodrębnione czynniki mogą być powodem różnic między obserwowanymi średnimi grupowymi. Analiza wariancji została stworzona w latach dwudziestych przez Ronalda Fishera.

Modele analizy wariancji można podzielić na:

- modele jednoczynnikowe - wpływ każdego czynnika jest rozpatrywany oddzielnie, tą klasą zagadnień zajmuje się jednoczynnikowa analiza wariancji,

-modele wieloczynnikowe - wpływ różnych czynników jest rozpatrywany łącznie, tą klasą zagadnień zajmuje się wieloczynnikowa analiza wariancji.

Według kryterium podział modeli przebiega następująco:

...

Zgłoś jeśli naruszono regulamin