DOBRE Statystyka opisowa.doc

(217 KB) Pobierz

str. 10

 

Statystyka opisowa

 

 

Statystyczne metody badania prawidłowości w zakresie struktury zjawisk masowych (10.X)

 

 

Jak pamiętamy są cztery rodzaje prawidłowości statystycznej:

1)       prawidłowość w zakresie struktury

2)       prawidłowość w zakresie dynamiki

3)       prawidłowość w zakresie współzależności w czasie

4)       prawidłowość w zakresie współzależności w przestrzeni

 

Badanie prawidłowości w zakresie struktury zjawisk masowych możemy w skrócie nazwać analizą struktury.

 

Podstawowymi formami prezentacji danych statystycznych w analizie struktury są szeregi szczegółowe i szeregi rozdzielne. Szeregi szczegółowe wykorzystujemy wówczas, gdy badanie dotyczy małych zbiorowości statystycznych (kilka, kilkanaście jednostek). Natomiast wraz ze wzrostem liczby jednostek zbiorowości wskazane jest prezentowanie materiału statystycznego w postaci szeregów rozdzielnych.

 

Szereg szczegółowy to najstarszy szereg statystyczny. Tworzą go wartości jednostek uporządkowane od wartości najmniejszych do największych. Nie mówimy więc tu o tabelarycznej formie prezentacji danych (bo jest tylko jeden wiersz).

W szeregu rozdzielczym mamy dwie kolumny: warianty badanych cech oraz liczby jednostek. Jest więc on tabelaryczną formą prezentacji danych. Widoczny jest rozkład badanej cechy w danej zbiorowości.

 

 

 

 

 

 

 

 


Istnieją też graficzne formy prezentacji danych. Do liniowych należą wielobok liczebności zwykły i skumulowany. Do powierzchniowych należą histogram zwykły i skumulowany. Formy te są graficznym przedstawieniem szeregów rozdzielczych przedziałowych. Jeżeli mamy szereg rozdzielczy punktowy, to stosujemy diagram punktowy.

 

Wybór szeregu punktowego i przedziałowego nie zależy od rodzaju badanej cechy (skokowego i ciągłego), choć w pewien sposób są one powiązane. Jednak głównie opieramy się na liczbie wariantów danej cechy.

 

 

Typy rozkładów empirycznych w zbiorowości statystycznej.

 

Rozkładem empirycznym badanej cechy nazywamy przyporządkowanie kolejnym wartościom cechy, odpowiadającym im liczebnościom. Szereg rozdzielczy dla cechy ilościowej to właśnie tabelaryczna forma przedstawienia rozkładu empirycznego badanej cechy zbiorowości statystycznej.

 

Rodzaje (cechy) rozkładu empirycznego:

1)       ze względu na liczbę punktów ekstremalnych; wyróżniamy jednomodalne (jedna wartość dominująca) i wielomodalne (kilka wartości dominujących)

 

 





 

 

 

 

 

                                       r. jednomodalny                                          r. trzymodalny

 

 

Wielomodalność jest często spotykana. Wiele zjawisk ma rozkład wielomodalny, np. staż pracy przyjmuje postać wykresu o  wyraźnych dwóch modach (jest to taka pewna prawidłowość tej cechy).

 

2)       Ze względu na rodzaj zmienności; wyróżniamy tu rozkłady empiryczne

a)       symetryczne (mają oś symetrii a po obu jej stronach rozkład ilości jest taki sam); rozkłady symetryczne można podzielić na normalne, spłaszczone i wysmukłe

 

 

 

 

 

 

 

 

 

     r. normalny                                        r. wysmukły                                r. spłaszczony

 

 

b)       asymetryczne (nie mają osi symetrii); dzielimy je na rozkłady o asymetrii lewostronnej i prawostronnej (przy czym każda z nich może być skrajna i umiarkowana)

 

Czasami nie warto liczyć średniej np. przy skrajnej asymetrii, wtedy trzeba odpowiednio dobrać parametry.

 



 

 



 

 

 

 

 

 

 

    asymetria prawostronna                          asymetria lewostronna

                                umiarkowana                                               umiarkowana

 

 





 

 

 

 

 

 

 

                      asymetria prawostronna                         asymetria lewostronna

                skrajna                                                   skrajna

 

 

c)       równomierne i u-kształtne

 

 

 

 

 

 





 

 

 

 

Parametry opisowe rozkładu wartości cechy zbiorowości statystycznej

 

Parametrem opisowym (charakterystyką, miarą) nazywamy liczbę, która w sposób syntetyczny określa właściwości badanych zbiorowości statystycznych.

 

Parametry opisowe umożliwiają:

1)       sumaryczny opis rozkładu cechy w zbiorowości statystycznej

2)       porównanie

a)       dwóch lub więcej zbiorowości pod względem  rozkładu tej samej cechy

b)       rozkładów dwóch lub więcej cech w ramach jednej zbiorowości

 

Zapoznajmy się teraz z klasyfikacją parametrów opisowych.

Parametry opisowe w analizie struktury dzielimy na pięć grup w zależności od tego, czego dane parametry są miarą:

1)       tendencji centralnej

2)       zróżnicowania

3)       asymetrii

4)       spłaszczenia

5)       koncentracji

 

W zależności od tego, jakie mamy rozkłady empiryczne, wybieramy odpowiednie miary parametrów opisowych, np. prze rozkładzie symetrycznym nie liczymy asymetrii.

 

Wszystkie parametry opisowe dzielimy na:

a)       klasyczne

-          są wypadkową wartości przyjmowanych przez wszystkie jednostki badanej zbiorowości statystycznej

-          w ramach danej grupy parametrów wykluczają się wzajemnie

-          przy ich obliczaniu nie jest konieczne porządkowanie jednostek

b)       pozycyjne

-          są wyznaczane na podstawie wartości jednej lub kilku jednostek zajmujących szczególną pozycję w badanej zbiorowości statystycznej

-          w ramach danej grupy parametrów uzupełniają się wzajemnie i uzupełniają miary klasyczne

-          przy ich obliczaniu konieczne jest uporządkowanie jednostek według wartości badanej cechy (zazwyczaj od najmniejszych do największych)

 

Parametry opisowe możemy też podzielić w inny sposób. Na parametry:

a)       absolutne - miary mianowane, wyrażone w takich jednostkach, w jakich ujęta jest badana cecha

b)       względne (stosunkowe) – niemianowane, najczęściej wyrażone w procentach

 

 

 

Miary tendencji centralnej charakteryzują poziom wartości badanej cechy w zbiorowości statystycznej. Wszystkie miary w tej grupie to wielkości absolutne.

 

I. Miary klasyczne

                                          - średnia arytmetyczna

                                          H - średnia harmoniczna

                                          CH  - średnia chronologiczna

                                          G  - średnia geometryczna

 

Dwie ostatnie średnie wykorzystywane są przede wszystkim w analizie dynamiki.

 

Podstawową miarą jest . Informuje ona jaka byłaby wartość cechy, gdyby wszystkie jednostki badanej zbiorowości były jednakowe, np. „przeciętny staż pracy wynosi 15 lat” jest równoważne ze stwierdzeniem „gdyby każdy z pracowników miałby mieć ten sam staż pracy to byłoby to 15 lat”.

Sposób obliczania średniej arytmetycznej zależy od formy prezentacji danych: dla szeregu szczegółowego obliczamy średnią arytmetyczną zwykłą, natomiast dla szeregu rozdzielczego średnią arytmetyczną ważoną (wagami są liczebności).

 

 

Warunki stosowania średniej arytmetycznej:

1)       konieczna jest znajomość wszystkich wartości badanej cechy

2)       zbiorowość powinna być jednorodna z punktu widzenia badanej cechy (czyli rozkład powinien się charakteryzować niewielkim zróżnicowaniem i słabą asymetrią)

 

Otwarte przedziały klasowe:

·          poniżej 20

·          20-29

·          30-39

·          40 i więcej

 

Sugerują one, że nie można policzyć , ale są dwa wyjątki:

a)       Przy otwartych przedziałach klasowych można obliczyć gdy są podstawy do domknięcia otwartych przedziałów klasowych, czyli liczebność w tych przedziałach jest nie większa niż 5% ogólnej liczebności badanej zbiorowości.

b)       Gdy nie ma przesłanek do domknięcia przedziałów klasowych, ale liczebność w tych przedziałach jest nie większa niż 1% ogólnej liczebności zbiorowości, można te przedziały pominąć.

 

Domknięcie powyższych przedziałów klasowych:

·          10-19

·          20-29

·          30-39

·          40-49 (rozpiętość ostatniego taka jak sąsiedniego!)

 

nie powinno się liczyć przy skrajnej asymetrii, dla rozkładu wielomodalnego lub u-kształtnego, bo traci ona sens poznawczy. Zapoznać się z własnościami średniej arytmetycznej (zwłaszcza tej że średnia arytmetyczna musi się mieścić między xmin i xmax)

 

Średnia harmoniczna (H) powinna być stosowana wówczas gdy wartości badanej cechy wyrażają stosunek między dwoma zjawiskami powiązanymi ze sobą w logiczny sposób, tzn. gdy badana cecha jest wskaźnikiem natężenia np. gęstość zaludnienia, pracochłonność produkcji, wydajność (wielkość produkcji : ilość zatrudnionych), koszt jednostkowy, współczynnik rentowności (ogólnie ujmując wszędzie gdzie mamy iloraz).

 

 

Wybór pomiędzy a H zależy od tego, czy mamy dane dotyczące wielkości w liczniku czy mianowniku. Jeśli znamy x i y to obliczamy średnią harmoniczną, jeśli x i z to arytmetyczną.

 

Jako że wszystkie te miary tendencji centralnej są miarami klasycznymi, to albo liczymy średnią arytmetyczną albo harmoniczną (wykluczają się wzajemnie). Sposób obliczania średnich zależy od sposobu prezentacji danych. Obie średnie są bardzo wrażliwe na wartości skrajne, mianowane.

 

 

II. Miary pozycyjne

 

Dominanta (D) oraz kwantyle.

 

Dominanta to wartość która występuje najczęściej w badanej zbiorowości.

Sposób wyznaczania dominanty zależy od formy prezentowa...

Zgłoś jeśli naruszono regulamin