Spis treści
1. Wstęp………………….……………..……………………………………………………………………3
2. Wykład 1………………...…………….………………………………………………………………….4
3. Wykład 2………………...…………..………………………………………………………………….5-6
4. Wykład 3………………..…………..…………………………………………………………………….7
5. Wykład 4………………………………………………………………………………………………8-10
6. Wykład 5…………..…………………………………………………………………………………11-13
7. Wykład 6……………...…………………………………………………………………………………14
8. Wykład 7…………………………………………………………………………………………….15-17
Wstęp
Witam serdecznie, na początku chciałabym podkreślić, że tytuł jest dla śmiechu, nie miałam zamiaru kogokolwiek urazić. Jeśli jednak tak się stało, to przepraszam.
W poniższym opracowaniu zamieszczam swoje odpowiedzi i wyjaśnienia dla Was jak do tego doszłam na pytania kontrolne do wykładów ze statystyki prowadzone w semestrze letnim w roku 2008 przez dr Bradtke, które znajdują się na stronie instytutu pod adresem: http://www.ocean.univ.gda.pl/dydaktyka/zof/kursy/Stat.htm
Pragnę podkreślić, że odpowiedzi są zazwyczaj krótkie i proste, największą trudność sprawia zrozumienie pytania.
Życzę miłej lektury.
Anna Werner J
Ja od siebie tylko dodam, że oba opracowania zmieniłam tak, żeby były jeszcze bardziej zrozumiałe.
W miarę jak będą się pojawiały nowe pytania kontrolne dla naszego semestru będę je sukcesywnie dodawała do opracowania. (To obecne będzie miało roboczo wersję 1.0)
Miłej nauki
LuSy Słomska J
WYKŁAD 1
1) W celu oszacowania przeciętnej wielkości omułka bałtyckiego odłowiono w sposób losowy 100 osobników, po czym określano długość muszli każdego z nich.
a) czym w badaniach jest populacja generalna, a czym próba?
Próba to zbiór wartości wielkości losowo odłowionych 100 osobników omułka bałtyckiego, a populacja to zbiór wartości wielkości wszystkich osobników omułka bałtyckiego.
b) podaj przykład statystyki i parametru
Statystyka to wartość liczbowa opisująca próbę, w tym przypadku np. średnia długość muszli 100 osobników omułka bałtyckiego (x). Parametr to wartość liczbowa liczona dla populacji, tu np. średnia długość muszli całej populacji omułka bałtyckiego (μ).
c) w jaki sposób należałoby odławiać omułki aby losowanie nazwać zależnym, a w jaki niezależnym?
Losowanie byłoby zależne, gdyby odłowiono od razu 100 osobników i zmierzono ich długość (bez zwracania), a losowanie niezależne, gdyby wyławiano po jednym osobniku, mierzono jego długość i z powrotem wrzucano do akwenu i tak 100 razy (ze zwracaniem), w tym przypadku występuje możliwość odłowienia kilkakrotnie tego samego osobnika.
2) Z jakiego rodzaju zmiennymi mamy do czynienia (jakościowe, jakościowe dychotomiczne, ilościowe interwałowe, ilościowe ilorazowe, ilościowe porządkowe) gdy analizujemy:
a) zbiór wyników pomiaru kierunków wiatru typu W, SW, N, NW,
- ilościowe porządkowe
b) zbiór wyników pomiaru prędkości wiatru wyrażonych w [m/s],
- ilościowe interwałowe
c) zbiór wyników pomiaru temperatury wody wyrażonych w [°C],
- ilościowe
d) zbiór wyników oznaczeń gatunku odławianych organizmów.
- jakościowe
3) Jeżeli liczebność próby wynosiła 15, to przedstawiony w tabeli szereg jest szeregiem szczegółowym, rozdzielczym prostym, czy rozdzielczym skumulowanym? Jak należy interpretować wartość 5 w drugim rzędzie kolumny „częstość”?
Szereg jest szeregiem rozdzielczym skumulowanym, ponieważ w takim szeregu wartości poszczególnych przedziałów są sumowane od pierwszego wiersza do końca (lub na odwrót) i największą wartością występującą w szeregu jest liczebność próby, w tym przypadku 15=n. Wartość 5 oznacza częstość występowania cechy w przedziale [0;4), ponieważ w tym przykładzie dodawano wartości od 1 wiersza do końca, więc do wartości dla przedziału [0;2) dodano wartość dla przedziału [2;4) i tak otrzymano wartość 5 z drugiego rzędu kolumny, następnie do otrzymanej wartości dodano tą dla przedziału [4;6) i otrzymano 7 itd. Na tym polega szereg rozdzielczy skumulowany.
WYKŁAD 2
1) Jeżeli wartości zmiennej X mniejsze od średniej stanowią ponad 50% wszystkich, to rozkład tej zmiennej może być symetryczny, lewoskośny czy prawoskośny?
Prawoskośny. Ponad 50% wartości jest mniejszych od średniej czyli znajduje się po lewej stronie od średniej, po lewej stronie wykresu, więc tam występuje szczyt wykresu (moda-wartość najczęstsza) i wykres może wyglądać jak jeden z tych poniższych, czyli mieć rozkład prawoskośny.
2) Ile wynoszą mediana i kwartyl dolny dla zbioru danych: 1 2 2 4 5 6 7 8 9 10 ? (n=10)
Ze wzorów obliczamy pozycję:
- dla kwartyla dolnego 25/100*(n+1)=0,25*11= 2,75
Kwartyl dolny znajduje się w miejscu 2,75 w szeregu uporządkowanym od wartości najmniejszej do największej, czyli pomiędzy liczbą 2gą i 3cią. Obie liczby mają wartość 2, a więc kwartyl pomiędzy nimi również będzie wynosił 2. Q1=2
- dla mediany 50/100*(n+1)=5,5
Mediana znajduje się w połowie między wartością 5tą i 6tą. W tych miejscach znajdują się liczby 5 i 6 a dokładnie w połowie znajduje się liczba 5,5. Q2=5,5
3) Policzyć średnią arytmetyczną i odchylenie standardowe (s) dla zbioru danych
xi: 1 2 3 4 5 6 7 8 9 10 (∑xi=55; ∑(xi2)=385)
Ze wzorów na średnią x= (∑xi)/n = 55/10 = 5,5;
Na odchylenie standardowe, które jest pierwiastkiem kwadratowym z wariancji
Wariancja s2= [n*∑(xi2)-( ∑xi)2]/[n*(n-1)]=(10*385-552)/(10*9)≈9,16
Odchylenie standardowe s≈3
4) Jakie statystyki można w przybliżeniu wyznaczyć z krzywej częstości skumulowanej wykreślonej dla próby?
Poniżej znajduje się przykład krzywej częstości skumulowanej (czerwona krzywa). Na podstawie takiej krzywej można wyznaczyć medianę (wartość środkowa czyli o częstości 50%), min, max, kwartyl dolny(25%), górny(75%), centyle(co 1%), decyle(co 10%).
5) W badaniach cechy X, na podstawie 25-cio elementowej, losowej próby określono następujące statystyki: X=100,0; Md=97,0; s=9,0; Q1=94,5; Q3=102,5 oraz wykres słupkowy częstości względnych jak na rys. obok. Które statystyki (parametryczne czy nieparametryczne) powinny być podstawą do zbudowania wykresu typu „skrzynka z wąsami” dla tej próby?
Odpowiedź na podstawie histogramu, na którym widać, że cecha x nie ma rozkładu normalnego, więc używamy statystyk nieparametrycznych: mediana, kwartyl górny, kwartyl dolny.
6) W dwóch akwenach badano zasolenie wody. Okazało się, że w obu akwenach rozkłady zasolenia były w przybliżeniu symetryczne a średnie z badanych prób wyniosły tyle samo. Współczynnik zmienności natomiast w pierwszym z akwenów wynosił 25%, a w drugim 35%. Dla którego z akwenów histogram zasolenia będzie bardziej skupiony wokół średniej?
Korzystamy ze wzoru na współczynnik zmienności V(s)=s/x *100%
- dla 1 akwenu V(s)=25%, a x1=x2 , więc 25%=s1/x*100%
- dla 2 akwenu V(s)=35%, więc 35%=s2/x*100%
Średnie są sobie równe, więc jeśli w akwenie drugim V jest większe to oznacza, że s2>s1 odchylenie też jest większe. Odchylenie standardowe określa skupienie wartości wokół średniej, i jeśli jest mniejsze to skupienie jest większe. Odpowiedź w akwenie 1 histogram będzie bardziej skupiony wokół średniej.
WYKŁAD 3
1) Dokonano pomiarów zasięgu rozpływu wód Wisły w różnych sytuacjach. Pomiary wyrażono w [km]. Obliczono x=10,00 i s=2,00. Ile wyniosłaby średnia i odchylenie standardowe gdyby zasięg wyrażono w metrach?
Stosujemy kodowanie zmiennej: y=x*c. W efekcie mnożymy średnią i odchylenie standardowe przez stałą c: y=c*x i Sy=c*Sx.
Odpowiedź: x= 10 000m, s= 2 000m
2) Dokonano pomiaru absorbancji roztworów (o różnych stężeniach) pewnej substancji rozpuszczonej w wodzie morskiej. Dla zmierzonych wartości obliczono x=0,10 i s=0,02. Aby na podstawie pomiarów absorbancji określić stężenie badanej substancji należy od wyników pomiarów odjąć absorbancję „ślepej” próby, która wynosi 0,01. Ile wyniosłaby średnia i odchylenie standardowe gdyby zastosowano tę poprawkę do każdego z pomiarów?
Kodowanie zmiennej y=x+c lub y=x-c, więc do średniej dodajemy lub odejmujemy stałą c, a odchylenie standardowe pozostaje bez zmian y=x+c i Sy=Sx.
Odpowiedź: x=0,10-0,01=0,09, s=0,02.
3) Jeżeli interesująca nas cecha X ma rozkład normalny o średniej μ=15 i σ=1, to
a) jakie jest prawdopodobieństwo, że XЄ(13;17)?
Najlepiej narysować sobie rozkład normalny ze średnią 15 i zaznaczyć przedział (13;17). Dokładnie widać, że 15-13=2 i 17-15=2, a odchylenie równe jest 1 jednostce. Aby odpowiedzieć na pytanie bez użycia kalkulatora prawdopodobieństwa wystarczy zapamiętać, że P(μ-1σ< x< μ+1σ)=68,26%
P(μ-2σ< x< μ+2σ)=95,46%
P(μ-3σ< x< μ+3σ)=99,73%
...
Zibiem