Parametry charakteryzujące populację (jej rozkład):
Zadanie 1 Które z podanych wyżej parametrów wymagane są dla określenia rozkładu normalnego ? Uzasadnij.
Główne problemy w statystyce można uprościć do dwóch kategorii:
Testowanie polega (standardowo) na zdefiniowaniu dwóch przeciwstawnych hipotez: hipotezę zerową \(H_0\) oraz hipotezę alternatywną \(H_1\). Na podstawie zaobserwowanej próby wykonuje się test statystyczny, na podstawie którego podejmuje się decyzję o wyborze jednej z hipotez.
Pamiętaj hipotezy zerowej nigdy nie przyjmujemy ! Weryfikujemy tylko czy nie ma podstaw (statystystycznych) do jej odrzucenia.
Przed wykonaniem testu określa się wartość \(\alpha\), nazywaną poziomem istotności. Wartość ta odpowiada maksymalnemu prawdopodobieństwu odrzucenia prawdziwej hipotezy zerowej (błąd I rodzaju) na jakie jesteśmy się w stanie zgodzić. Dla danej wartosci statystyki testowej p-wartość jest zdefiniowana, jako prawdopodobieństwo uzyskania tej lub bardziej ekstremalnej wartosci przy założeniu hipotezy zerowej. Jeśli tak policzona p-wartośc jest mniejsza niż zakładany poziom błędów \(\alpha\), hipoteza zerowa zostaje odrzucona.
Testy zgodności, czyli testy pozwalające na weryfikowanie zgodności obserwowanych danych z zadanym rozkładem ciągłym.
Najpopularniejszą grupą testów są testy weryfikujące zgodność z rozkładem normalnym.
Hipoteza zerowa jest postaci
\(H_0 : F \in \{ N(\mu,\sigma):\mu \in R, \sigma\in R_+ \}\),
gdzie \(F\) to nieznany rozkład (z którego pochodzą obserwowane wartości \(x_i\)). Weryfikujemy hipotezę, że rozkład ten należy do rodziny rozkładów normalnych ale nie znamy średniej ani wariancji.
W pakiecie R testy normalności zostały zebrane w pakiecie nortest
dane1 <- c(96.19,98.06, 103.45, 99.81, 101.60, 104.33)
shapiro.test(dane1)
##
## Shapiro-Wilk normality test
##
## data: dane1
## W = 0.96209, p-value = 0.8357
sf.test(dane1)
##
## Shapiro-Francia normality test
##
## data: dane1
## W = 0.97852, p-value = 0.9878
Zadanie 2 Znajdź inny test na normalność rozkładu i przetestuj przeanalizowany przykład. Jaką minimalną ilość danych potrzebujesz dla wybranego przez siebie testu ?
Zadanie 3 Wygeneruj 300 elementowy wektor danych, na którym napewno odrzucisz hipotezę zerową dla testu Shapiro-Wilka.
Do wizualnej oceny normalności można wykorzystać wykres kwantylowy dla rozkładu normalnego qqnorm()
. Jeżeli obserwacje poczhodzą z rozkładu normalnego, to punkty na wykresie układają się wzdłuż linii prostej (linię tę można dorysować przez polecenie qqline()
)
qqnorm(dane1)
qqline(dane1,col="red")
Jednym z najbardziej popularnych testów zgodności dla dwóch prób jest test Kołomogorowa-Smirnowa, który w R zawarty jest w funkcji ks.test()
.
Weryfikuje on hipotezę zerową:
\(H_0:F=G\)
gdzie \(F\) to dystrybuanta (dla nieznanego rozkładu) pierszej próby a \(G\) to dystrybuanta (dla nieznanego rozkłądu) drugiej próby.
x<- runif(100)
y<- rnorm(100)
ks.test(x,y)
##
## Two-sample Kolmogorov-Smirnov test
##
## data: x and y
## D = 0.49, p-value = 7.475e-11
## alternative hypothesis: two-sided
qqplot(x,y)
# albo
a<- rnorm(100)
b<- rnorm(100)
ks.test(a,b)
##
## Two-sample Kolmogorov-Smirnov test
##
## data: a and b
## D = 0.08, p-value = 0.9062
## alternative hypothesis: two-sided
qqplot(a,b)
Test t-studenta
pozwala odpowiedzieć na pytanie czy średnia z próby jest statystycznie różna od (znanej, bądź zakładanej) średniej z populacji. W teście tym wariancja badanej populacji nie jest znana. Jeśli wariancja jest znana to można zastosować test Z
. Dla powyższych dwóch testów musimy zweryfikować normalność rozkładu. W przypadku gdy test normalności dał wynik negatywny powinniśmy zastosować test Wilcoxona
.
Analiza zbioru dane1
.
t.test(dane1,mu=100)
##
## One Sample t-test
##
## data: dane1
## t = 0.44609, df = 5, p-value = 0.6742
## alternative hypothesis: true mean is not equal to 100
## 95 percent confidence interval:
## 97.26953 103.87714
## sample estimates:
## mean of x
## 100.5733
Gdyby rozkład nie był rozkładem normalnym to:
wilcox.test(dane1,mu=100)
##
## Wilcoxon signed rank test
##
## data: dane1
## V = 12, p-value = 0.8438
## alternative hypothesis: true location is not equal to 100
Zadanie 4 Do podanych na tablicy danych wzrostu Twojej grupy zweryfikuj czy średni wzrost grupy jest równy średniemu wzrostowi w Polsce (180cm).
Mając do dyspozycji dwa zbiory danych wpierw musimy zweryfikować tzw jednorodność wariancji. Służy do tego test F-Snedecora
. Następnie możemy porównać czy średnie pochodzą z tej samej populacji korzystając z testu U-Manna-Whitneya
(gdy rozkłady nie przeszły testu jednorodności wariancji) lub testu t-studenta
dla dwóch średnich.
dane2 = c(99.7,99.8,102.54,99.32,99.45,103.43)
var.test(dane1,dane2)
##
## F test to compare two variances
##
## data: dane1 and dane2
## F = 3.0751, num df = 5, denom df = 5, p-value = 0.2431
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
## 0.4302955 21.9755225
## sample estimates:
## ratio of variances
## 3.075056
t.test(dane1,dane2)
##
## Welch Two Sample t-test
##
## data: dane1 and dane2
## t = -0.090119, df = 7.941, p-value = 0.9304
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -3.549551 3.282884
## sample estimates:
## mean of x mean of y
## 100.5733 100.7067
wilcox.test(dane1,dane2)
##
## Wilcoxon rank sum test
##
## data: dane1 and dane2
## W = 20, p-value = 0.8182
## alternative hypothesis: true location shift is not equal to 0
Zadanie 5 Zweryfikuj czy średni wzrost w grupie różni się w zależności od płci?
Test ten wykonuje się w celu zbadania związku między dwoma zmiennymi \(X\) i \(Y\). \(H_0\) dla tego testu jest stwierdzenie, iż zmienne \(X\) i \(Y\) są niezależne. Test ten bazuje tylko na porównaniu ze sobą wartości obserwowanych oraz wartości teoretycznych (obliczonych przy założeniu, że między zmiennymi nie ma żadnego związku). Zmienne \(X\) i \(Y\) zmieniają się na kilku poziomiach.
Przykład Zadano pacjentom pytanie “Czy antybiotyki działają na wirusy?”, natomiast odpowiadający odpowiadali “Tak”,“Nie”,“Nie wiem”.
Otrzymaliśmy następujące odpowiedzi:
Nie | Nie wiem | Tak | |
---|---|---|---|
Kobieta | 2789 | 770 | 455 |
Mężczyzna | 2243 | 744 | 389 |
Weryfikacja testu pozwoli odpowiedzieć na pytanie czy rodzaj odpowiedzi ma związek z płcią pacjenta?
Aby odpowiedzieć na to pytanie musimy wykonać test \(\chi^2\).
kob <- c(2789,770,455)
men <- c(2243,744,389)
chisq.test(cbind(kob,men))
##
## Pearson's Chi-squared test
##
## data: cbind(kob, men)
## X-squared = 9.8447, df = 2, p-value = 0.007282
Zatem na poziomie istotności \(\alpha=0.05\) odrzucamy hipotezę zerową. Co oznacza, że zmienne nie są niezależne.
Zadanie 6 Pewien produkt można wytworzyć trzema metodami produkcji. Wysunięto hipotezę, że wadliwość produkcji nie zależy od metody produkcji. W wylosowanej niezależnie próbie 270 sztuk otrzymano następujące wyniki:
jakosc | I | II | III |
---|---|---|---|
Dobra | 40 | 80 | 60 |
Zła | 10 | 60 | 20 |
Czy na poziomie \(\alpha=0.05\) jakość produkcji nie zależy od metody?