217 lines
5.9 KiB
Plaintext
217 lines
5.9 KiB
Plaintext
|
---
|
|||
|
title: "Assignment ANOVA"
|
|||
|
author: "Jonathan Herrewijnen"
|
|||
|
output:
|
|||
|
html_document:
|
|||
|
theme: cerulean
|
|||
|
toc: yes
|
|||
|
---
|
|||
|
|
|||
|
Gebruik de tutorial om deze opdrachten te maken.
|
|||
|
|
|||
|
## Question 1: Coagulation
|
|||
|
|
|||
|
### Beschrijving data
|
|||
|
|
|||
|
Blood coagulation times by diet
|
|||
|
|
|||
|
The example dataset we will use is a set of 24 blood coagulation times. 24 animals were randomly assigned
|
|||
|
to four different diets and the samples were taken in a random order. This data comes from Box, Hunter,
|
|||
|
and Hunter (1978).
|
|||
|
|
|||
|
This data frame contains the following columns
|
|||
|
|
|||
|
* coag is the coagulation time in seconds
|
|||
|
* diet are the diet type, here A,B,C or D
|
|||
|
|
|||
|
|
|||
|
### Vragen
|
|||
|
|
|||
|
Q1A. Wat voor type data zijn coag en diet ?
|
|||
|
Coag=nominaal; Diet=ordinaal
|
|||
|
|
|||
|
|
|||
|
Q1B. Wat voor type statistische model(len) kunnen we gebruiken voor de analyse van deze data?
|
|||
|
Anova
|
|||
|
|
|||
|
|
|||
|
Q1C. Welke variabele is de response en welke de verklarende variabele?
|
|||
|
Respons(y-as)=coag; Verklarende(x-as)=diet.
|
|||
|
|
|||
|
|
|||
|
Q1D. Wat is de null-hypothese
|
|||
|
H0: Er is geen effect van de di<64>ten op de coagulatietijd.
|
|||
|
|
|||
|
|
|||
|
### Inlezen van de data.
|
|||
|
|
|||
|
In deze vraag gebruiken we data uit het faraway pakket. Dit pakket moet je eerst downloaden als dat nog niet eerder is gedaan. Je kan controleren of het faraway pakket al is geinstaleerd via de `Package` tab in het venster rechtonder en type faraway in het zoekveld. Als deze niet is geinstalleerd kan je de install knop aanklikken in hetzelfde venster.
|
|||
|
|
|||
|
|
|||
|
```{r}
|
|||
|
library(faraway)
|
|||
|
data(coagulation)
|
|||
|
attach(coagulation)
|
|||
|
```
|
|||
|
|
|||
|
Analyseer de data door gebruik te maken van de statistische werkvolgorde, zoals weergegevn in de ANOVA tutorial, en beantwoordt de volgende vragen.
|
|||
|
|
|||
|
|
|||
|
Q1D. Zijn de aannamens voor het uitvoeren van een ANOVA correct?
|
|||
|
Ja, alle gemiddeldes liggen rond de 0. Anova, analyse van varianties
|
|||
|
|
|||
|
```{r}
|
|||
|
model<-aov(coag~diet)
|
|||
|
str(model)
|
|||
|
model$residuals
|
|||
|
plot(model$residuals~diet)
|
|||
|
```
|
|||
|
|
|||
|
|
|||
|
Q1E. Mogen we de null-hypothese verwerpen?
|
|||
|
|
|||
|
```{r}
|
|||
|
summary(model)
|
|||
|
|
|||
|
library(car)
|
|||
|
qqPlot(model$residuals)
|
|||
|
```
|
|||
|
|
|||
|
Ja, de waarde valt onder de 0,05.
|
|||
|
|
|||
|
|
|||
|
Q1F. Welke waarde heeft de test-statistiek?
|
|||
|
13,57 volgens de summary.
|
|||
|
|
|||
|
|
|||
|
Q1G. Welke diet-afhankelijke coagulatie-tijden verschillen statistisch significant van elkaar?
|
|||
|
Volgens mij code schrijven die de uiterste waarden weergeeft, en die met mekaar vergelijken.
|
|||
|
|
|||
|
|
|||
|
## Question 2 Rabbit data
|
|||
|
|
|||
|
### Beschrijving van de data
|
|||
|
|
|||
|
A nutritionist studied the effects of six diets, on weight gain of domestic rabbits. From past experience with sizes of litters, it was felt that only 3 uniform rabbits could be selected from each available litter. There were ten litters available forming blocks of size three. In this analysis we only investigate the effect of diets on weight gained.
|
|||
|
|
|||
|
* treat is the diet
|
|||
|
* gain is the weight gain
|
|||
|
|
|||
|
|
|||
|
### Vragen.
|
|||
|
|
|||
|
Q2A. Wat voor type data zijn Treat en Weight?
|
|||
|
Treat=dieet=6 verschillende=ordinaal
|
|||
|
Weith=Waarde=Numeriek
|
|||
|
|
|||
|
|
|||
|
Q2B. Wat voor een type model(len) kan je gebruiken om deze data te analyseren? Verklaar.
|
|||
|
Alleen Anova, 6 vergelijkingen
|
|||
|
|
|||
|
|
|||
|
Q2C. Wat zijn de de response variabele en verklarende variabele in deze dataset ?
|
|||
|
Response=y-as=Weight
|
|||
|
Verklarende=x-as=dieet
|
|||
|
|
|||
|
|
|||
|
De data komen weer uit het faraway pakket.
|
|||
|
|
|||
|
```{r}
|
|||
|
data(rabbit)
|
|||
|
attach(rabbit)
|
|||
|
```
|
|||
|
|
|||
|
Analyseer de data door gebruik te maken van de tutorial en beantwoord de volgende vragen.
|
|||
|
|
|||
|
|
|||
|
Q1D. Zijn de aannamens voor het uitvoeren van een ANOVA correct? Verklaar.
|
|||
|
|
|||
|
|
|||
|
Q1E. Mogen we de null-hypothese verwerpen? Verklaar.
|
|||
|
|
|||
|
|
|||
|
Q1F. Welke niveaus of de diet factor verschillen statistisch significant van elkaar?
|
|||
|
|
|||
|
## Q3
|
|||
|
|
|||
|
A drug company tested three formulations of a pain relief medicine for
|
|||
|
migraine headache sufferers. For the experiment 27 volunteers were selected
|
|||
|
and 9 were randomly assigned to one of three drug formulations. The subjects
|
|||
|
were instructed to take the drug during their next migraine headache episode and
|
|||
|
to report their pain on a scale of 1 to 10 (10 being most pain).
|
|||
|
|
|||
|
|
|||
|
### Inlezen data
|
|||
|
|
|||
|
we voeren de data nu met de hand in.
|
|||
|
|
|||
|
|
|||
|
```{r}
|
|||
|
Pain = c(4, 5, 4, 3, 2, 4, 3, 4, 4, 6, 8, 4, 5, 4, 6, 5, 8, 6, 6, 7, 6, 6, 7, 5, 6, 5, 5)
|
|||
|
Drug = gl(3,9,labels=c("A", "B", "C"))
|
|||
|
DATA<-data.frame(Pain, Drug)
|
|||
|
```
|
|||
|
|
|||
|
Gebuik de tutorial om de data te analyseren in de context van de volgende vraag: Is er een verschil in pijn bestrijding door de verschillende medicijnen bij migraine?
|
|||
|
|
|||
|
|
|||
|
|
|||
|
|
|||
|
## Q4: Typical exam questions
|
|||
|
|
|||
|
De tabel hieronder is gegeven maar er missen wat data (?).
|
|||
|
|
|||
|
```
|
|||
|
Df Sum Sq Mean Sq F value Pr(>F)
|
|||
|
VerklarendeF 3 ?1 2.199 ?3 0.0945 .
|
|||
|
Residuals 36 34.53 ?2
|
|||
|
```
|
|||
|
|
|||
|
Q4.A Bereken de waarden die op de plaatsen van de vraagtekens moeten staan (?).
|
|||
|
|
|||
|
|
|||
|
|
|||
|
Q4.B Welke eigenschappen van de t-statistiek en F-statistiek komen overeen?
|
|||
|
|
|||
|
|
|||
|
|
|||
|
|
|||
|
## Simulatie ANOVA experiment.
|
|||
|
|
|||
|
|
|||
|
|
|||
|
Eerst maken we de factor. We hebben twee versies nodig van de factor, een numerieke en een categorische. De numerieke is alleen een lijst van de niveaus gemiddelde.
|
|||
|
|
|||
|
```{r}
|
|||
|
VerklarendeN<-c(rep(2,10),rep(2.2,10),rep(2.8,10),rep(3.4,10) )
|
|||
|
```
|
|||
|
|
|||
|
dan de categorische versie wat een naam aan de gemiddelde koppeld.
|
|||
|
|
|||
|
```{r}
|
|||
|
VerklarendeF<-gl(4,10, labels=c("hokus", "Pokus", "Pilatus", "Pas"))
|
|||
|
```
|
|||
|
|
|||
|
|
|||
|
We maken nu een ANOVA model alleen met de gemiddelde en plotten het resultaat
|
|||
|
|
|||
|
```{r}
|
|||
|
Response<-VerklarendeN
|
|||
|
plot(Response~VerklarendeF)
|
|||
|
```
|
|||
|
|
|||
|
We zien alleen de verschillende factor gemiddelde liggen, de between-group variance.
|
|||
|
|
|||
|
Nu voegen we de rest term toe ofwel we geven de within-group varianec een waarde. We voegen daarom een stochatische variabele toe met een gemiddelde van 0 en een bepaalde standaard deviatie (sd) hier 1.2.
|
|||
|
|
|||
|
```{r}
|
|||
|
ResponseR<-VerklarendeN+rnorm(40,0,1.2)
|
|||
|
Dat2<-data.frame(ResponseR,VerklarendeF)
|
|||
|
summary(Dat2)
|
|||
|
plot(ResponseR~ VerklarendeF)
|
|||
|
points(ResponseR~ VerklarendeF)
|
|||
|
```
|
|||
|
|
|||
|
Voer een analyse uit op deze data en pas de gemiddelde zo aan dat de test net significant is. Hiervoor moeten ze de VerklarendeF
|
|||
|
aanpassen. Letop ik gebruik geen set.seed.
|