Cheminformatics/Other/Jonathan_Herrewijnen_s1830899_Anova.Rmd

---
title: "Assignment ANOVA"
author: "Jonathan Herrewijnen"
output:
  html_document:
    theme: cerulean
    toc: yes
---

Gebruik de tutorial om deze opdrachten te maken.

## Question 1: Coagulation

### Beschrijving data

Blood coagulation times by diet

The example dataset we will use is a set of 24 blood coagulation times. 24 animals were randomly assigned
to four different diets and the samples were taken in a random order. This data comes from Box, Hunter,
and Hunter (1978).

This data frame contains the following columns

* coag  is the coagulation time in seconds
* diet are the diet type, here A,B,C or D


### Vragen 

Q1A. Wat voor type data zijn coag en diet ?
Coag=nominaal; Diet=ordinaal


Q1B. Wat voor type statistische model(len) kunnen we gebruiken voor de analyse van deze data?
Anova


Q1C. Welke variabele is de response en welke de verklarende variabele?
Respons(y-as)=coag; Verklarende(x-as)=diet.


Q1D. Wat is de null-hypothese
H0: Er is geen effect van de di<64>ten op de coagulatietijd.


### Inlezen van de data.

In deze vraag gebruiken we data uit het faraway pakket. Dit pakket moet je eerst downloaden als dat nog niet eerder is gedaan. Je kan controleren of het faraway pakket al is geinstaleerd via de `Package` tab in het venster rechtonder en type faraway in het zoekveld. Als deze niet is geinstalleerd kan je de install knop aanklikken in hetzelfde venster.


```{r}
library(faraway)
data(coagulation)
attach(coagulation)
```

Analyseer de data door gebruik te maken van de statistische werkvolgorde, zoals weergegevn in de ANOVA tutorial, en beantwoordt de volgende vragen.


Q1D. Zijn de aannamens voor het uitvoeren van een ANOVA correct?
Ja, alle gemiddeldes liggen rond de 0. Anova, analyse van varianties

```{r}
model<-aov(coag~diet)
str(model)
model$residuals
plot(model$residuals~diet)
```


Q1E. Mogen we de null-hypothese verwerpen?

```{r}
summary(model)

library(car)
qqPlot(model$residuals)
```

Ja, de waarde valt onder de 0,05.


Q1F. Welke waarde heeft de test-statistiek?
13,57 volgens de summary.


Q1G. Welke diet-afhankelijke coagulatie-tijden verschillen statistisch significant van elkaar?
Volgens mij code schrijven die de uiterste waarden weergeeft, en die met mekaar vergelijken.


## Question 2 Rabbit data

### Beschrijving van de data

A nutritionist studied the effects of six diets, on weight gain of domestic rabbits. From past experience with sizes of litters, it was felt that only 3 uniform rabbits could be selected from each available litter. There were ten litters available forming blocks of size three. In this analysis we only investigate the effect of diets on weight gained.

* treat is the diet
* gain is the weight gain


### Vragen.

Q2A. Wat voor type data zijn Treat en Weight?
Treat=dieet=6 verschillende=ordinaal
Weith=Waarde=Numeriek


Q2B. Wat voor een type model(len) kan je gebruiken om deze data te analyseren? Verklaar.
Alleen Anova, 6 vergelijkingen


Q2C. Wat zijn de de response variabele en verklarende variabele in deze dataset ?
Response=y-as=Weight
Verklarende=x-as=dieet


De data komen weer uit het faraway pakket. 

```{r}
data(rabbit)
attach(rabbit)
```

Analyseer de data door gebruik te maken van de tutorial en beantwoord de volgende vragen.


Q1D. Zijn de aannamens voor het uitvoeren van een ANOVA correct? Verklaar.


Q1E. Mogen we de null-hypothese verwerpen? Verklaar.


Q1F. Welke niveaus of de diet factor verschillen statistisch significant van elkaar?

## Q3

A drug company tested three formulations of a pain relief medicine for
migraine headache sufferers. For the experiment 27 volunteers were selected
and 9 were randomly assigned to one of three drug formulations. The subjects
were instructed to take the drug during their next migraine headache episode and
to report their pain on a scale of 1 to 10 (10 being most pain).


### Inlezen data

we voeren de data nu met de hand in. 


```{r}
Pain = c(4, 5, 4, 3, 2, 4, 3, 4, 4, 6, 8, 4, 5, 4, 6, 5, 8, 6, 6, 7, 6, 6, 7, 5, 6, 5, 5)
Drug = gl(3,9,labels=c("A", "B", "C"))
DATA<-data.frame(Pain, Drug)
```

Gebuik de tutorial om de data te analyseren in de context van de volgende vraag: Is er een verschil in pijn bestrijding door de verschillende medicijnen bij migraine?


## Q4: Typical exam questions

De tabel hieronder is gegeven maar er missen wat data (?).

```
             Df Sum Sq Mean Sq F value  Pr(>F)  
VerklarendeF  3    ?1    2.199     ?3   0.0945 .
Residuals    36  34.53     ?2  
```

Q4.A  Bereken de waarden die op de plaatsen van de vraagtekens moeten staan (?).


Q4.B Welke eigenschappen van de t-statistiek en F-statistiek komen overeen?


## Simulatie ANOVA experiment.


Eerst maken we de factor. We hebben twee versies nodig van de factor, een numerieke en een categorische. De numerieke is alleen een lijst van de niveaus gemiddelde.

```{r}
VerklarendeN<-c(rep(2,10),rep(2.2,10),rep(2.8,10),rep(3.4,10) )
```

dan de categorische versie wat een naam aan de gemiddelde koppeld.

```{r}
VerklarendeF<-gl(4,10, labels=c("hokus", "Pokus", "Pilatus", "Pas"))
```


We maken nu een ANOVA model alleen met de gemiddelde en plotten het resultaat

```{r}
Response<-VerklarendeN
plot(Response~VerklarendeF)
```

We zien alleen de verschillende factor gemiddelde liggen, de between-group variance. 

Nu voegen we de rest term toe ofwel we geven de within-group varianec een waarde. We voegen daarom een stochatische variabele toe met een gemiddelde van 0 en een bepaalde standaard deviatie (sd)  hier 1.2. 

```{r}
ResponseR<-VerklarendeN+rnorm(40,0,1.2)
Dat2<-data.frame(ResponseR,VerklarendeF)
summary(Dat2)
plot(ResponseR~ VerklarendeF)
points(ResponseR~ VerklarendeF)
```

Voer een analyse uit op deze data en pas de gemiddelde zo aan dat de test net significant is. Hiervoor moeten ze de VerklarendeF
aanpassen. Letop ik gebruik geen set.seed.