Uma vez que aprendemos a construir/manipular os objetos, abrir arquivos em R (do tipo .xls, .txt, entre outros) e instalar pacotes, podemos pensar em analisar os dados biológicos que foram obtidos durante os experimentos e/ou observações em campo.
A idéia do curso é, gradativamente (em termos da complexidade do modelo), mostrar as análises mais adequadas para determinado tipo de pergunta e como mostrar os resultados graficamente de modo satisfatório para publicação.
Para iniciarmos, suponhamos que a pergunta do meu projeto esteja relacionado ao efeito da idade sobre a produção de frutos em laranjais.
Neste exemplo, minha hipótese seria a de que indivíduos mais novos produzem proporcionalmente MAIS frutos do que indivíduos mais velhos (medido em kg de frutos/biomassa total de cada árvore).
Durante a tomada dos dados biológicos, eu dividi os indivíduos de determinada área em dois grupos: Grupo “NEW” = Laranjeiras de até 5 anos; Grupo “OLD” = Laranjeiras de mais de 5 anos; foram medido 50 indivíduos de cada grupo.
O teste mais adequado para testar minha hipótese seria um Teste T simples pois eu possuo dois grupos categorizados (i.e. Grupo NEW e Grupo OLD). A aplicação do teste “T” de Student é uma função que NÃO requer instalação de novos pacotes, já que está contido no pacote “stats”, dentro de uma série de pacotes já pré-instalados em R.
No sentido de tratarmos somente da análise, eu simulei previamente um conjunto de dados com valores para o Grupo NEW e Grupo OLD e salvei em .csv.
rnorm é a função que simula variáveis contínuas normais. A forma de usar é: x <- rnorm(n, mean, sd) em que n é o tamanho da amostra (x será um vetor caso n > 1), e mean e sd são parâmetros (opcionais) dando a média e o desvio-padrão da normal. Se mean ou sd forem omitidos, serão usados os valores, respectivamente, de 0 e 1.
Por exemplo: x <- rnorm(sd = 2, n = 10) gera um vetor com 10 valores independentes e identicamente distribuídos, com média zero e desvio-padrão 2.
No caso dos dados biológicos simulados referentes ao exemplo 1:
NEW <- rnorm(50, 200, 45); hist(NEW)
OLD <- rnorm(50, 125, 30); hist(OLD)
orange <- data.frame(cbind(NEW, OLD))
write.csv (orange, “C:/Users/F?bio Barros/Desktop/CursoR/orange.csv”, row.names=F)
Passos:
# definindo o diretório de análise
# cada usuário terá o seu
# setwd("C:/Users/F?bio Barros/Desktop/CursoR")
# para abrir e nomear o conjunto de dados
# laranja<-read.csv('orange.csv')
# Para facilitar, subimos o arquivo na internet e você pode abrir direto do link:
laranja<-read.csv('http://renatabrandt.github.io/EBC2015/data/orange.csv')
t.laranja<-t.test(laranja)
t.laranja
##
## One Sample t-test
##
## data: laranja
## t = 29.02, df = 99, p-value < 2.2e-16
## alternative hypothesis: true mean is not equal to 0
## 95 percent confidence interval:
## 151.2869 173.4932
## sample estimates:
## mean of x
## 162.3901
boxplot(laranja)