O documento apresenta uma introdução ao software R para análise estatística e integração de dados genômicos. É descrito como R pode ser usado para ler, manipular e visualizar dados através de vetores, data frames e funções. Além disso, são explicados índices de diversidade, análises multivariadas como PCoA e CCA e o pacote ggplot2 para criação de gráficos. No final, há uma discussão sobre quais métodos aplicar no estudo do apresentador.
PROVA - ESTUDO CONTEMPORÂNEO E TRANSVERSAL: COMUNICAÇÃO ASSERTIVA E INTERPESS...
Integração de dados genômicos e estatísticos no RStudio
1. Integra¸c˜ao de dados genˆomicos e estat´ısticos
no RStudio
Leandro Nascimento Lemos
Doutorando em Biologia na Agricultura e no Ambiente
Orientadora: Profa. Tsai
Novembro/2016
Leandro Nascimento Lemos Integra¸c˜ao de dados genˆomicos e estat´ısticos no RStudio
2. Feedback de ontem
Leandro Nascimento Lemos Integra¸c˜ao de dados genˆomicos e estat´ısticos no RStudio
3. Feedback de ontem
Leandro Nascimento Lemos Integra¸c˜ao de dados genˆomicos e estat´ısticos no RStudio
4. R: Introduc¸˜ao
R: Linguagem de Programac¸˜ao (Open).
Ambiente de desenvolvimento integrado para c´alculos
estat´ısticos e gr´aficos (Wikipedia).
Leandro Nascimento Lemos Integra¸c˜ao de dados genˆomicos e estat´ısticos no RStudio
6. R: Leitura e manipulac¸˜ao de dados - Usando Func¸˜oes (10
minutos)
Vetor
Proteobacteria.pasto.A <- 20
ProteobacteriaAbund <- c(10,20,50)
ph.pasto <- c(4,5,6)
?mean ((ajuda!))
mean(ProteobacteriaAbund)
sd (ProteobacteriaAbund)
plot(ph, ProteobacteriaAbund)
?plot (Procurar os parˆametros para modificar o gr´afico. (Por
exemplo, modificar ProteobacteriaAbund por Proteobacteria
relative abundance).
Leandro Nascimento Lemos Integra¸c˜ao de dados genˆomicos e estat´ısticos no RStudio
7. R: Leitura e manipulac¸˜ao de dados (10 minutos)
Vetor
ProteobacteriaAbund <- c(10,20,22,25,28,30)
ph <- c(4,4.5,5,5.5,6,7)
plot(ph, ProteobacteriaAbund, xlab=”pH”,
ylab=”Proteobacteria relative abundance (%)”,
col=”blue”)
Leandro Nascimento Lemos Integra¸c˜ao de dados genˆomicos e estat´ısticos no RStudio
8. R: Leitura e manipulac¸˜ao de dados - Data frame (15
minutos)
Data frame: Armazenamento de tabelas (linhas e colunas).
tabela <- data.frame(ProteobacteriaAbund, ph)
Leitura de arquivos (In´umeras func¸˜oes...)
Session, Set Working Directory, Choose Directory.
Leandro Nascimento Lemos Integra¸c˜ao de dados genˆomicos e estat´ısticos no RStudio
9. R: Leitura e manipulac¸˜ao de dados - Data frame (15
minutos)
abund <- read.csv(”analysis.tvs”, sep=”t”, header=TRUE,
row.names=1)
?apply
apply(abund, 2, sum) - Abundˆancia total
Leandro Nascimento Lemos Integra¸c˜ao de dados genˆomicos e estat´ısticos no RStudio
10. R: ´Indices de Diversidade
Instalar e carregar o pacote vegan.
install.packages(”vegan”)
library(”vegan”)
diversity(abund, index=”shannon”, MARGIN=2)
shannonValues <- diversity(abund, index=”shannon”,
MARGIN=2)
barplot(shannonValues)
Leandro Nascimento Lemos Integra¸c˜ao de dados genˆomicos e estat´ısticos no RStudio
12. R: Estat´ıstica Multivariada
Padr˜oes de similaridade
Identificac¸˜ao de quais vari´aveis est˜ao influenciando nos
padr˜oes de similaridade.
Matriz de distribuic¸˜ao de esp´ecies vs. Matriz de vari´aveis
ambientais (metadados).
Grande variedade de t´ecnicas estat´ısticas...
An´alise de Coordenadas Principais (PCoA).
An´alise de Correspondˆencia Canonica (CCA).
Leandro Nascimento Lemos Integra¸c˜ao de dados genˆomicos e estat´ısticos no RStudio
14. R: An´alise de Coordenadas Principais (PCoA)
Conceito de distˆancia: Quanto mais similaridade entre as
amostras, mais pr´oximas elas est˜ao entre si.
Leandro Nascimento Lemos Integra¸c˜ao de dados genˆomicos e estat´ısticos no RStudio
15. R: M´etrica de distˆancia - Bray-Curtis
Conceito de distˆancia: Quanto mais similaridade entre as
amostras, mais pr´oximas elas est˜ao entre si.
Bray-Curtis: proporc¸˜ao de similaridade ou dissimilaridade
(distˆancia) na abundˆancia das esp´ecies.
Valores entre 0 e 1.
0 (iguais).
Quanto mais pr´oximo de 1, mais dissimilar!
Leandro Nascimento Lemos Integra¸c˜ao de dados genˆomicos e estat´ısticos no RStudio
16. R: An´alise de Coordenadas Principais (PCoA)
Ideia principal: Reduzir dimens˜oes pra resumir os dados!
Leandro Nascimento Lemos Integra¸c˜ao de dados genˆomicos e estat´ısticos no RStudio
17. R: PCoA - Matriz de distˆancia - 20 minutos
1 Abrir o RStudio.
2 Carregar o pacote vegan.
3 Carregar o arquivo de abundˆancia de filos e o arquivo de
abundˆancia de func¸˜oes em objetivos separados no R.
4 Pesquisa sobre a func¸˜ao vegdist (dica: ?vegdist) e calcule as
similaridade entre cada amostra pelo M´etodo Bray-Curtis.
Leandro Nascimento Lemos Integra¸c˜ao de dados genˆomicos e estat´ısticos no RStudio
18. R: Reduc¸˜ao de Dimens˜oes - PCoA - 10 minutos
Leandro Nascimento Lemos Integra¸c˜ao de dados genˆomicos e estat´ısticos no RStudio
19. R: PCoA - Matriz de distˆancia - 20 minutos
1 Abrir o RStudio.
2 Carregar o pacote vegan.
3 ?cmdscale
Leandro Nascimento Lemos Integra¸c˜ao de dados genˆomicos e estat´ısticos no RStudio
20. R: PCoA - Matriz de distˆancia - 20 minutos
AbundPhyla <- read.csv(”analysis.tvs”, header=TRUE,
sep=”t”, row.names = 1)
AbundPhyla.d <- vegdist(t(AbundPhyla), method=”bray”)
AbundPhyla.ord <- cmdscale(AbundPhyla.d, eig=TRUE)
x <- AbundPhyla.ord$points[,1]
y <- AbundPhyla.ord$points[,2]
plot(x, y, xlab=”Coordinate 1”, ylab=”Coordinate 2”,
type=”n”)
text(x, y, labels = row.names(t(AbundPhyla)), cex=.7)
Leandro Nascimento Lemos Integra¸c˜ao de dados genˆomicos e estat´ısticos no RStudio
21. R: ggplot2 (pacote de gerac¸˜ao de gr´aficos public´aveis)
Leandro Nascimento Lemos Integra¸c˜ao de dados genˆomicos e estat´ısticos no RStudio
22. R: An´alise de Correspondˆencia Canonica (CCA)
Encontrar rela¸c˜oes entre dois conjuntos de vari´aveis X e Y.
Distribuic¸˜ao de t´axons e parˆametros ambientais (metadados, por exemplo: pH,
temperatura, umidade, etc).
O conjunto das vari´aveis resposta (Y) ´e contrastado com o conjunto das
vari´aveis explicat´orias (X).
Triplot: vari´aveis resposta s˜ao representadas por flechas e vari´aveis explicat´orias
s˜ao representadas por pontos.
Leandro Nascimento Lemos Integra¸c˜ao de dados genˆomicos e estat´ısticos no RStudio
23. R: An´alise de Correspondˆencia Canonica (CCA)
library(”vegan”)
AbundPhyla ¡- read.csv(”TaxonomyOrder.tvs”, sep=”
t”, header=TRUE, row.names=1)
quimicos ¡- read.csv(”Metadados.csv”, sep=”
t”, header=TRUE, row.names=1)
cca.calc ¡- cca(t(AbundPhyla), t(scale(quimicos)))
plot(cca.calc, choices = c(1, 2), display = c(”cn”, ”sites”),scaling = ”species”)
Leandro Nascimento Lemos Integra¸c˜ao de dados genˆomicos e estat´ısticos no RStudio
24. R: An´alise de Correspondˆencia Canonica (CCA) - 10
minutos
?cca
Leandro Nascimento Lemos Integra¸c˜ao de dados genˆomicos e estat´ısticos no RStudio
25. Discuss˜ao
Quais an´alises computacionais e m´etodos estat´ısticos eu devo
aplicar no meu estudo?
Leandro Nascimento Lemos Integra¸c˜ao de dados genˆomicos e estat´ısticos no RStudio