This document discusses analyzing metagenomic sequences using the MG-RAST platform. It covers topics such as big data in molecular biology, bioinformatics tools for processing large datasets, metagenomics for studying microbial communities, and the MG-RAST pipeline for quality control, gene prediction, taxonomic and functional annotation of metagenomic samples. Examples of analyzing samples on MG-RAST and comparing samples are also provided.
1. An´alises de sequˆencias metagenˆomicas via
MG-RAST
Leandro Nascimento Lemos
Doutorando em Biologia na Agricultura e no Ambiente
Orientadora: Profa. Tsai
Novembro/2016
Leandro Nascimento Lemos An´alises de sequˆencias metagenˆomicas via MG-RAST
2. Big Data
Gerac¸˜ao de dados massivos em Biologia Molecular;
Leandro Nascimento Lemos An´alises de sequˆencias metagenˆomicas via MG-RAST
3. Big Data
Sequenciamento massivo gera muitos dados!
Illumina Hiseq: sequenciamento de at´e 2.000 genomas
microbianos em uma ´unica corrida.
Leandro Nascimento Lemos An´alises de sequˆencias metagenˆomicas via MG-RAST
4. Bioinform´atica
O que ´e: Aplicac¸˜ao da Ciˆencia
de Dados na resoluc¸˜ao de
problemas biol´ogicos;
Desafio: processar uma
avalanche de dados gerados por
sequenciadores de nova gerac¸˜ao;
Solu¸c˜ao: Produzir novas
ferramentas computacionais.
Leandro Nascimento Lemos An´alises de sequˆencias metagenˆomicas via MG-RAST
6. Bioinform´atica: Human Microbiome Project
Explorar as relac¸˜oes entre doenc¸as humanas e alterac¸˜oes na
microbiota;
Desenvolvimento de novas ferramentas de Bioinform´atica
Leandro Nascimento Lemos An´alises de sequˆencias metagenˆomicas via MG-RAST
7. Bioinform´atica: Human Microbiome Project
Desenvolvimento de novas ferramentas de Bioinform´atica
(IMG/M)
Leandro Nascimento Lemos An´alises de sequˆencias metagenˆomicas via MG-RAST
8. Bioinform´atica: Computadores de alto desempenho
Alta capacidade de
processamento,
armanezamento e mem´oria;
Illumina Hiseq
(18.000.000/reads por
amostra);
128 processadores e 2 TB
de mem´oria ram.
Leandro Nascimento Lemos An´alises de sequˆencias metagenˆomicas via MG-RAST
10. Estudos de comunidades microbianas (ou de microbiomas)
T´ecnicas independentes de cultivo de microrganismos
Perfil de 16S rDNA; Metagenˆomica; Metatranscritˆomica
Leandro Nascimento Lemos An´alises de sequˆencias metagenˆomicas via MG-RAST
14. MG-RAST: plataforma online de processamento de dados
metagenˆomicos
Acesso: http://metagenomics.anl.gov
Leandro Nascimento Lemos An´alises de sequˆencias metagenˆomicas via MG-RAST
15. MG-RAST: plataforma online de processamento de dados
metagenˆomicos
Arquivos brutos (raw data) ou contigs (montagem - assembled data);
Arquivo de metadados (sample description data);
Upload: Interface gr´afica ou linha de comando.
Leandro Nascimento Lemos An´alises de sequˆencias metagenˆomicas via MG-RAST
16. MG-RAST
Pipeline (Fluxo de an´alise de dados).
Leandro Nascimento Lemos An´alises de sequˆencias metagenˆomicas via MG-RAST
17. Arquivo em formato fastq (10 minutos)
https://lemosbioinfo.wordpress.com/material-aulapratica/
Verificar a qualidade das dez primeiras bases da primeira, segunda e
terceira sequˆencia.
Leandro Nascimento Lemos An´alises de sequˆencias metagenˆomicas via MG-RAST
18. Arquivo em formato fastq - Phred score
Leandro Nascimento Lemos An´alises de sequˆencias metagenˆomicas via MG-RAST
19. Qualidade de sequenciamento/Remoc¸˜ao de sequˆencias de
baixa qualidade
Qualidade do sequenciamento
Software: FastQC
(http://www.bioinformatics.babraham.ac.uk/projects/fastqc)
Leandro Nascimento Lemos An´alises de sequˆencias metagenˆomicas via MG-RAST
20. MG-RAST - Controle de Qualidade
4. Choose pipeline options
Leandro Nascimento Lemos An´alises de sequˆencias metagenˆomicas via MG-RAST
22. MG-RAST - Upload
1. Metadata file: MetaZen tool
2. Select project.
3. Select sequence files (s)
4. Choose pipeline options
Leandro Nascimento Lemos An´alises de sequˆencias metagenˆomicas via MG-RAST
23. Dereplicac¸˜ao, DRISEE e Screening
Deplica¸c˜ao e DRISSE: Removac¸˜ao de sequˆencias artificais
geradas durante o sequenciamento.
Screening: Removac¸˜ao de sequˆencias n˜ao-microbianas.
Leandro Nascimento Lemos An´alises de sequˆencias metagenˆomicas via MG-RAST
24. MG-RAST
Pipeline (Fluxo de an´alise de dados).
Leandro Nascimento Lemos An´alises de sequˆencias metagenˆomicas via MG-RAST
25. Predic¸˜ao de Genes
Identificac¸˜ao de regi˜oes codificadoras.
ORFs (Open reading frames).
Tamanho m´edio de um gene microbiano: 950 bp.
Leandro Nascimento Lemos An´alises de sequˆencias metagenˆomicas via MG-RAST
26. Predic¸˜ao de Genes: Problemas
Fragmentos de sequˆencias (genes incompletos);
Erros de sequenciamento.
Leandro Nascimento Lemos An´alises de sequˆencias metagenˆomicas via MG-RAST
27. Soluc¸˜ao: Aprendizagem de M´aquina
Netflix.
Ensinar o computador a pensar usando exemplos.
Leandro Nascimento Lemos An´alises de sequˆencias metagenˆomicas via MG-RAST
28. Soluc¸˜ao: Aprendizagem de M´aquina
Ensinar o computador a pensar usando exemplos: HMMs (Modelos
Ocultos de Markov).
O que o computador precisa aprender?
A) Desvio no uso de c´odons; B) Modelos de Erros de Sequenciamento; C)
Padr˜oes de c´odon de iniciac¸˜ao e terminac¸˜ao.
Leandro Nascimento Lemos An´alises de sequˆencias metagenˆomicas via MG-RAST
29. MG-RAST
Pipeline (Fluxo de an´alise de dados).
Leandro Nascimento Lemos An´alises de sequˆencias metagenˆomicas via MG-RAST
30. Agrupamento de amino´acidos
Agrupamento de sequˆencias prote´ıcas (90% de similaridade).
Redudac¸˜ao da complexidade computacional.
Leandro Nascimento Lemos An´alises de sequˆencias metagenˆomicas via MG-RAST
31. MG-RAST
Pipeline (Fluxo de an´alise de dados).
Leandro Nascimento Lemos An´alises de sequˆencias metagenˆomicas via MG-RAST
32. Identificac¸˜ao de prote´ınas
Busca por sequˆencias similares em bancos de dados p´ublicos.
GenBank, SEED, IMG, UniProt, KEGG e eggNOGs.
Leandro Nascimento Lemos An´alises de sequˆencias metagenˆomicas via MG-RAST
33. Perfil de Abundˆancia
Best hit, Representative hit e Menor Ancestral Comum (LCA).
Leandro Nascimento Lemos An´alises de sequˆencias metagenˆomicas via MG-RAST
34. An´alise explorat´oria: Atividade em grupo (30 minutos)
1 Clique em AulaPratica2016.
2 Clique em Amostra de interesse do grupo.
3 Predicted feature (16S rDNA e prote´ınas); Unknown; failed QC.
4 Predicted Features: unknown protein; annotated protein; ribosomal RNA.
5 Analysis Statistics: Predicted Protein Features vs. Identified Protein
Features.
6 Modificar metadados.
Leandro Nascimento Lemos An´alises de sequˆencias metagenˆomicas via MG-RAST
35. An´alise explorat´oria: Atividade em grupo (10 minutos)
1 Qual o filo mais abundante?
2 Qual a func¸˜ao mais abundante?
3 Qual ´e a proporc¸˜ao de Proteobacteria?
4 Qual ´e a proporc¸˜ao de Acidobacteria?
Leandro Nascimento Lemos An´alises de sequˆencias metagenˆomicas via MG-RAST
36. Informac¸˜ao funcional: o que est˜ao fazendo?
COG, KO, NOG e Subsystems.
Abundˆancia de categorias funcionais.
Leandro Nascimento Lemos An´alises de sequˆencias metagenˆomicas via MG-RAST
37. Informac¸˜ao taxonˆomica: Quem est´a ali?
RefSeq.
Abundˆancia taxonˆomica.
Leandro Nascimento Lemos An´alises de sequˆencias metagenˆomicas via MG-RAST
38. An´alises Comparativas (10 minutos)
1 Clique em Analysis.
2 Aguarde...
3 Create a new Analysis.
4 Selecionar RefSeq, KEGG, Subsystems e Silva SSU.
5 Selecionar as amostras.
Leandro Nascimento Lemos An´alises de sequˆencias metagenˆomicas via MG-RAST
39. An´alises Comparativas: selec¸˜ao de parˆametros de anotac¸˜ao
1 Clicar em metadata e metadata
2 sample, add (sinal de mais): Nomes e Tratamento.
3 Parˆametros: I) e-value II) Identidade III) length IV) min.abundance.
Leandro Nascimento Lemos An´alises de sequˆencias metagenˆomicas via MG-RAST
40. An´alise explorat´oria: Atividade em grupo (30 minutos)
Leandro Nascimento Lemos An´alises de sequˆencias metagenˆomicas via MG-RAST
41. An´alise explorat´oria: Atividade em grupo (10 minutos)
1 Qual o filo mais abundante?
2 Qual a func¸˜ao mais abundante?
3 A proporc¸˜ao do filo mais abundante ´e alterada quando os parˆametros de
anotac¸˜ao s˜ao modificados? Por quˆe?
4 A proporc¸˜ao da func¸˜ao mais abundante ´e alterada quando os parˆametros
de anotac¸˜ao s˜ao modificados? Por quˆe?
5 Qual ´e a proporc¸˜ao de Proteobacteria?
6 Qual ´e a proporc¸˜ao de Acidobacteria?
Leandro Nascimento Lemos An´alises de sequˆencias metagenˆomicas via MG-RAST
46. MetaZoo: Estrutura, Dinˆamica e Func¸˜oes Metab´olicas da
compostagem - Abordagem multi-ˆomica.
Leandro Nascimento Lemos An´alises de sequˆencias metagenˆomicas via MG-RAST
47. Modelo de degradac¸˜ao de biomassa vegetal por
microrganismos na compostagem - Modelo conceitual
Leandro Nascimento Lemos An´alises de sequˆencias metagenˆomicas via MG-RAST
48. BMPOS - Ferramentas de Bioinform´atica para an´alises de
microbiomas
Leandro Nascimento Lemos An´alises de sequˆencias metagenˆomicas via MG-RAST