+
Bioinformática
Prof. Dr. Gabriel da Rocha Fernandes
Universidade Católica de Brasília
+
Bioinformática
Prof. Dr. Gabriel da Rocha Fernandes
Universidade Católica de Brasília
+
Pré História
nMendel identifica caracteres hereditários.
nLinus Pauling descreve o DNA como uma hélice simples.
nWatson e Crick descrevem a dupla hélice do DNA.
nDogma central da biologia molecular.
2
DNA$
mRNA$
Proteínas$
Variação$Normal$ou$Patológica$
+
A era genômica
n1977 - Sanger sequencia um bacteriófago.
nAnos 90 - Automatização do processo através de
sequenciadores capilares.
n1995 - Primeiro genoma completo (Haemophilus influenzae)
nComeça o projeto genoma humano.
3
+
A evolução
4
+
A evolução
5
+
A evolução
6
+
Novas tecnologias e a era pós-
genômica
7
+
A explosão de sequências
8
+
Análise dos dados
9
+
Dogma Central
10
Croma&na(
mRNA( ncRNA(
Proteínas(
Variação(Normal(ou(Patológica(Ambiente(
Variação(em(seqüência( Variação(estrutural( Variação(química(na(croma&na(
Epigenômica(
Genômica(
Transcritômica(
Proteômica(
+
Hardware
nComponentes do computador:
n Processadores
n Memória
n Discos
nDesempenha as funções da máquina.
11
+
Software
nParte lógica do computador.
nConjunto de instruções processados pelos hardwares.
nInteração entre usuário e máquina.
nTorna o computador útil.
12
+
Sistemas operacionais
nÉ um conjunto de programas que fazem a inteface do usuário e
seus programas com o Hardware.
13
Programas HardwareSistema Operacional
Linux, Windows, Mac
+
Windows
nMicrosoft
nUser friendly.
nPopular.
nServiço de licenças
nLimitado.
14
+
MacOS
nApple
nVem de brinde nos Mac.
nSistema Unix.
nAmbiente gráfico => Windows.
nDesenvolvimento => Linux.
15
+
Porque usamos o Linux?
nÉ livre;
nÉ gratuito;
nNâo é vulnerável a vírus;
nRecebe apoio de grades empresas como IBM, HP, Sun etc;
nMultitarefa e Multiusuário;
nModularização, somente é carregado para memória o que
usado durante o processamento;
nNão há necessidade de reinicar o sistemas após cada
modificação;
16
+
Distribuições do Linux
17
+
Porque usamos o Linux?
nÉ livre;
nÉ gratuito;
nNâo é vulnerável a vírus;
nRecebe apoio de grades empresas como IBM, HP, Sun etc;
nMultitarefa e Multiusuário;
nModularização, somente é carregado para memória o que
usado durante o processamento;
nNão há necessidade de reinicar o sistemas após cada
modificação;
18
+
NCBI
nwww.ncbi.nlm.nih.gov
19
+
NCBI
20
National Institute
of Health
National Library
of Medicine
+
A análise bioinformática
21
+
Análise Genômica
nInterdependência entre as diversas etapas de análises.
nNovas metodologias e melhorias constantes.
22
+
Como fazer um genoma
nA abordagem shotgun
nParte-se o DNA em pedacinhos
nCorre-se um gel
nEscolhe-se o tamanho dos fragmentos a trabalhar
nPedacinhos são clonados em vetores (montagem da biblioteca
genômica)
nSequenciamento com primers do vetor
nMonta-se a sequência por sobreposição
23
+
Estratégia de sequenciamento
24
+
Genômica
25
+
Sequenciadores
26
+
Base calling
27
+
Base calling
28
+
Base calling - PHRED
nLê os arquivos – compatível com os principais formatos de
arquivos: SCF (standard chrmoatogram format), ABI
(373/377/3700), ESD (MegaBACE) e LI-COR.
nChama as bases – atribui uma base para cada pico identificado
com um taxa de erros menor do que os programas de base
calling padrões.
nAssina um valor de qualidade às bases – um “valor de Phred”
baseado na estimativa da taxa de erros é calculado para cada
base.
nCria arquivos de saída – as bases chamadas e os valores de
qualidade são escritos em arquivos de saída.
29
+
Região de boa qualidade
30
+
Região de média qualidade
31
+
Região de baixa qualidade
32
+
Fórmula do valor de PHRED
nq = - 10 x log10 (p)
n q - Valor de qualidade
n p - Probabilidade estimada de erro na base
nq = 20 significa p = 10-2 (1 erro em 100 bases)
nq = 40 significa p = 10-4 (1 erro em 10,000 bases)
33
+
Montagem
34
+
Montagem do genoma
nAlinhamento das sequencias para geração de um consenso.
nIdentificação e eliminação dos gaps.
35
+
O que sequenciar?
nQuebrar o DNA original em fragmentos aleatórios e selecionar
os fragmentos de determinado tamanho (Ex: 2Kbp)
36
singlet
gap
DNA original
+
A montagem ab initio
nReconstruir a sequência do genoma, dados vários
(potencialmente milhões) fragmentos curtos de sequência (os
reads)
nOs reads têm tamanho entre 35-800 bp
nOs reads podem conter erros de sequenciamento (mismatches
ou indels)
nA orientação (5`3` ou 3`5`) de cada read é desconhecida
37
+
Terminologia
nRead: fragmento sequenciado
nContig: Pedaço contíguo de sequência formado a partir da
sobreposição dos reads
nSinglet: read sem sobreposição com nenhum outro
nGap: região do genoma não capturada por nenhum read
nCobertura:Total de bases sequenciadas dividido pelo tamanho
do genoma
38
+
Contigs e cobertura
39
nTenho um álbum de figurinhas, com 24 figurinhas em uma
página.
+
Contigs e cobertura
40
nCompro 5 pacotes, totalizando 25 figurinhas.
+
Contigs e cobertura
41
nContigs e singlets.
Contig 1 Contig 2
Contig 3
+
Contigs e cobertura
42
nCompro mais 5 pacotes, totalizando 50 figurinhas.
+
Contigs e cobertura
43
nCompro mais 20 pacotes, totalizando 150 figurinhas. E ainda
assim faltou uma.
+
Contigs e cobertura
44
nPrimer walking é ligar na Panini e comprar as figurinhas que
faltam.
+
Estratégias
45
+
Problemas
nSequências repetitivas.
nTamanho dos reads.
nSequencias Alu.
46
+
Sequencias repetitivas.
De onde veio o meu read?
47
+
Tamanho do read
48
+
Montando um “genoma”
49
+
Uso dos paired-ends
50
nDecisão sobre
repetições.
nMontagem de
scaffolds.
+
Predição de genes
nIdentificação de genes codificadores de proteínas.
nCombinam métodos não comparativos e comparativos.
nPredição ab initio usa informações de ORFs, uso de códons, e
sequências consenso de sítios de splicing.
nGeneMark, SNAP, GENSCAN...
51
+
Predição de genes
52
+
Arquivo GFF
nGeneral Feature Format
nIndica as posições no contig de cada item identificado.
53
+
No GenBank file
54
+
No EMBL
55
+
Visualização
nArtemis - Sanger Institute
56
+
Análise Funcional
nAssocia uma função aos genes preditos.
nBaseada na homologia entre sequências.
nUtiliza bases de dados de sequências conhecidas e programas
de alinhamento.
57
+
Análise funcional
58
27
0!
!
Predição dos genes!
27
0!
!
BLAST! Base de dados!
+
Objetivos
59
nIdentificar as funções dos genes.
nCaracterizar os processos celulares.
nMapear em vias metabólicas.
nElucidar o funcionamento do organismo.
+
Ferramentas
nFerramenta de alinhamento:
n BLAST
n HMMER
nBase de dados:
n COG
n KEGG Orthology
n PFam
n Gene Ontology
60
+
Dicas
nProcurar por Hits que tenham descrição clara.
n Evitar: hypothetical protein, putative..
nBuscar em várias bases de dados.
n Aumentar a quantidade de entradas anotadas.
n Hits não identificados em uma base podem ser anotados por outra.
nObservar a cobertura do alinhamento.
n BLAST faz alinhamento local.
n Não classificar uma proteína como um todo baseado apenas em
alinhamento a um unico domínio.
61
+
Blast2GO
62
+
KEGG Mapper
63
+
iPath
npathways.embl.de
64
+
Pfam
65
+
Arquivo de sequência - FASTA
66
>gi|197101743|ref|NP_001125556.1| myoglobin
[Pongo abelii]
MGLSDGEWQLVLNVWGKVEADIPSHGQEVLIRLFKGHPETLEKFDK
FKHLKSEDEMKASEDLKKHGATVLTALGGILKKKGHHEAEIKPLAQ
SHATKHKIPVKYLEFISESIIQVLQSKHPGDFGADAQGAMNKALEL
FRKDMASNYKELGFQG
>gi|386872|gb|AAA59595.1| myoglobin [Homo
sapiens]
MGLSDGEWQLVLNVWGKVEADIPGHGQEVLIRLFKGHPETLEKFDK
FKHLKSEDEMKASEDLKKHGATVLTALGGILKKKGHHEAEIKPLAQ
SHATKHKIPVKYLEFISECIIQVLQSKHPGDFGADAEGAMNKALEL
FRKDMASNYKELGFQG
+
Alinhamentos
nSimples X Múltiplo
n Local X Global
n Heurístico X Ótimo
67
Score = 276 bits (139), Expect = 3e-78
Identities = 139/139 (100%)
Strand = Plus / Plus
Query: 326 aggtgtaaaaccgtttgaatgcacttattgttataaaggattcactcgaaattctgatct 385
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 560 aggtgtaaaaccgtttgaatgcacttattgttataaaggattcactcgaaattctgatct 619
Query: 386 tcataagcacatcgacgctgttcacaaaggtctcaagcctttcggatgtgaagtatgcca 445
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 620 tcataagcacatcgacgctgttcacaaaggtctcaagcctttcggatgtgaagtatgcca 679
Query: 446 gcgaaacttctctcagaaa 464
|||||||||||||||||||
Sbjct: 680 gcgaaacttctctcagaaa 698
+
Alinhamento simples
n Aquele realizado entre seqüências de DNA ou proteínas,
desde que duas a duas
68
Score = 652 bits (329), Expect = 0.0
Identities = 240/240 (100%)
Strand = Plus / Plus
Query: 1 ctttcaagatgaacgaaccaactggtgtcgggccaacatttgctgatgcatgcgatgatg 60
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 136 ctttcaagatgaacgaaccaactggtgtcgggccaacatttgctgatgcatgcgatgatg 195
Query: 61 gcgaacttatcagcatttgttgtctttgtggtaaaacgttttcaagtcagagtcttctac 120
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 196 gcgaacttatcagcatttgttgtctttgtggtaaaacgttttcaagtcagagtcttctac 255
Query: 121 acaaacattttgaattgatgcatgaaggtacggaaatagatactgaacagtatgatctaa 180
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 256 acaaacattttgaattgatgcatgaaggtacggaaatagatactgaacagtatgatctaa 315
Query: 181 gtggatttgccgctatggggaatgaacaaggtcgtaaaagtaatggtgaagaagatgcaa 240
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 316 gtggatttgccgctatggggaatgaacaaggtcgtaaaagtaatggtgaagaagatgcaa 375
+
Alinhamento multiplo
nAquele realizado entre MAIS DE DUAS seqüências de DNA ou
proteínas
69
Seq1 ------------------------------------------------------------
Seq4 -GCACGAGGACTGTGA-----ACCGAATCGGTTCAGTAAAATGTTCAATTGTGCGCTGGA
Seq2 ------------------------------GTTCAGTAAAATGTTCAATTGTGCGCTGGA
Seq3 GGCACGAGGGCTACGACTGTGAACGAATCGGTTCAGTAAAATGTTCAATTGTGCGCTGGA
Seq1 ------------------------------------------------------------
Seq4 ATCTATTGTGTAGACTATTAACTATGGAATTTTACTTCACATTGACTAAAAAGCTGAGCA
Seq2 ATCTATTGTGTAGACT-TTAACTATGGAATTTTACTTCACATTGACTAAAAAGCTGAGCA
Seq3 ATCTATTGTGTAGACTATTAACTATGGAATTTTACTTCACATT-ACTAAAAAGCTGAGCA
Seq1 ---------------------CTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT
Seq4 AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT
Seq2 AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT
Seq3 AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT
***************************************
+
Alinhamento global e local
nGlobal: as seqs são alinhadas de ponta a ponta
nLocal: pedaços das seqs é que são comparados
70
+
Alinhamentos ótimos e heurísticos
nheurística -- do dicionário Houaiss
nmétodo de investigação baseado na aproximação progressiva
de um dado problema
nAlinhamento ótimo: produz o melhor resultado
computacionalmente possível
nAlinhamento heurístico: produz um resultado o mais próximo
possível do resultado ótimo, mas, principalmente, produz um
resultado de maneira muito veloz
71
+
Ferramentas de alinhamento
72
+
Elementos do alinhamento
73
+
Matrizes de substituição
74
A C G T
A 1 -2 -2 -2
C -2 1 -2 -2
G -2 -2 1 -2
T -2 -2 -2 1
A C G T
A 1 -2 -1 -2
C -2 1 -2 -1
G -1 -2 1 -2
T -2 -1 -2 1
+
Matrizes de substituição
75
+
BLAST
nBasic Local Alignment Search Tool
nFerramenta de alinhamento mais utilizada no mundo
nTodo pesquisador em biologia molecular já usou alguma vez
(ou centenas de vezes)
nDiz-se que o trabalho original onde a ferramenta foi publicada
é o mais citado da história das ciências biológicas
nÉ um algoritmo de alinhamento simples, heurístico e local
nAlinha um seqüência de entrada contra uma base de dados
desejada
76
+
Programas do BLAST
77
Formato da
Seqüência de
Entrada
Banco de
dados
Formato da
seqüência que
é comparado
Programa
BLAST
adequado
Nucleotídeos Nucleotídeos Nucleotídeos BLASTn
Proteínas Proteínas Proteínas BLASTp
Nucleotídeos Proteínas Proteínas BLASTx
Proteínas Nucleotídeos Proteínas TBLASTn
Nucleotídeos Nucleotídeos Proteínas TBLASTtx
+
Alinhamento multiplo
78
conservation profile
conserved residues
secondary structure
+
Filogenia a partir do alinhamento
nMatriz de distância entre as proteínas alinhadas
nClustal: 1 - (resíduos idênticos/resíduos alinhados)
79
-
.17 -
.59 .60 -
.59 .59 .13 -
.77 .77 .75 .75 -
.81 .82 .73 .74 .80 -
.87 .86 .86 .88 .93 .90 -
Hbb_human
Hbb_horse
Hba_human
Hba_horse
Myg_phyca
Glb5_petma
Lgb2_lupla
1
2
3
4
5
6
7
1 2 3 4 5 6 7
+
Árvore filogenética
nMétodo fenético
nNão considera a evolução de cada caráter (coluna no
alinhamento)
nProduz uma árvore a partir de uma matriz de distância gerada
ao considerar todo o conjunto de dados
nVizinhos mais-próximos
nNeighbor-joining
nAverage neighbor
nNearest neighbor
nFarthest neighbor
80
+
Transcritoma
81
nConjunto de todas as moléculas de RNA encontradas em uma
população celular:
n mRNA
n tRNA
n rRNA
n miRNA
nTotal de transcritos encontrados em um organismo, tipo
celular, condição...
nReflete os genes que estão sendo expressos em um
determinado momento.
nSnapshot da função celular.
+
Métodos de estudo
nExpressed Sequence Tags.
nSequenciado por método de Sanger.
nClonagem dos fragmentos usando
vetores.
nNão funciona em procariotos.
nLow throughput.
82
+
Métodos de estudo
83
nMicroarray.
nArranjos com os genes em locais
determinados.
nComparação de amostras par a par.
nHibridização.
+
Next Generation Sequencing
84
+
Custo do sequenciamento
85
+
RNA-seq
nUltra larga escala.
nNão necessita de clonagem.
nBaixo custo.
nValores absolutos.
nAnálise multi amostras.
nGrande cobertura.
86
+
Protocolo
nProtocolo para montagem da biblioteca pode variar de acordo
com a tecnologia e com o objetivo:
nRemoção de rRNA.
nAmplificação por PCR.
nConversão a cDNA.
nSingle read ou pair end.
87
+
Genoma referência vs. Montagem
de novo
nMapeamento dos reads a um genoma referência.
n Quantificação da expressão.
n Identificação de variantes de splicing.
nMontagem de novo do transcritoma.
n Caracterização dos genes expressos.
n Identificação de isoformas.
n Ausência de genoma referência.
88
+
O que sai do sequenciador?
nFormato padrão para análises é o FastQ.
n @SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCAC
+
!”*((((***+))%%%++)(%%%%).1***-+*”))**55CCF»»»CCCCCCC65
nPrimeira linha: identificador da sequência.
n Nome da sequência.
n Informação sobre filtros.
nTerceira linha: qualidade da chamada da base (em código).
89
+
Montagem
90
+
Mapeamento e quantificação
nAs sequências produzidas são mapeadas a um genôma
referência.
nAlinhou em apenas uma região = ótimo.
nAlinhou em mais que uma região = dilema.
nO uso de replicatas é FUNDAMENTAL!
91
Repl. 1 Repl. 2 Repl. 3
Gene A 5 3 12
Gene B 16 25 35
Gene C 10 15 3
Gene D 750 500 500
Gene E 1504 1005 1030
+
Interpretando a contagem dos
genes
nNo exemplo da tabela, o Gene E tem duas vezes mais reads
que o Gene D:
92
+
Interpretando a contagem dos
genes
nNo exemplo da tabela, o Gene E tem duas vezes mais reads
que o Gene D:
n Gene E é expresso duas vezes mais que o Gene D.
92
+
Interpretando a contagem dos
genes
nNo exemplo da tabela, o Gene E tem duas vezes mais reads
que o Gene D:
n Gene E é expresso duas vezes mais que o Gene D.
n Ambos os genes se expressam na mesma intensidade, mas o Gene E é
duas vezes maior que o Gene D.
92
+
Interpretando a contagem dos
genes
nNo exemplo da tabela, o Gene E tem duas vezes mais reads
que o Gene D:
n Gene E é expresso duas vezes mais que o Gene D.
n Ambos os genes se expressam na mesma intensidade, mas o Gene E é
duas vezes maior que o Gene D.
n Ambos os genes tem o mesmo tamanho e se expressam na mesma
intensidade, mas o Gene D tem um parálogo no genoma ao qual metade
dos seus reads foram mapeados.
92
+
Interpretando a contagem dos
genes
nNo exemplo da tabela, o Gene E tem duas vezes mais reads
que o Gene D:
n Gene E é expresso duas vezes mais que o Gene D.
n Ambos os genes se expressam na mesma intensidade, mas o Gene E é
duas vezes maior que o Gene D.
n Ambos os genes tem o mesmo tamanho e se expressam na mesma
intensidade, mas o Gene D tem um parálogo no genoma ao qual metade
dos seus reads foram mapeados.
nA causa é os três ao mesmo tempo.
92
+
Identificando genes
diferencialmente expressos.
nComparar diferentes condições: controle com testes.
n Célula normal com célula tumoral.
n Planta sem e com estresse hídrico.
n Animal sem e com parasita...
nGenes em duas condições diferentes VÃO apresentar
quantidades de reads diferentes.
nEssa variação pode ser diferença biológica entre as duas
condições, ou ruído experimental.
nAplicação de testes estatísticos.
93
+
Identificando genes
diferencialmente expressos.
nPara identificar uma diferença estatisticamente significantes, é
necessário que a diferença de expressão entre as duas
condições seja maior que a imprecisão do nível de expressão
sob uma determinada condição.
94
+
Sou pobre, não vou usar replicata.
nLição de vida:
n Um Gene H, em uma célula normal extraída do Zé Moreno, tem 5 reads.
n O mesmo Gene H, em célula tumoral extraída do mesmo Zé Moreno,
tem 10 reads.
n Uoua! O Gene H é duas vezes mais expresso na célula tumoral!
n Ganhei uns trocados e fiz transcritoma da célula normal de mais 2
pacientes. De brinde, ganhei o sequenciamento do Zé moreno de novo.
n O Gene H teve 12 reads na célula do Zé Moreno, 17 reads na Maria Tolé,
e 22 reads na célula do Tião Torresmo.
nMoral da história: quanto mais medições fizer, mais vai ter
certeza dos níveis de expressão dos genes.
95
+
Replicata técnica vs. Replicata
biológica
nTécnica: explica a variação
encontrada que pode ter
sido causada por critérios
técnicos: preparação da
biblioteca, qualidade do
sequênciamento, cobertura
do gene...
nBiológica: explica a
variação encontrada que
pode ter sido causada pela
variabilidade de expressão
que não está associada à
mudança nas condições do
experimento.
96
+
Fontes de variação
Variância de Poisson
nÉ a incerteza existente em qualquer medição em que algo é
amostrado e contado.
nComo é baseado no valor da contagem em si, não é específico
do experimento.
nEssa variância está relacionada a quantidade total de reads.
nPor exemplo, a diferença na expressão de um gene medido
com 1 read versus 2 reads é inerentemente menos seguro do
que as diferenças na expressão de um gene medido com 100
reads versus 200 reads, apesar de ambas as diferenças serem,
nominalmente, uma mudança 2X.
97
+
Fontes de variação
Variância de Poisson
98
+
Fontes de variação
Variação Técnica Não-Poisson
nAssociado à incapacidade da
técnica não conseguir medir
a expressão perfeitamente.
nVisto em replicatas técnicas.
nCausas:
n Seleção de miRNA.
n Depleção de rRNA.
n Amplificação por PCR.
n Armazenamento.
n RNA-later.
nMoral da história: Manipule
sua amostra o mínimo
possível.
99
+
Fontes de variação
Variação Biológica
nOcorre naturalmente nas amostras.
nA expressão naturalmente flutua
em células sob a mesma condição.
nCausas da variações biológicas
podem ser diferenças genéticas,
de maquinaria celular, ou de
resposta a variação do ambiente.
nVariação biológica também sofre a
influência das outras duas
variações vistas.
100
+
Filosofando...
nMais replicatas vs. Mais reads.
nComo lidar com batch-effects?
nPreciso validar com RT-PCR?
nEu considero como diferencialmente expresso genes com p-
value < 0.01.
nCalcular FDR (False discovery rate)
nLeia artigos que tenham usado benchmarks.
nConverse com o bioinformata que vai fazer as análises.
101
+
Metagenômica
nMetagenoma: material genético recuperado diretamente de
amostras ambientais.
nFornece informações sobre os organismos em seu habitat
natural.
+
Metagenômica
nCerca de 99% das bactérias não são cultiváveis.
nPermite o estudo de organismos que não são facilmente
cultivados em laboratório.
nIdentificação de funções em espécies ainda não identificadas.
+
Análise do gene do rRNA 16s
nGene altamente conservado em bactérias e archaea.
nRegião hiper variável confere sequências com assinatura
específica.
nFornece um perfil da diversidade na amostra.
+
Whole Genome Shotgun e nova
geração de sequenciadores
nPermite uma visão mais global da comunidade.
nAnálise dos níveis da diversidade filogenética e
polimorfismos intraespecíficos.
nEstudo de genes completos e de vias metabólicas da
comunidade.
nReconstrução dos genomas.
nDemanda intensa análise bioinformática.
+
Etapas da análise metagenômica
nFatores influentes.
nInterdependências ocultas.
+
Métodos de estudo - Funcional
nIsolamento do DNA da amostra.
nClonagem do DNA em um
hospedeiro.
nExpressão do gene e análise
funcional.
nAnálise das sequências.
+
Métodos de estudo - Genômico
nDNA isolado pode ser submetido a
um sequenciamento aleatório ou
direcionado.
nPermite montagem de todo
metaboloma.
nAnálise filogenética.
nMetagenômica comparativa.
+
Análise filogenética e funcional
+
Pipeline de análise
+
Assinatura filogenética
nCada read é associado a um organismo (espécie, gênero,
família…)
nUtiliza bases de dados de genômas referência ou base de dados
NT do NCBI.
nFerramenta de alinhamento.
nValores de identidade para definir o nível cladístico assinado.
88% 98% 99%
Bacteroides fragilis
Escherichia coli
70%
+
Assinatura filogenética
nComposição geral da amostra
nPrograma: MEGAN
nAgrupa multiplos alinhamentos
em um nível cladístico.
+
Análise filogenética
nQual clado prevalece na amostra?
nExiste um perfil filogenético?
nIdentificação de marcadores filogenéticos.
nAssociação da presença de um clado a uma determinada
característica.
+
Anotação funcional
nAvaliar o potencial genético da amostra.
nMontagem dos contigs.
nPredição dos genes.
nAlinhamento dos genes preditos a uma base de dados.
+
Análise funcional
nQual função está mais presente?
nExiste alguma função do seu interesse?
nMontagem do mapa metabólico do ambiente.
nRastrear a função e identificar o organismo que executa.
+
+
+
+
+
+
Visualização

Minicurso 2013

  • 1.
    + Bioinformática Prof. Dr. Gabrielda Rocha Fernandes Universidade Católica de Brasília
  • 2.
    + Bioinformática Prof. Dr. Gabrielda Rocha Fernandes Universidade Católica de Brasília
  • 3.
    + Pré História nMendel identificacaracteres hereditários. nLinus Pauling descreve o DNA como uma hélice simples. nWatson e Crick descrevem a dupla hélice do DNA. nDogma central da biologia molecular. 2 DNA$ mRNA$ Proteínas$ Variação$Normal$ou$Patológica$
  • 4.
    + A era genômica n1977- Sanger sequencia um bacteriófago. nAnos 90 - Automatização do processo através de sequenciadores capilares. n1995 - Primeiro genoma completo (Haemophilus influenzae) nComeça o projeto genoma humano. 3
  • 5.
  • 6.
  • 7.
  • 8.
    + Novas tecnologias ea era pós- genômica 7
  • 9.
    + A explosão desequências 8
  • 10.
  • 11.
    + Dogma Central 10 Croma&na( mRNA( ncRNA( Proteínas( Variação(Normal(ou(Patológica(Ambiente( Variação(em(seqüência(Variação(estrutural( Variação(química(na(croma&na( Epigenômica( Genômica( Transcritômica( Proteômica(
  • 12.
    + Hardware nComponentes do computador: nProcessadores n Memória n Discos nDesempenha as funções da máquina. 11
  • 13.
    + Software nParte lógica docomputador. nConjunto de instruções processados pelos hardwares. nInteração entre usuário e máquina. nTorna o computador útil. 12
  • 14.
    + Sistemas operacionais nÉ umconjunto de programas que fazem a inteface do usuário e seus programas com o Hardware. 13 Programas HardwareSistema Operacional Linux, Windows, Mac
  • 15.
  • 16.
    + MacOS nApple nVem de brindenos Mac. nSistema Unix. nAmbiente gráfico => Windows. nDesenvolvimento => Linux. 15
  • 17.
    + Porque usamos oLinux? nÉ livre; nÉ gratuito; nNâo é vulnerável a vírus; nRecebe apoio de grades empresas como IBM, HP, Sun etc; nMultitarefa e Multiusuário; nModularização, somente é carregado para memória o que usado durante o processamento; nNão há necessidade de reinicar o sistemas após cada modificação; 16
  • 18.
  • 19.
    + Porque usamos oLinux? nÉ livre; nÉ gratuito; nNâo é vulnerável a vírus; nRecebe apoio de grades empresas como IBM, HP, Sun etc; nMultitarefa e Multiusuário; nModularização, somente é carregado para memória o que usado durante o processamento; nNão há necessidade de reinicar o sistemas após cada modificação; 18
  • 20.
  • 21.
  • 22.
  • 23.
    + Análise Genômica nInterdependência entreas diversas etapas de análises. nNovas metodologias e melhorias constantes. 22
  • 24.
    + Como fazer umgenoma nA abordagem shotgun nParte-se o DNA em pedacinhos nCorre-se um gel nEscolhe-se o tamanho dos fragmentos a trabalhar nPedacinhos são clonados em vetores (montagem da biblioteca genômica) nSequenciamento com primers do vetor nMonta-se a sequência por sobreposição 23
  • 25.
  • 26.
  • 27.
  • 28.
  • 29.
  • 30.
    + Base calling -PHRED nLê os arquivos – compatível com os principais formatos de arquivos: SCF (standard chrmoatogram format), ABI (373/377/3700), ESD (MegaBACE) e LI-COR. nChama as bases – atribui uma base para cada pico identificado com um taxa de erros menor do que os programas de base calling padrões. nAssina um valor de qualidade às bases – um “valor de Phred” baseado na estimativa da taxa de erros é calculado para cada base. nCria arquivos de saída – as bases chamadas e os valores de qualidade são escritos em arquivos de saída. 29
  • 31.
    + Região de boaqualidade 30
  • 32.
    + Região de médiaqualidade 31
  • 33.
    + Região de baixaqualidade 32
  • 34.
    + Fórmula do valorde PHRED nq = - 10 x log10 (p) n q - Valor de qualidade n p - Probabilidade estimada de erro na base nq = 20 significa p = 10-2 (1 erro em 100 bases) nq = 40 significa p = 10-4 (1 erro em 10,000 bases) 33
  • 35.
  • 36.
    + Montagem do genoma nAlinhamentodas sequencias para geração de um consenso. nIdentificação e eliminação dos gaps. 35
  • 37.
    + O que sequenciar? nQuebraro DNA original em fragmentos aleatórios e selecionar os fragmentos de determinado tamanho (Ex: 2Kbp) 36 singlet gap DNA original
  • 38.
    + A montagem abinitio nReconstruir a sequência do genoma, dados vários (potencialmente milhões) fragmentos curtos de sequência (os reads) nOs reads têm tamanho entre 35-800 bp nOs reads podem conter erros de sequenciamento (mismatches ou indels) nA orientação (5`3` ou 3`5`) de cada read é desconhecida 37
  • 39.
    + Terminologia nRead: fragmento sequenciado nContig:Pedaço contíguo de sequência formado a partir da sobreposição dos reads nSinglet: read sem sobreposição com nenhum outro nGap: região do genoma não capturada por nenhum read nCobertura:Total de bases sequenciadas dividido pelo tamanho do genoma 38
  • 40.
    + Contigs e cobertura 39 nTenhoum álbum de figurinhas, com 24 figurinhas em uma página.
  • 41.
    + Contigs e cobertura 40 nCompro5 pacotes, totalizando 25 figurinhas.
  • 42.
    + Contigs e cobertura 41 nContigse singlets. Contig 1 Contig 2 Contig 3
  • 43.
    + Contigs e cobertura 42 nCompromais 5 pacotes, totalizando 50 figurinhas.
  • 44.
    + Contigs e cobertura 43 nCompromais 20 pacotes, totalizando 150 figurinhas. E ainda assim faltou uma.
  • 45.
    + Contigs e cobertura 44 nPrimerwalking é ligar na Panini e comprar as figurinhas que faltam.
  • 46.
  • 47.
  • 48.
  • 49.
  • 50.
  • 51.
    + Uso dos paired-ends 50 nDecisãosobre repetições. nMontagem de scaffolds.
  • 52.
    + Predição de genes nIdentificaçãode genes codificadores de proteínas. nCombinam métodos não comparativos e comparativos. nPredição ab initio usa informações de ORFs, uso de códons, e sequências consenso de sítios de splicing. nGeneMark, SNAP, GENSCAN... 51
  • 53.
  • 54.
    + Arquivo GFF nGeneral FeatureFormat nIndica as posições no contig de cada item identificado. 53
  • 55.
  • 56.
  • 57.
  • 58.
    + Análise Funcional nAssocia umafunção aos genes preditos. nBaseada na homologia entre sequências. nUtiliza bases de dados de sequências conhecidas e programas de alinhamento. 57
  • 59.
    + Análise funcional 58 27 0! ! Predição dosgenes! 27 0! ! BLAST! Base de dados!
  • 60.
    + Objetivos 59 nIdentificar as funçõesdos genes. nCaracterizar os processos celulares. nMapear em vias metabólicas. nElucidar o funcionamento do organismo.
  • 61.
    + Ferramentas nFerramenta de alinhamento: nBLAST n HMMER nBase de dados: n COG n KEGG Orthology n PFam n Gene Ontology 60
  • 62.
    + Dicas nProcurar por Hitsque tenham descrição clara. n Evitar: hypothetical protein, putative.. nBuscar em várias bases de dados. n Aumentar a quantidade de entradas anotadas. n Hits não identificados em uma base podem ser anotados por outra. nObservar a cobertura do alinhamento. n BLAST faz alinhamento local. n Não classificar uma proteína como um todo baseado apenas em alinhamento a um unico domínio. 61
  • 63.
  • 64.
  • 65.
  • 66.
  • 67.
    + Arquivo de sequência- FASTA 66 >gi|197101743|ref|NP_001125556.1| myoglobin [Pongo abelii] MGLSDGEWQLVLNVWGKVEADIPSHGQEVLIRLFKGHPETLEKFDK FKHLKSEDEMKASEDLKKHGATVLTALGGILKKKGHHEAEIKPLAQ SHATKHKIPVKYLEFISESIIQVLQSKHPGDFGADAQGAMNKALEL FRKDMASNYKELGFQG >gi|386872|gb|AAA59595.1| myoglobin [Homo sapiens] MGLSDGEWQLVLNVWGKVEADIPGHGQEVLIRLFKGHPETLEKFDK FKHLKSEDEMKASEDLKKHGATVLTALGGILKKKGHHEAEIKPLAQ SHATKHKIPVKYLEFISECIIQVLQSKHPGDFGADAEGAMNKALEL FRKDMASNYKELGFQG
  • 68.
    + Alinhamentos nSimples X Múltiplo nLocal X Global n Heurístico X Ótimo 67 Score = 276 bits (139), Expect = 3e-78 Identities = 139/139 (100%) Strand = Plus / Plus Query: 326 aggtgtaaaaccgtttgaatgcacttattgttataaaggattcactcgaaattctgatct 385 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 560 aggtgtaaaaccgtttgaatgcacttattgttataaaggattcactcgaaattctgatct 619 Query: 386 tcataagcacatcgacgctgttcacaaaggtctcaagcctttcggatgtgaagtatgcca 445 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 620 tcataagcacatcgacgctgttcacaaaggtctcaagcctttcggatgtgaagtatgcca 679 Query: 446 gcgaaacttctctcagaaa 464 ||||||||||||||||||| Sbjct: 680 gcgaaacttctctcagaaa 698
  • 69.
    + Alinhamento simples n Aquelerealizado entre seqüências de DNA ou proteínas, desde que duas a duas 68 Score = 652 bits (329), Expect = 0.0 Identities = 240/240 (100%) Strand = Plus / Plus Query: 1 ctttcaagatgaacgaaccaactggtgtcgggccaacatttgctgatgcatgcgatgatg 60 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 136 ctttcaagatgaacgaaccaactggtgtcgggccaacatttgctgatgcatgcgatgatg 195 Query: 61 gcgaacttatcagcatttgttgtctttgtggtaaaacgttttcaagtcagagtcttctac 120 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 196 gcgaacttatcagcatttgttgtctttgtggtaaaacgttttcaagtcagagtcttctac 255 Query: 121 acaaacattttgaattgatgcatgaaggtacggaaatagatactgaacagtatgatctaa 180 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 256 acaaacattttgaattgatgcatgaaggtacggaaatagatactgaacagtatgatctaa 315 Query: 181 gtggatttgccgctatggggaatgaacaaggtcgtaaaagtaatggtgaagaagatgcaa 240 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 316 gtggatttgccgctatggggaatgaacaaggtcgtaaaagtaatggtgaagaagatgcaa 375
  • 70.
    + Alinhamento multiplo nAquele realizadoentre MAIS DE DUAS seqüências de DNA ou proteínas 69 Seq1 ------------------------------------------------------------ Seq4 -GCACGAGGACTGTGA-----ACCGAATCGGTTCAGTAAAATGTTCAATTGTGCGCTGGA Seq2 ------------------------------GTTCAGTAAAATGTTCAATTGTGCGCTGGA Seq3 GGCACGAGGGCTACGACTGTGAACGAATCGGTTCAGTAAAATGTTCAATTGTGCGCTGGA Seq1 ------------------------------------------------------------ Seq4 ATCTATTGTGTAGACTATTAACTATGGAATTTTACTTCACATTGACTAAAAAGCTGAGCA Seq2 ATCTATTGTGTAGACT-TTAACTATGGAATTTTACTTCACATTGACTAAAAAGCTGAGCA Seq3 ATCTATTGTGTAGACTATTAACTATGGAATTTTACTTCACATT-ACTAAAAAGCTGAGCA Seq1 ---------------------CTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT Seq4 AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT Seq2 AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT Seq3 AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT ***************************************
  • 71.
    + Alinhamento global elocal nGlobal: as seqs são alinhadas de ponta a ponta nLocal: pedaços das seqs é que são comparados 70
  • 72.
    + Alinhamentos ótimos eheurísticos nheurística -- do dicionário Houaiss nmétodo de investigação baseado na aproximação progressiva de um dado problema nAlinhamento ótimo: produz o melhor resultado computacionalmente possível nAlinhamento heurístico: produz um resultado o mais próximo possível do resultado ótimo, mas, principalmente, produz um resultado de maneira muito veloz 71
  • 73.
  • 74.
  • 75.
    + Matrizes de substituição 74 AC G T A 1 -2 -2 -2 C -2 1 -2 -2 G -2 -2 1 -2 T -2 -2 -2 1 A C G T A 1 -2 -1 -2 C -2 1 -2 -1 G -1 -2 1 -2 T -2 -1 -2 1
  • 76.
  • 77.
    + BLAST nBasic Local AlignmentSearch Tool nFerramenta de alinhamento mais utilizada no mundo nTodo pesquisador em biologia molecular já usou alguma vez (ou centenas de vezes) nDiz-se que o trabalho original onde a ferramenta foi publicada é o mais citado da história das ciências biológicas nÉ um algoritmo de alinhamento simples, heurístico e local nAlinha um seqüência de entrada contra uma base de dados desejada 76
  • 78.
    + Programas do BLAST 77 Formatoda Seqüência de Entrada Banco de dados Formato da seqüência que é comparado Programa BLAST adequado Nucleotídeos Nucleotídeos Nucleotídeos BLASTn Proteínas Proteínas Proteínas BLASTp Nucleotídeos Proteínas Proteínas BLASTx Proteínas Nucleotídeos Proteínas TBLASTn Nucleotídeos Nucleotídeos Proteínas TBLASTtx
  • 79.
  • 80.
    + Filogenia a partirdo alinhamento nMatriz de distância entre as proteínas alinhadas nClustal: 1 - (resíduos idênticos/resíduos alinhados) 79 - .17 - .59 .60 - .59 .59 .13 - .77 .77 .75 .75 - .81 .82 .73 .74 .80 - .87 .86 .86 .88 .93 .90 - Hbb_human Hbb_horse Hba_human Hba_horse Myg_phyca Glb5_petma Lgb2_lupla 1 2 3 4 5 6 7 1 2 3 4 5 6 7
  • 81.
    + Árvore filogenética nMétodo fenético nNãoconsidera a evolução de cada caráter (coluna no alinhamento) nProduz uma árvore a partir de uma matriz de distância gerada ao considerar todo o conjunto de dados nVizinhos mais-próximos nNeighbor-joining nAverage neighbor nNearest neighbor nFarthest neighbor 80
  • 82.
    + Transcritoma 81 nConjunto de todasas moléculas de RNA encontradas em uma população celular: n mRNA n tRNA n rRNA n miRNA nTotal de transcritos encontrados em um organismo, tipo celular, condição... nReflete os genes que estão sendo expressos em um determinado momento. nSnapshot da função celular.
  • 83.
    + Métodos de estudo nExpressedSequence Tags. nSequenciado por método de Sanger. nClonagem dos fragmentos usando vetores. nNão funciona em procariotos. nLow throughput. 82
  • 84.
    + Métodos de estudo 83 nMicroarray. nArranjoscom os genes em locais determinados. nComparação de amostras par a par. nHibridização.
  • 85.
  • 86.
  • 87.
    + RNA-seq nUltra larga escala. nNãonecessita de clonagem. nBaixo custo. nValores absolutos. nAnálise multi amostras. nGrande cobertura. 86
  • 88.
    + Protocolo nProtocolo para montagemda biblioteca pode variar de acordo com a tecnologia e com o objetivo: nRemoção de rRNA. nAmplificação por PCR. nConversão a cDNA. nSingle read ou pair end. 87
  • 89.
    + Genoma referência vs.Montagem de novo nMapeamento dos reads a um genoma referência. n Quantificação da expressão. n Identificação de variantes de splicing. nMontagem de novo do transcritoma. n Caracterização dos genes expressos. n Identificação de isoformas. n Ausência de genoma referência. 88
  • 90.
    + O que saido sequenciador? nFormato padrão para análises é o FastQ. n @SEQ_ID GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCAC + !”*((((***+))%%%++)(%%%%).1***-+*”))**55CCF»»»CCCCCCC65 nPrimeira linha: identificador da sequência. n Nome da sequência. n Informação sobre filtros. nTerceira linha: qualidade da chamada da base (em código). 89
  • 91.
  • 92.
    + Mapeamento e quantificação nAssequências produzidas são mapeadas a um genôma referência. nAlinhou em apenas uma região = ótimo. nAlinhou em mais que uma região = dilema. nO uso de replicatas é FUNDAMENTAL! 91 Repl. 1 Repl. 2 Repl. 3 Gene A 5 3 12 Gene B 16 25 35 Gene C 10 15 3 Gene D 750 500 500 Gene E 1504 1005 1030
  • 93.
    + Interpretando a contagemdos genes nNo exemplo da tabela, o Gene E tem duas vezes mais reads que o Gene D: 92
  • 94.
    + Interpretando a contagemdos genes nNo exemplo da tabela, o Gene E tem duas vezes mais reads que o Gene D: n Gene E é expresso duas vezes mais que o Gene D. 92
  • 95.
    + Interpretando a contagemdos genes nNo exemplo da tabela, o Gene E tem duas vezes mais reads que o Gene D: n Gene E é expresso duas vezes mais que o Gene D. n Ambos os genes se expressam na mesma intensidade, mas o Gene E é duas vezes maior que o Gene D. 92
  • 96.
    + Interpretando a contagemdos genes nNo exemplo da tabela, o Gene E tem duas vezes mais reads que o Gene D: n Gene E é expresso duas vezes mais que o Gene D. n Ambos os genes se expressam na mesma intensidade, mas o Gene E é duas vezes maior que o Gene D. n Ambos os genes tem o mesmo tamanho e se expressam na mesma intensidade, mas o Gene D tem um parálogo no genoma ao qual metade dos seus reads foram mapeados. 92
  • 97.
    + Interpretando a contagemdos genes nNo exemplo da tabela, o Gene E tem duas vezes mais reads que o Gene D: n Gene E é expresso duas vezes mais que o Gene D. n Ambos os genes se expressam na mesma intensidade, mas o Gene E é duas vezes maior que o Gene D. n Ambos os genes tem o mesmo tamanho e se expressam na mesma intensidade, mas o Gene D tem um parálogo no genoma ao qual metade dos seus reads foram mapeados. nA causa é os três ao mesmo tempo. 92
  • 98.
    + Identificando genes diferencialmente expressos. nComparardiferentes condições: controle com testes. n Célula normal com célula tumoral. n Planta sem e com estresse hídrico. n Animal sem e com parasita... nGenes em duas condições diferentes VÃO apresentar quantidades de reads diferentes. nEssa variação pode ser diferença biológica entre as duas condições, ou ruído experimental. nAplicação de testes estatísticos. 93
  • 99.
    + Identificando genes diferencialmente expressos. nParaidentificar uma diferença estatisticamente significantes, é necessário que a diferença de expressão entre as duas condições seja maior que a imprecisão do nível de expressão sob uma determinada condição. 94
  • 100.
    + Sou pobre, nãovou usar replicata. nLição de vida: n Um Gene H, em uma célula normal extraída do Zé Moreno, tem 5 reads. n O mesmo Gene H, em célula tumoral extraída do mesmo Zé Moreno, tem 10 reads. n Uoua! O Gene H é duas vezes mais expresso na célula tumoral! n Ganhei uns trocados e fiz transcritoma da célula normal de mais 2 pacientes. De brinde, ganhei o sequenciamento do Zé moreno de novo. n O Gene H teve 12 reads na célula do Zé Moreno, 17 reads na Maria Tolé, e 22 reads na célula do Tião Torresmo. nMoral da história: quanto mais medições fizer, mais vai ter certeza dos níveis de expressão dos genes. 95
  • 101.
    + Replicata técnica vs.Replicata biológica nTécnica: explica a variação encontrada que pode ter sido causada por critérios técnicos: preparação da biblioteca, qualidade do sequênciamento, cobertura do gene... nBiológica: explica a variação encontrada que pode ter sido causada pela variabilidade de expressão que não está associada à mudança nas condições do experimento. 96
  • 102.
    + Fontes de variação Variânciade Poisson nÉ a incerteza existente em qualquer medição em que algo é amostrado e contado. nComo é baseado no valor da contagem em si, não é específico do experimento. nEssa variância está relacionada a quantidade total de reads. nPor exemplo, a diferença na expressão de um gene medido com 1 read versus 2 reads é inerentemente menos seguro do que as diferenças na expressão de um gene medido com 100 reads versus 200 reads, apesar de ambas as diferenças serem, nominalmente, uma mudança 2X. 97
  • 103.
  • 104.
    + Fontes de variação VariaçãoTécnica Não-Poisson nAssociado à incapacidade da técnica não conseguir medir a expressão perfeitamente. nVisto em replicatas técnicas. nCausas: n Seleção de miRNA. n Depleção de rRNA. n Amplificação por PCR. n Armazenamento. n RNA-later. nMoral da história: Manipule sua amostra o mínimo possível. 99
  • 105.
    + Fontes de variação VariaçãoBiológica nOcorre naturalmente nas amostras. nA expressão naturalmente flutua em células sob a mesma condição. nCausas da variações biológicas podem ser diferenças genéticas, de maquinaria celular, ou de resposta a variação do ambiente. nVariação biológica também sofre a influência das outras duas variações vistas. 100
  • 106.
    + Filosofando... nMais replicatas vs.Mais reads. nComo lidar com batch-effects? nPreciso validar com RT-PCR? nEu considero como diferencialmente expresso genes com p- value < 0.01. nCalcular FDR (False discovery rate) nLeia artigos que tenham usado benchmarks. nConverse com o bioinformata que vai fazer as análises. 101
  • 107.
    + Metagenômica nMetagenoma: material genéticorecuperado diretamente de amostras ambientais. nFornece informações sobre os organismos em seu habitat natural.
  • 108.
    + Metagenômica nCerca de 99%das bactérias não são cultiváveis. nPermite o estudo de organismos que não são facilmente cultivados em laboratório. nIdentificação de funções em espécies ainda não identificadas.
  • 109.
    + Análise do genedo rRNA 16s nGene altamente conservado em bactérias e archaea. nRegião hiper variável confere sequências com assinatura específica. nFornece um perfil da diversidade na amostra.
  • 110.
    + Whole Genome Shotgune nova geração de sequenciadores nPermite uma visão mais global da comunidade. nAnálise dos níveis da diversidade filogenética e polimorfismos intraespecíficos. nEstudo de genes completos e de vias metabólicas da comunidade. nReconstrução dos genomas. nDemanda intensa análise bioinformática.
  • 111.
    + Etapas da análisemetagenômica nFatores influentes. nInterdependências ocultas.
  • 112.
    + Métodos de estudo- Funcional nIsolamento do DNA da amostra. nClonagem do DNA em um hospedeiro. nExpressão do gene e análise funcional. nAnálise das sequências.
  • 113.
    + Métodos de estudo- Genômico nDNA isolado pode ser submetido a um sequenciamento aleatório ou direcionado. nPermite montagem de todo metaboloma. nAnálise filogenética. nMetagenômica comparativa.
  • 114.
  • 115.
  • 116.
    + Assinatura filogenética nCada readé associado a um organismo (espécie, gênero, família…) nUtiliza bases de dados de genômas referência ou base de dados NT do NCBI. nFerramenta de alinhamento. nValores de identidade para definir o nível cladístico assinado. 88% 98% 99% Bacteroides fragilis Escherichia coli 70%
  • 117.
    + Assinatura filogenética nComposição geralda amostra nPrograma: MEGAN nAgrupa multiplos alinhamentos em um nível cladístico.
  • 118.
    + Análise filogenética nQual cladoprevalece na amostra? nExiste um perfil filogenético? nIdentificação de marcadores filogenéticos. nAssociação da presença de um clado a uma determinada característica.
  • 119.
    + Anotação funcional nAvaliar opotencial genético da amostra. nMontagem dos contigs. nPredição dos genes. nAlinhamento dos genes preditos a uma base de dados.
  • 120.
    + Análise funcional nQual funçãoestá mais presente? nExiste alguma função do seu interesse? nMontagem do mapa metabólico do ambiente. nRastrear a função e identificar o organismo que executa.
  • 121.
  • 122.
  • 123.
  • 124.
  • 125.
  • 126.