SlideShare uma empresa Scribd logo
1 de 126
Baixar para ler offline
+
Bioinformática
Prof. Dr. Gabriel da Rocha Fernandes
Universidade Católica de Brasília
+
Bioinformática
Prof. Dr. Gabriel da Rocha Fernandes
Universidade Católica de Brasília
+
Pré História
nMendel identifica caracteres hereditários.
nLinus Pauling descreve o DNA como uma hélice simples.
nWatson e Crick descrevem a dupla hélice do DNA.
nDogma central da biologia molecular.
2
DNA$
mRNA$
Proteínas$
Variação$Normal$ou$Patológica$
+
A era genômica
n1977 - Sanger sequencia um bacteriófago.
nAnos 90 - Automatização do processo através de
sequenciadores capilares.
n1995 - Primeiro genoma completo (Haemophilus influenzae)
nComeça o projeto genoma humano.
3
+
A evolução
4
+
A evolução
5
+
A evolução
6
+
Novas tecnologias e a era pós-
genômica
7
+
A explosão de sequências
8
+
Análise dos dados
9
+
Dogma Central
10
Croma&na(
mRNA( ncRNA(
Proteínas(
Variação(Normal(ou(Patológica(Ambiente(
Variação(em(seqüência( Variação(estrutural( Variação(química(na(croma&na(
Epigenômica(
Genômica(
Transcritômica(
Proteômica(
+
Hardware
nComponentes do computador:
n Processadores
n Memória
n Discos
nDesempenha as funções da máquina.
11
+
Software
nParte lógica do computador.
nConjunto de instruções processados pelos hardwares.
nInteração entre usuário e máquina.
nTorna o computador útil.
12
+
Sistemas operacionais
nÉ um conjunto de programas que fazem a inteface do usuário e
seus programas com o Hardware.
13
Programas HardwareSistema Operacional
Linux, Windows, Mac
+
Windows
nMicrosoft
nUser friendly.
nPopular.
nServiço de licenças
nLimitado.
14
+
MacOS
nApple
nVem de brinde nos Mac.
nSistema Unix.
nAmbiente gráfico => Windows.
nDesenvolvimento => Linux.
15
+
Porque usamos o Linux?
nÉ livre;
nÉ gratuito;
nNâo é vulnerável a vírus;
nRecebe apoio de grades empresas como IBM, HP, Sun etc;
nMultitarefa e Multiusuário;
nModularização, somente é carregado para memória o que
usado durante o processamento;
nNão há necessidade de reinicar o sistemas após cada
modificação;
16
+
Distribuições do Linux
17
+
Porque usamos o Linux?
nÉ livre;
nÉ gratuito;
nNâo é vulnerável a vírus;
nRecebe apoio de grades empresas como IBM, HP, Sun etc;
nMultitarefa e Multiusuário;
nModularização, somente é carregado para memória o que
usado durante o processamento;
nNão há necessidade de reinicar o sistemas após cada
modificação;
18
+
NCBI
nwww.ncbi.nlm.nih.gov
19
+
NCBI
20
National Institute
of Health
National Library
of Medicine
+
A análise bioinformática
21
+
Análise Genômica
nInterdependência entre as diversas etapas de análises.
nNovas metodologias e melhorias constantes.
22
+
Como fazer um genoma
nA abordagem shotgun
nParte-se o DNA em pedacinhos
nCorre-se um gel
nEscolhe-se o tamanho dos fragmentos a trabalhar
nPedacinhos são clonados em vetores (montagem da biblioteca
genômica)
nSequenciamento com primers do vetor
nMonta-se a sequência por sobreposição
23
+
Estratégia de sequenciamento
24
+
Genômica
25
+
Sequenciadores
26
+
Base calling
27
+
Base calling
28
+
Base calling - PHRED
nLê os arquivos – compatível com os principais formatos de
arquivos: SCF (standard chrmoatogram format), ABI
(373/377/3700), ESD (MegaBACE) e LI-COR.
nChama as bases – atribui uma base para cada pico identificado
com um taxa de erros menor do que os programas de base
calling padrões.
nAssina um valor de qualidade às bases – um “valor de Phred”
baseado na estimativa da taxa de erros é calculado para cada
base.
nCria arquivos de saída – as bases chamadas e os valores de
qualidade são escritos em arquivos de saída.
29
+
Região de boa qualidade
30
+
Região de média qualidade
31
+
Região de baixa qualidade
32
+
Fórmula do valor de PHRED
nq = - 10 x log10 (p)
n q - Valor de qualidade
n p - Probabilidade estimada de erro na base
nq = 20 significa p = 10-2 (1 erro em 100 bases)
nq = 40 significa p = 10-4 (1 erro em 10,000 bases)
33
+
Montagem
34
+
Montagem do genoma
nAlinhamento das sequencias para geração de um consenso.
nIdentificação e eliminação dos gaps.
35
+
O que sequenciar?
nQuebrar o DNA original em fragmentos aleatórios e selecionar
os fragmentos de determinado tamanho (Ex: 2Kbp)
36
singlet
gap
DNA original
+
A montagem ab initio
nReconstruir a sequência do genoma, dados vários
(potencialmente milhões) fragmentos curtos de sequência (os
reads)
nOs reads têm tamanho entre 35-800 bp
nOs reads podem conter erros de sequenciamento (mismatches
ou indels)
nA orientação (5`3` ou 3`5`) de cada read é desconhecida
37
+
Terminologia
nRead: fragmento sequenciado
nContig: Pedaço contíguo de sequência formado a partir da
sobreposição dos reads
nSinglet: read sem sobreposição com nenhum outro
nGap: região do genoma não capturada por nenhum read
nCobertura:Total de bases sequenciadas dividido pelo tamanho
do genoma
38
+
Contigs e cobertura
39
nTenho um álbum de figurinhas, com 24 figurinhas em uma
página.
+
Contigs e cobertura
40
nCompro 5 pacotes, totalizando 25 figurinhas.
+
Contigs e cobertura
41
nContigs e singlets.
Contig 1 Contig 2
Contig 3
+
Contigs e cobertura
42
nCompro mais 5 pacotes, totalizando 50 figurinhas.
+
Contigs e cobertura
43
nCompro mais 20 pacotes, totalizando 150 figurinhas. E ainda
assim faltou uma.
+
Contigs e cobertura
44
nPrimer walking é ligar na Panini e comprar as figurinhas que
faltam.
+
Estratégias
45
+
Problemas
nSequências repetitivas.
nTamanho dos reads.
nSequencias Alu.
46
+
Sequencias repetitivas.
De onde veio o meu read?
47
+
Tamanho do read
48
+
Montando um “genoma”
49
+
Uso dos paired-ends
50
nDecisão sobre
repetições.
nMontagem de
scaffolds.
+
Predição de genes
nIdentificação de genes codificadores de proteínas.
nCombinam métodos não comparativos e comparativos.
nPredição ab initio usa informações de ORFs, uso de códons, e
sequências consenso de sítios de splicing.
nGeneMark, SNAP, GENSCAN...
51
+
Predição de genes
52
+
Arquivo GFF
nGeneral Feature Format
nIndica as posições no contig de cada item identificado.
53
+
No GenBank file
54
+
No EMBL
55
+
Visualização
nArtemis - Sanger Institute
56
+
Análise Funcional
nAssocia uma função aos genes preditos.
nBaseada na homologia entre sequências.
nUtiliza bases de dados de sequências conhecidas e programas
de alinhamento.
57
+
Análise funcional
58
27
0!
!
Predição dos genes!
27
0!
!
BLAST! Base de dados!
+
Objetivos
59
nIdentificar as funções dos genes.
nCaracterizar os processos celulares.
nMapear em vias metabólicas.
nElucidar o funcionamento do organismo.
+
Ferramentas
nFerramenta de alinhamento:
n BLAST
n HMMER
nBase de dados:
n COG
n KEGG Orthology
n PFam
n Gene Ontology
60
+
Dicas
nProcurar por Hits que tenham descrição clara.
n Evitar: hypothetical protein, putative..
nBuscar em várias bases de dados.
n Aumentar a quantidade de entradas anotadas.
n Hits não identificados em uma base podem ser anotados por outra.
nObservar a cobertura do alinhamento.
n BLAST faz alinhamento local.
n Não classificar uma proteína como um todo baseado apenas em
alinhamento a um unico domínio.
61
+
Blast2GO
62
+
KEGG Mapper
63
+
iPath
npathways.embl.de
64
+
Pfam
65
+
Arquivo de sequência - FASTA
66
>gi|197101743|ref|NP_001125556.1| myoglobin
[Pongo abelii]
MGLSDGEWQLVLNVWGKVEADIPSHGQEVLIRLFKGHPETLEKFDK
FKHLKSEDEMKASEDLKKHGATVLTALGGILKKKGHHEAEIKPLAQ
SHATKHKIPVKYLEFISESIIQVLQSKHPGDFGADAQGAMNKALEL
FRKDMASNYKELGFQG
>gi|386872|gb|AAA59595.1| myoglobin [Homo
sapiens]
MGLSDGEWQLVLNVWGKVEADIPGHGQEVLIRLFKGHPETLEKFDK
FKHLKSEDEMKASEDLKKHGATVLTALGGILKKKGHHEAEIKPLAQ
SHATKHKIPVKYLEFISECIIQVLQSKHPGDFGADAEGAMNKALEL
FRKDMASNYKELGFQG
+
Alinhamentos
nSimples X Múltiplo
n Local X Global
n Heurístico X Ótimo
67
Score = 276 bits (139), Expect = 3e-78
Identities = 139/139 (100%)
Strand = Plus / Plus
Query: 326 aggtgtaaaaccgtttgaatgcacttattgttataaaggattcactcgaaattctgatct 385
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 560 aggtgtaaaaccgtttgaatgcacttattgttataaaggattcactcgaaattctgatct 619
Query: 386 tcataagcacatcgacgctgttcacaaaggtctcaagcctttcggatgtgaagtatgcca 445
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 620 tcataagcacatcgacgctgttcacaaaggtctcaagcctttcggatgtgaagtatgcca 679
Query: 446 gcgaaacttctctcagaaa 464
|||||||||||||||||||
Sbjct: 680 gcgaaacttctctcagaaa 698
+
Alinhamento simples
n Aquele realizado entre seqüências de DNA ou proteínas,
desde que duas a duas
68
Score = 652 bits (329), Expect = 0.0
Identities = 240/240 (100%)
Strand = Plus / Plus
Query: 1 ctttcaagatgaacgaaccaactggtgtcgggccaacatttgctgatgcatgcgatgatg 60
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 136 ctttcaagatgaacgaaccaactggtgtcgggccaacatttgctgatgcatgcgatgatg 195
Query: 61 gcgaacttatcagcatttgttgtctttgtggtaaaacgttttcaagtcagagtcttctac 120
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 196 gcgaacttatcagcatttgttgtctttgtggtaaaacgttttcaagtcagagtcttctac 255
Query: 121 acaaacattttgaattgatgcatgaaggtacggaaatagatactgaacagtatgatctaa 180
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 256 acaaacattttgaattgatgcatgaaggtacggaaatagatactgaacagtatgatctaa 315
Query: 181 gtggatttgccgctatggggaatgaacaaggtcgtaaaagtaatggtgaagaagatgcaa 240
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 316 gtggatttgccgctatggggaatgaacaaggtcgtaaaagtaatggtgaagaagatgcaa 375
+
Alinhamento multiplo
nAquele realizado entre MAIS DE DUAS seqüências de DNA ou
proteínas
69
Seq1 ------------------------------------------------------------
Seq4 -GCACGAGGACTGTGA-----ACCGAATCGGTTCAGTAAAATGTTCAATTGTGCGCTGGA
Seq2 ------------------------------GTTCAGTAAAATGTTCAATTGTGCGCTGGA
Seq3 GGCACGAGGGCTACGACTGTGAACGAATCGGTTCAGTAAAATGTTCAATTGTGCGCTGGA
Seq1 ------------------------------------------------------------
Seq4 ATCTATTGTGTAGACTATTAACTATGGAATTTTACTTCACATTGACTAAAAAGCTGAGCA
Seq2 ATCTATTGTGTAGACT-TTAACTATGGAATTTTACTTCACATTGACTAAAAAGCTGAGCA
Seq3 ATCTATTGTGTAGACTATTAACTATGGAATTTTACTTCACATT-ACTAAAAAGCTGAGCA
Seq1 ---------------------CTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT
Seq4 AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT
Seq2 AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT
Seq3 AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT
***************************************
+
Alinhamento global e local
nGlobal: as seqs são alinhadas de ponta a ponta
nLocal: pedaços das seqs é que são comparados
70
+
Alinhamentos ótimos e heurísticos
nheurística -- do dicionário Houaiss
nmétodo de investigação baseado na aproximação progressiva
de um dado problema
nAlinhamento ótimo: produz o melhor resultado
computacionalmente possível
nAlinhamento heurístico: produz um resultado o mais próximo
possível do resultado ótimo, mas, principalmente, produz um
resultado de maneira muito veloz
71
+
Ferramentas de alinhamento
72
+
Elementos do alinhamento
73
+
Matrizes de substituição
74
A C G T
A 1 -2 -2 -2
C -2 1 -2 -2
G -2 -2 1 -2
T -2 -2 -2 1
A C G T
A 1 -2 -1 -2
C -2 1 -2 -1
G -1 -2 1 -2
T -2 -1 -2 1
+
Matrizes de substituição
75
+
BLAST
nBasic Local Alignment Search Tool
nFerramenta de alinhamento mais utilizada no mundo
nTodo pesquisador em biologia molecular já usou alguma vez
(ou centenas de vezes)
nDiz-se que o trabalho original onde a ferramenta foi publicada
é o mais citado da história das ciências biológicas
nÉ um algoritmo de alinhamento simples, heurístico e local
nAlinha um seqüência de entrada contra uma base de dados
desejada
76
+
Programas do BLAST
77
Formato da
Seqüência de
Entrada
Banco de
dados
Formato da
seqüência que
é comparado
Programa
BLAST
adequado
Nucleotídeos Nucleotídeos Nucleotídeos BLASTn
Proteínas Proteínas Proteínas BLASTp
Nucleotídeos Proteínas Proteínas BLASTx
Proteínas Nucleotídeos Proteínas TBLASTn
Nucleotídeos Nucleotídeos Proteínas TBLASTtx
+
Alinhamento multiplo
78
conservation profile
conserved residues
secondary structure
+
Filogenia a partir do alinhamento
nMatriz de distância entre as proteínas alinhadas
nClustal: 1 - (resíduos idênticos/resíduos alinhados)
79
-
.17 -
.59 .60 -
.59 .59 .13 -
.77 .77 .75 .75 -
.81 .82 .73 .74 .80 -
.87 .86 .86 .88 .93 .90 -
Hbb_human
Hbb_horse
Hba_human
Hba_horse
Myg_phyca
Glb5_petma
Lgb2_lupla
1
2
3
4
5
6
7
1 2 3 4 5 6 7
+
Árvore filogenética
nMétodo fenético
nNão considera a evolução de cada caráter (coluna no
alinhamento)
nProduz uma árvore a partir de uma matriz de distância gerada
ao considerar todo o conjunto de dados
nVizinhos mais-próximos
nNeighbor-joining
nAverage neighbor
nNearest neighbor
nFarthest neighbor
80
+
Transcritoma
81
nConjunto de todas as moléculas de RNA encontradas em uma
população celular:
n mRNA
n tRNA
n rRNA
n miRNA
nTotal de transcritos encontrados em um organismo, tipo
celular, condição...
nReflete os genes que estão sendo expressos em um
determinado momento.
nSnapshot da função celular.
+
Métodos de estudo
nExpressed Sequence Tags.
nSequenciado por método de Sanger.
nClonagem dos fragmentos usando
vetores.
nNão funciona em procariotos.
nLow throughput.
82
+
Métodos de estudo
83
nMicroarray.
nArranjos com os genes em locais
determinados.
nComparação de amostras par a par.
nHibridização.
+
Next Generation Sequencing
84
+
Custo do sequenciamento
85
+
RNA-seq
nUltra larga escala.
nNão necessita de clonagem.
nBaixo custo.
nValores absolutos.
nAnálise multi amostras.
nGrande cobertura.
86
+
Protocolo
nProtocolo para montagem da biblioteca pode variar de acordo
com a tecnologia e com o objetivo:
nRemoção de rRNA.
nAmplificação por PCR.
nConversão a cDNA.
nSingle read ou pair end.
87
+
Genoma referência vs. Montagem
de novo
nMapeamento dos reads a um genoma referência.
n Quantificação da expressão.
n Identificação de variantes de splicing.
nMontagem de novo do transcritoma.
n Caracterização dos genes expressos.
n Identificação de isoformas.
n Ausência de genoma referência.
88
+
O que sai do sequenciador?
nFormato padrão para análises é o FastQ.
n @SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCAC
+
!”*((((***+))%%%++)(%%%%).1***-+*”))**55CCF»»»CCCCCCC65
nPrimeira linha: identificador da sequência.
n Nome da sequência.
n Informação sobre filtros.
nTerceira linha: qualidade da chamada da base (em código).
89
+
Montagem
90
+
Mapeamento e quantificação
nAs sequências produzidas são mapeadas a um genôma
referência.
nAlinhou em apenas uma região = ótimo.
nAlinhou em mais que uma região = dilema.
nO uso de replicatas é FUNDAMENTAL!
91
Repl. 1 Repl. 2 Repl. 3
Gene A 5 3 12
Gene B 16 25 35
Gene C 10 15 3
Gene D 750 500 500
Gene E 1504 1005 1030
+
Interpretando a contagem dos
genes
nNo exemplo da tabela, o Gene E tem duas vezes mais reads
que o Gene D:
92
+
Interpretando a contagem dos
genes
nNo exemplo da tabela, o Gene E tem duas vezes mais reads
que o Gene D:
n Gene E é expresso duas vezes mais que o Gene D.
92
+
Interpretando a contagem dos
genes
nNo exemplo da tabela, o Gene E tem duas vezes mais reads
que o Gene D:
n Gene E é expresso duas vezes mais que o Gene D.
n Ambos os genes se expressam na mesma intensidade, mas o Gene E é
duas vezes maior que o Gene D.
92
+
Interpretando a contagem dos
genes
nNo exemplo da tabela, o Gene E tem duas vezes mais reads
que o Gene D:
n Gene E é expresso duas vezes mais que o Gene D.
n Ambos os genes se expressam na mesma intensidade, mas o Gene E é
duas vezes maior que o Gene D.
n Ambos os genes tem o mesmo tamanho e se expressam na mesma
intensidade, mas o Gene D tem um parálogo no genoma ao qual metade
dos seus reads foram mapeados.
92
+
Interpretando a contagem dos
genes
nNo exemplo da tabela, o Gene E tem duas vezes mais reads
que o Gene D:
n Gene E é expresso duas vezes mais que o Gene D.
n Ambos os genes se expressam na mesma intensidade, mas o Gene E é
duas vezes maior que o Gene D.
n Ambos os genes tem o mesmo tamanho e se expressam na mesma
intensidade, mas o Gene D tem um parálogo no genoma ao qual metade
dos seus reads foram mapeados.
nA causa é os três ao mesmo tempo.
92
+
Identificando genes
diferencialmente expressos.
nComparar diferentes condições: controle com testes.
n Célula normal com célula tumoral.
n Planta sem e com estresse hídrico.
n Animal sem e com parasita...
nGenes em duas condições diferentes VÃO apresentar
quantidades de reads diferentes.
nEssa variação pode ser diferença biológica entre as duas
condições, ou ruído experimental.
nAplicação de testes estatísticos.
93
+
Identificando genes
diferencialmente expressos.
nPara identificar uma diferença estatisticamente significantes, é
necessário que a diferença de expressão entre as duas
condições seja maior que a imprecisão do nível de expressão
sob uma determinada condição.
94
+
Sou pobre, não vou usar replicata.
nLição de vida:
n Um Gene H, em uma célula normal extraída do Zé Moreno, tem 5 reads.
n O mesmo Gene H, em célula tumoral extraída do mesmo Zé Moreno,
tem 10 reads.
n Uoua! O Gene H é duas vezes mais expresso na célula tumoral!
n Ganhei uns trocados e fiz transcritoma da célula normal de mais 2
pacientes. De brinde, ganhei o sequenciamento do Zé moreno de novo.
n O Gene H teve 12 reads na célula do Zé Moreno, 17 reads na Maria Tolé,
e 22 reads na célula do Tião Torresmo.
nMoral da história: quanto mais medições fizer, mais vai ter
certeza dos níveis de expressão dos genes.
95
+
Replicata técnica vs. Replicata
biológica
nTécnica: explica a variação
encontrada que pode ter
sido causada por critérios
técnicos: preparação da
biblioteca, qualidade do
sequênciamento, cobertura
do gene...
nBiológica: explica a
variação encontrada que
pode ter sido causada pela
variabilidade de expressão
que não está associada à
mudança nas condições do
experimento.
96
+
Fontes de variação
Variância de Poisson
nÉ a incerteza existente em qualquer medição em que algo é
amostrado e contado.
nComo é baseado no valor da contagem em si, não é específico
do experimento.
nEssa variância está relacionada a quantidade total de reads.
nPor exemplo, a diferença na expressão de um gene medido
com 1 read versus 2 reads é inerentemente menos seguro do
que as diferenças na expressão de um gene medido com 100
reads versus 200 reads, apesar de ambas as diferenças serem,
nominalmente, uma mudança 2X.
97
+
Fontes de variação
Variância de Poisson
98
+
Fontes de variação
Variação Técnica Não-Poisson
nAssociado à incapacidade da
técnica não conseguir medir
a expressão perfeitamente.
nVisto em replicatas técnicas.
nCausas:
n Seleção de miRNA.
n Depleção de rRNA.
n Amplificação por PCR.
n Armazenamento.
n RNA-later.
nMoral da história: Manipule
sua amostra o mínimo
possível.
99
+
Fontes de variação
Variação Biológica
nOcorre naturalmente nas amostras.
nA expressão naturalmente flutua
em células sob a mesma condição.
nCausas da variações biológicas
podem ser diferenças genéticas,
de maquinaria celular, ou de
resposta a variação do ambiente.
nVariação biológica também sofre a
influência das outras duas
variações vistas.
100
+
Filosofando...
nMais replicatas vs. Mais reads.
nComo lidar com batch-effects?
nPreciso validar com RT-PCR?
nEu considero como diferencialmente expresso genes com p-
value < 0.01.
nCalcular FDR (False discovery rate)
nLeia artigos que tenham usado benchmarks.
nConverse com o bioinformata que vai fazer as análises.
101
+
Metagenômica
nMetagenoma: material genético recuperado diretamente de
amostras ambientais.
nFornece informações sobre os organismos em seu habitat
natural.
+
Metagenômica
nCerca de 99% das bactérias não são cultiváveis.
nPermite o estudo de organismos que não são facilmente
cultivados em laboratório.
nIdentificação de funções em espécies ainda não identificadas.
+
Análise do gene do rRNA 16s
nGene altamente conservado em bactérias e archaea.
nRegião hiper variável confere sequências com assinatura
específica.
nFornece um perfil da diversidade na amostra.
+
Whole Genome Shotgun e nova
geração de sequenciadores
nPermite uma visão mais global da comunidade.
nAnálise dos níveis da diversidade filogenética e
polimorfismos intraespecíficos.
nEstudo de genes completos e de vias metabólicas da
comunidade.
nReconstrução dos genomas.
nDemanda intensa análise bioinformática.
+
Etapas da análise metagenômica
nFatores influentes.
nInterdependências ocultas.
+
Métodos de estudo - Funcional
nIsolamento do DNA da amostra.
nClonagem do DNA em um
hospedeiro.
nExpressão do gene e análise
funcional.
nAnálise das sequências.
+
Métodos de estudo - Genômico
nDNA isolado pode ser submetido a
um sequenciamento aleatório ou
direcionado.
nPermite montagem de todo
metaboloma.
nAnálise filogenética.
nMetagenômica comparativa.
+
Análise filogenética e funcional
+
Pipeline de análise
+
Assinatura filogenética
nCada read é associado a um organismo (espécie, gênero,
família…)
nUtiliza bases de dados de genômas referência ou base de dados
NT do NCBI.
nFerramenta de alinhamento.
nValores de identidade para definir o nível cladístico assinado.
88% 98% 99%
Bacteroides fragilis
Escherichia coli
70%
+
Assinatura filogenética
nComposição geral da amostra
nPrograma: MEGAN
nAgrupa multiplos alinhamentos
em um nível cladístico.
+
Análise filogenética
nQual clado prevalece na amostra?
nExiste um perfil filogenético?
nIdentificação de marcadores filogenéticos.
nAssociação da presença de um clado a uma determinada
característica.
+
Anotação funcional
nAvaliar o potencial genético da amostra.
nMontagem dos contigs.
nPredição dos genes.
nAlinhamento dos genes preditos a uma base de dados.
+
Análise funcional
nQual função está mais presente?
nExiste alguma função do seu interesse?
nMontagem do mapa metabólico do ambiente.
nRastrear a função e identificar o organismo que executa.
+
+
+
+
+
+
Visualização

Mais conteúdo relacionado

Mais procurados

Minicurso Técnicas de Sequenciamento e suas Aplicações
Minicurso Técnicas de Sequenciamento e suas AplicaçõesMinicurso Técnicas de Sequenciamento e suas Aplicações
Minicurso Técnicas de Sequenciamento e suas AplicaçõesAna Paula Mendes Silva
 
Sequenciamento de nova geração- Curso de Inverno de Genética 2013-UFPR by Jos...
Sequenciamento de nova geração- Curso de Inverno de Genética 2013-UFPR by Jos...Sequenciamento de nova geração- Curso de Inverno de Genética 2013-UFPR by Jos...
Sequenciamento de nova geração- Curso de Inverno de Genética 2013-UFPR by Jos...Joseph Evaristo
 
Aula de Engenharia Genética sobre PCR
Aula de Engenharia Genética sobre PCRAula de Engenharia Genética sobre PCR
Aula de Engenharia Genética sobre PCRJaqueline Almeida
 
Bioinformática - Introdução a Genomica
Bioinformática - Introdução a GenomicaBioinformática - Introdução a Genomica
Bioinformática - Introdução a GenomicaGabriel Fernandes
 
Stabvida oportunidades profissionais
Stabvida oportunidades profissionaisStabvida oportunidades profissionais
Stabvida oportunidades profissionaisFrancisco Couto
 
Anotação funcional de genomas procariotos
Anotação funcional de genomas procariotosAnotação funcional de genomas procariotos
Anotação funcional de genomas procariotosEdivaldo Júnior
 
Introdução de tecnicas de diagnostico molecular
Introdução de tecnicas de diagnostico molecular Introdução de tecnicas de diagnostico molecular
Introdução de tecnicas de diagnostico molecular Safia Naser
 
Aula Pcr
Aula PcrAula Pcr
Aula Pcrlidypvh
 
Conceitos Básicos de Técnicas em Biologia Molecular - Embrapa
Conceitos Básicos de Técnicas em Biologia Molecular - EmbrapaConceitos Básicos de Técnicas em Biologia Molecular - Embrapa
Conceitos Básicos de Técnicas em Biologia Molecular - EmbrapaGregorio Leal da Silva
 
Aula de Engenharia Genética sobre Enzimas de restrição
Aula de Engenharia Genética sobre Enzimas de restriçãoAula de Engenharia Genética sobre Enzimas de restrição
Aula de Engenharia Genética sobre Enzimas de restriçãoJaqueline Almeida
 
Aula Engenharia Genetica
Aula  Engenharia GeneticaAula  Engenharia Genetica
Aula Engenharia Geneticalidypvh
 
técnicas moleculares no tratamento do câncer
técnicas moleculares no tratamento do câncertécnicas moleculares no tratamento do câncer
técnicas moleculares no tratamento do câncerAlison Regis
 
Novas tecnologias sequenciamento fronteiras biologia unb 10112010
Novas tecnologias sequenciamento fronteiras biologia unb 10112010Novas tecnologias sequenciamento fronteiras biologia unb 10112010
Novas tecnologias sequenciamento fronteiras biologia unb 10112010Rinaldo Pereira
 

Mais procurados (20)

PCR
PCRPCR
PCR
 
Minicurso Técnicas de Sequenciamento e suas Aplicações
Minicurso Técnicas de Sequenciamento e suas AplicaçõesMinicurso Técnicas de Sequenciamento e suas Aplicações
Minicurso Técnicas de Sequenciamento e suas Aplicações
 
Sequenciamento de nova geração- Curso de Inverno de Genética 2013-UFPR by Jos...
Sequenciamento de nova geração- Curso de Inverno de Genética 2013-UFPR by Jos...Sequenciamento de nova geração- Curso de Inverno de Genética 2013-UFPR by Jos...
Sequenciamento de nova geração- Curso de Inverno de Genética 2013-UFPR by Jos...
 
Aula de Engenharia Genética sobre PCR
Aula de Engenharia Genética sobre PCRAula de Engenharia Genética sobre PCR
Aula de Engenharia Genética sobre PCR
 
Bioinformática - Introdução a Genomica
Bioinformática - Introdução a GenomicaBioinformática - Introdução a Genomica
Bioinformática - Introdução a Genomica
 
Biologia molecular
Biologia molecularBiologia molecular
Biologia molecular
 
Stabvida oportunidades profissionais
Stabvida oportunidades profissionaisStabvida oportunidades profissionais
Stabvida oportunidades profissionais
 
Anotação funcional de genomas procariotos
Anotação funcional de genomas procariotosAnotação funcional de genomas procariotos
Anotação funcional de genomas procariotos
 
Introdução de tecnicas de diagnostico molecular
Introdução de tecnicas de diagnostico molecular Introdução de tecnicas de diagnostico molecular
Introdução de tecnicas de diagnostico molecular
 
Bioinfo - Grad - Aula 5
Bioinfo - Grad - Aula 5Bioinfo - Grad - Aula 5
Bioinfo - Grad - Aula 5
 
Pcr
PcrPcr
Pcr
 
Aula Pcr
Aula PcrAula Pcr
Aula Pcr
 
Conceitos Básicos de Técnicas em Biologia Molecular - Embrapa
Conceitos Básicos de Técnicas em Biologia Molecular - EmbrapaConceitos Básicos de Técnicas em Biologia Molecular - Embrapa
Conceitos Básicos de Técnicas em Biologia Molecular - Embrapa
 
Aula de Engenharia Genética sobre Enzimas de restrição
Aula de Engenharia Genética sobre Enzimas de restriçãoAula de Engenharia Genética sobre Enzimas de restrição
Aula de Engenharia Genética sobre Enzimas de restrição
 
Aula Engenharia Genetica
Aula  Engenharia GeneticaAula  Engenharia Genetica
Aula Engenharia Genetica
 
Técnicas Moleculares
Técnicas MolecularesTécnicas Moleculares
Técnicas Moleculares
 
técnicas moleculares no tratamento do câncer
técnicas moleculares no tratamento do câncertécnicas moleculares no tratamento do câncer
técnicas moleculares no tratamento do câncer
 
Novas tecnologias sequenciamento fronteiras biologia unb 10112010
Novas tecnologias sequenciamento fronteiras biologia unb 10112010Novas tecnologias sequenciamento fronteiras biologia unb 10112010
Novas tecnologias sequenciamento fronteiras biologia unb 10112010
 
Manipulação de DNA
Manipulação de DNAManipulação de DNA
Manipulação de DNA
 
Meta'omics
Meta'omicsMeta'omics
Meta'omics
 

Destaque

Destaque (20)

Esquila vf copia
Esquila vf   copiaEsquila vf   copia
Esquila vf copia
 
Matricula2012
Matricula2012Matricula2012
Matricula2012
 
Pacerizu publicaciones-metabolismo de fármacos
Pacerizu publicaciones-metabolismo de fármacosPacerizu publicaciones-metabolismo de fármacos
Pacerizu publicaciones-metabolismo de fármacos
 
Jammer safe
Jammer safeJammer safe
Jammer safe
 
1º concurso de fotografía www.yeclaofertas.com
1º concurso de fotografía www.yeclaofertas.com1º concurso de fotografía www.yeclaofertas.com
1º concurso de fotografía www.yeclaofertas.com
 
Minha enfermeira explodiu em poeira azul
Minha enfermeira explodiu em poeira azulMinha enfermeira explodiu em poeira azul
Minha enfermeira explodiu em poeira azul
 
Busquedas avanzadas en internet
Busquedas avanzadas en internetBusquedas avanzadas en internet
Busquedas avanzadas en internet
 
Gorros1
Gorros1Gorros1
Gorros1
 
Pacerizu exposiciones-espectrometria de absorcion molecular-aplicaciones
Pacerizu exposiciones-espectrometria de absorcion molecular-aplicacionesPacerizu exposiciones-espectrometria de absorcion molecular-aplicaciones
Pacerizu exposiciones-espectrometria de absorcion molecular-aplicaciones
 
Amanecer parte dos
Amanecer parte dosAmanecer parte dos
Amanecer parte dos
 
Seminário enade
Seminário enadeSeminário enade
Seminário enade
 
Higiene y seguridad Industrial Glosario
Higiene y seguridad Industrial Glosario Higiene y seguridad Industrial Glosario
Higiene y seguridad Industrial Glosario
 
Trabajo de tic
Trabajo de ticTrabajo de tic
Trabajo de tic
 
Act19 mgcm
Act19 mgcmAct19 mgcm
Act19 mgcm
 
Los determinantes
Los determinantesLos determinantes
Los determinantes
 
Vehiculos de epoca
Vehiculos de epocaVehiculos de epoca
Vehiculos de epoca
 
[Especial] 70 edições da Revista Nintendo Blast
[Especial] 70 edições da Revista Nintendo Blast[Especial] 70 edições da Revista Nintendo Blast
[Especial] 70 edições da Revista Nintendo Blast
 
Tarea cobre
Tarea cobreTarea cobre
Tarea cobre
 
Redes nelson esparza ramirez
Redes nelson esparza ramirezRedes nelson esparza ramirez
Redes nelson esparza ramirez
 
MPC 8 Soluciones De Seguridad
MPC 8 Soluciones De SeguridadMPC 8 Soluciones De Seguridad
MPC 8 Soluciones De Seguridad
 

Semelhante a Minicurso 2013

Uma abordagem computacional para a determinação de polimorfismos de base única
Uma abordagem computacional para a determinação de polimorfismos de base únicaUma abordagem computacional para a determinação de polimorfismos de base única
Uma abordagem computacional para a determinação de polimorfismos de base únicaMiguel Galves
 
Laboratório de Biotecnologia - Rna seq
Laboratório de Biotecnologia - Rna seqLaboratório de Biotecnologia - Rna seq
Laboratório de Biotecnologia - Rna seqGabriel Fernandes
 
03 strategies for genome assembly
03 strategies for genome assembly03 strategies for genome assembly
03 strategies for genome assemblyEdivaldo Júnior
 
Indrodução a Bioinformática
Indrodução a BioinformáticaIndrodução a Bioinformática
Indrodução a BioinformáticaRicardo Leite
 
Bioinformática arquivo de dados
Bioinformática arquivo de dadosBioinformática arquivo de dados
Bioinformática arquivo de dadosUERGS
 
Aula estrutura e_replicacao_do_dna_christian
Aula estrutura e_replicacao_do_dna_christianAula estrutura e_replicacao_do_dna_christian
Aula estrutura e_replicacao_do_dna_christianAndressa Souza
 
Projeto Genoma Humano
Projeto Genoma Humano Projeto Genoma Humano
Projeto Genoma Humano Carol Olimpio
 
Lucia genomica y proteomica
Lucia genomica y proteomicaLucia genomica y proteomica
Lucia genomica y proteomicaMarina Sencia
 
Predição de estruturas e função de proteínas usando Redes Neurais
Predição de estruturas e função de proteínas usando Redes NeuraisPredição de estruturas e função de proteínas usando Redes Neurais
Predição de estruturas e função de proteínas usando Redes NeuraisElaine Cecília Gatto
 
Natureza e organização do material genético
Natureza e organização do material genéticoNatureza e organização do material genético
Natureza e organização do material genéticoJulia Mello
 
Bioinformática com Rosalind utilizando Python
Bioinformática com Rosalind utilizando PythonBioinformática com Rosalind utilizando Python
Bioinformática com Rosalind utilizando PythonMarcos Castro
 
D na invest-criminal-pcr-electroforese(dnafinferprint)
D na invest-criminal-pcr-electroforese(dnafinferprint)D na invest-criminal-pcr-electroforese(dnafinferprint)
D na invest-criminal-pcr-electroforese(dnafinferprint)Madalena_Bio12
 
Dna invest criminal-pcr-electroforese(dn-afingerprint)
Dna invest criminal-pcr-electroforese(dn-afingerprint)Dna invest criminal-pcr-electroforese(dn-afingerprint)
Dna invest criminal-pcr-electroforese(dn-afingerprint)Madalena_Bio12
 
Bioinformática - Bases de dados
Bioinformática - Bases de dadosBioinformática - Bases de dados
Bioinformática - Bases de dadosGabriel Fernandes
 
Dogma central e periférico
Dogma central e periféricoDogma central e periférico
Dogma central e periféricoUERGS
 
Avanços e perspectivas em Bioinformática
Avanços e perspectivas em BioinformáticaAvanços e perspectivas em Bioinformática
Avanços e perspectivas em BioinformáticaLeandro Lima
 

Semelhante a Minicurso 2013 (20)

Montagem de Genomas
Montagem de GenomasMontagem de Genomas
Montagem de Genomas
 
Bioinfo - Grad - Aula 6
Bioinfo - Grad - Aula 6Bioinfo - Grad - Aula 6
Bioinfo - Grad - Aula 6
 
Uma abordagem computacional para a determinação de polimorfismos de base única
Uma abordagem computacional para a determinação de polimorfismos de base únicaUma abordagem computacional para a determinação de polimorfismos de base única
Uma abordagem computacional para a determinação de polimorfismos de base única
 
Laboratório de Biotecnologia - Rna seq
Laboratório de Biotecnologia - Rna seqLaboratório de Biotecnologia - Rna seq
Laboratório de Biotecnologia - Rna seq
 
03 strategies for genome assembly
03 strategies for genome assembly03 strategies for genome assembly
03 strategies for genome assembly
 
Indrodução a Bioinformática
Indrodução a BioinformáticaIndrodução a Bioinformática
Indrodução a Bioinformática
 
Bioinformática arquivo de dados
Bioinformática arquivo de dadosBioinformática arquivo de dados
Bioinformática arquivo de dados
 
Aula estrutura e_replicacao_do_dna_christian
Aula estrutura e_replicacao_do_dna_christianAula estrutura e_replicacao_do_dna_christian
Aula estrutura e_replicacao_do_dna_christian
 
Projeto Genoma Humano
Projeto Genoma Humano Projeto Genoma Humano
Projeto Genoma Humano
 
Lucia genomica y proteomica
Lucia genomica y proteomicaLucia genomica y proteomica
Lucia genomica y proteomica
 
Predição de estruturas e função de proteínas usando Redes Neurais
Predição de estruturas e função de proteínas usando Redes NeuraisPredição de estruturas e função de proteínas usando Redes Neurais
Predição de estruturas e função de proteínas usando Redes Neurais
 
Natureza e organização do material genético
Natureza e organização do material genéticoNatureza e organização do material genético
Natureza e organização do material genético
 
Bioinformática com Rosalind utilizando Python
Bioinformática com Rosalind utilizando PythonBioinformática com Rosalind utilizando Python
Bioinformática com Rosalind utilizando Python
 
Genoma Humano.pptx
Genoma Humano.pptxGenoma Humano.pptx
Genoma Humano.pptx
 
Aula 7 mi..(1)
Aula 7 mi..(1)Aula 7 mi..(1)
Aula 7 mi..(1)
 
D na invest-criminal-pcr-electroforese(dnafinferprint)
D na invest-criminal-pcr-electroforese(dnafinferprint)D na invest-criminal-pcr-electroforese(dnafinferprint)
D na invest-criminal-pcr-electroforese(dnafinferprint)
 
Dna invest criminal-pcr-electroforese(dn-afingerprint)
Dna invest criminal-pcr-electroforese(dn-afingerprint)Dna invest criminal-pcr-electroforese(dn-afingerprint)
Dna invest criminal-pcr-electroforese(dn-afingerprint)
 
Bioinformática - Bases de dados
Bioinformática - Bases de dadosBioinformática - Bases de dados
Bioinformática - Bases de dados
 
Dogma central e periférico
Dogma central e periféricoDogma central e periférico
Dogma central e periférico
 
Avanços e perspectivas em Bioinformática
Avanços e perspectivas em BioinformáticaAvanços e perspectivas em Bioinformática
Avanços e perspectivas em Bioinformática
 

Minicurso 2013

  • 1. + Bioinformática Prof. Dr. Gabriel da Rocha Fernandes Universidade Católica de Brasília
  • 2. + Bioinformática Prof. Dr. Gabriel da Rocha Fernandes Universidade Católica de Brasília
  • 3. + Pré História nMendel identifica caracteres hereditários. nLinus Pauling descreve o DNA como uma hélice simples. nWatson e Crick descrevem a dupla hélice do DNA. nDogma central da biologia molecular. 2 DNA$ mRNA$ Proteínas$ Variação$Normal$ou$Patológica$
  • 4. + A era genômica n1977 - Sanger sequencia um bacteriófago. nAnos 90 - Automatização do processo através de sequenciadores capilares. n1995 - Primeiro genoma completo (Haemophilus influenzae) nComeça o projeto genoma humano. 3
  • 8. + Novas tecnologias e a era pós- genômica 7
  • 9. + A explosão de sequências 8
  • 11. + Dogma Central 10 Croma&na( mRNA( ncRNA( Proteínas( Variação(Normal(ou(Patológica(Ambiente( Variação(em(seqüência( Variação(estrutural( Variação(química(na(croma&na( Epigenômica( Genômica( Transcritômica( Proteômica(
  • 12. + Hardware nComponentes do computador: n Processadores n Memória n Discos nDesempenha as funções da máquina. 11
  • 13. + Software nParte lógica do computador. nConjunto de instruções processados pelos hardwares. nInteração entre usuário e máquina. nTorna o computador útil. 12
  • 14. + Sistemas operacionais nÉ um conjunto de programas que fazem a inteface do usuário e seus programas com o Hardware. 13 Programas HardwareSistema Operacional Linux, Windows, Mac
  • 16. + MacOS nApple nVem de brinde nos Mac. nSistema Unix. nAmbiente gráfico => Windows. nDesenvolvimento => Linux. 15
  • 17. + Porque usamos o Linux? nÉ livre; nÉ gratuito; nNâo é vulnerável a vírus; nRecebe apoio de grades empresas como IBM, HP, Sun etc; nMultitarefa e Multiusuário; nModularização, somente é carregado para memória o que usado durante o processamento; nNão há necessidade de reinicar o sistemas após cada modificação; 16
  • 19. + Porque usamos o Linux? nÉ livre; nÉ gratuito; nNâo é vulnerável a vírus; nRecebe apoio de grades empresas como IBM, HP, Sun etc; nMultitarefa e Multiusuário; nModularização, somente é carregado para memória o que usado durante o processamento; nNão há necessidade de reinicar o sistemas após cada modificação; 18
  • 23. + Análise Genômica nInterdependência entre as diversas etapas de análises. nNovas metodologias e melhorias constantes. 22
  • 24. + Como fazer um genoma nA abordagem shotgun nParte-se o DNA em pedacinhos nCorre-se um gel nEscolhe-se o tamanho dos fragmentos a trabalhar nPedacinhos são clonados em vetores (montagem da biblioteca genômica) nSequenciamento com primers do vetor nMonta-se a sequência por sobreposição 23
  • 30. + Base calling - PHRED nLê os arquivos – compatível com os principais formatos de arquivos: SCF (standard chrmoatogram format), ABI (373/377/3700), ESD (MegaBACE) e LI-COR. nChama as bases – atribui uma base para cada pico identificado com um taxa de erros menor do que os programas de base calling padrões. nAssina um valor de qualidade às bases – um “valor de Phred” baseado na estimativa da taxa de erros é calculado para cada base. nCria arquivos de saída – as bases chamadas e os valores de qualidade são escritos em arquivos de saída. 29
  • 31. + Região de boa qualidade 30
  • 32. + Região de média qualidade 31
  • 33. + Região de baixa qualidade 32
  • 34. + Fórmula do valor de PHRED nq = - 10 x log10 (p) n q - Valor de qualidade n p - Probabilidade estimada de erro na base nq = 20 significa p = 10-2 (1 erro em 100 bases) nq = 40 significa p = 10-4 (1 erro em 10,000 bases) 33
  • 36. + Montagem do genoma nAlinhamento das sequencias para geração de um consenso. nIdentificação e eliminação dos gaps. 35
  • 37. + O que sequenciar? nQuebrar o DNA original em fragmentos aleatórios e selecionar os fragmentos de determinado tamanho (Ex: 2Kbp) 36 singlet gap DNA original
  • 38. + A montagem ab initio nReconstruir a sequência do genoma, dados vários (potencialmente milhões) fragmentos curtos de sequência (os reads) nOs reads têm tamanho entre 35-800 bp nOs reads podem conter erros de sequenciamento (mismatches ou indels) nA orientação (5`3` ou 3`5`) de cada read é desconhecida 37
  • 39. + Terminologia nRead: fragmento sequenciado nContig: Pedaço contíguo de sequência formado a partir da sobreposição dos reads nSinglet: read sem sobreposição com nenhum outro nGap: região do genoma não capturada por nenhum read nCobertura:Total de bases sequenciadas dividido pelo tamanho do genoma 38
  • 40. + Contigs e cobertura 39 nTenho um álbum de figurinhas, com 24 figurinhas em uma página.
  • 41. + Contigs e cobertura 40 nCompro 5 pacotes, totalizando 25 figurinhas.
  • 42. + Contigs e cobertura 41 nContigs e singlets. Contig 1 Contig 2 Contig 3
  • 43. + Contigs e cobertura 42 nCompro mais 5 pacotes, totalizando 50 figurinhas.
  • 44. + Contigs e cobertura 43 nCompro mais 20 pacotes, totalizando 150 figurinhas. E ainda assim faltou uma.
  • 45. + Contigs e cobertura 44 nPrimer walking é ligar na Panini e comprar as figurinhas que faltam.
  • 48. + Sequencias repetitivas. De onde veio o meu read? 47
  • 51. + Uso dos paired-ends 50 nDecisão sobre repetições. nMontagem de scaffolds.
  • 52. + Predição de genes nIdentificação de genes codificadores de proteínas. nCombinam métodos não comparativos e comparativos. nPredição ab initio usa informações de ORFs, uso de códons, e sequências consenso de sítios de splicing. nGeneMark, SNAP, GENSCAN... 51
  • 54. + Arquivo GFF nGeneral Feature Format nIndica as posições no contig de cada item identificado. 53
  • 58. + Análise Funcional nAssocia uma função aos genes preditos. nBaseada na homologia entre sequências. nUtiliza bases de dados de sequências conhecidas e programas de alinhamento. 57
  • 59. + Análise funcional 58 27 0! ! Predição dos genes! 27 0! ! BLAST! Base de dados!
  • 60. + Objetivos 59 nIdentificar as funções dos genes. nCaracterizar os processos celulares. nMapear em vias metabólicas. nElucidar o funcionamento do organismo.
  • 61. + Ferramentas nFerramenta de alinhamento: n BLAST n HMMER nBase de dados: n COG n KEGG Orthology n PFam n Gene Ontology 60
  • 62. + Dicas nProcurar por Hits que tenham descrição clara. n Evitar: hypothetical protein, putative.. nBuscar em várias bases de dados. n Aumentar a quantidade de entradas anotadas. n Hits não identificados em uma base podem ser anotados por outra. nObservar a cobertura do alinhamento. n BLAST faz alinhamento local. n Não classificar uma proteína como um todo baseado apenas em alinhamento a um unico domínio. 61
  • 67. + Arquivo de sequência - FASTA 66 >gi|197101743|ref|NP_001125556.1| myoglobin [Pongo abelii] MGLSDGEWQLVLNVWGKVEADIPSHGQEVLIRLFKGHPETLEKFDK FKHLKSEDEMKASEDLKKHGATVLTALGGILKKKGHHEAEIKPLAQ SHATKHKIPVKYLEFISESIIQVLQSKHPGDFGADAQGAMNKALEL FRKDMASNYKELGFQG >gi|386872|gb|AAA59595.1| myoglobin [Homo sapiens] MGLSDGEWQLVLNVWGKVEADIPGHGQEVLIRLFKGHPETLEKFDK FKHLKSEDEMKASEDLKKHGATVLTALGGILKKKGHHEAEIKPLAQ SHATKHKIPVKYLEFISECIIQVLQSKHPGDFGADAEGAMNKALEL FRKDMASNYKELGFQG
  • 68. + Alinhamentos nSimples X Múltiplo n Local X Global n Heurístico X Ótimo 67 Score = 276 bits (139), Expect = 3e-78 Identities = 139/139 (100%) Strand = Plus / Plus Query: 326 aggtgtaaaaccgtttgaatgcacttattgttataaaggattcactcgaaattctgatct 385 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 560 aggtgtaaaaccgtttgaatgcacttattgttataaaggattcactcgaaattctgatct 619 Query: 386 tcataagcacatcgacgctgttcacaaaggtctcaagcctttcggatgtgaagtatgcca 445 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 620 tcataagcacatcgacgctgttcacaaaggtctcaagcctttcggatgtgaagtatgcca 679 Query: 446 gcgaaacttctctcagaaa 464 ||||||||||||||||||| Sbjct: 680 gcgaaacttctctcagaaa 698
  • 69. + Alinhamento simples n Aquele realizado entre seqüências de DNA ou proteínas, desde que duas a duas 68 Score = 652 bits (329), Expect = 0.0 Identities = 240/240 (100%) Strand = Plus / Plus Query: 1 ctttcaagatgaacgaaccaactggtgtcgggccaacatttgctgatgcatgcgatgatg 60 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 136 ctttcaagatgaacgaaccaactggtgtcgggccaacatttgctgatgcatgcgatgatg 195 Query: 61 gcgaacttatcagcatttgttgtctttgtggtaaaacgttttcaagtcagagtcttctac 120 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 196 gcgaacttatcagcatttgttgtctttgtggtaaaacgttttcaagtcagagtcttctac 255 Query: 121 acaaacattttgaattgatgcatgaaggtacggaaatagatactgaacagtatgatctaa 180 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 256 acaaacattttgaattgatgcatgaaggtacggaaatagatactgaacagtatgatctaa 315 Query: 181 gtggatttgccgctatggggaatgaacaaggtcgtaaaagtaatggtgaagaagatgcaa 240 |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| Sbjct: 316 gtggatttgccgctatggggaatgaacaaggtcgtaaaagtaatggtgaagaagatgcaa 375
  • 70. + Alinhamento multiplo nAquele realizado entre MAIS DE DUAS seqüências de DNA ou proteínas 69 Seq1 ------------------------------------------------------------ Seq4 -GCACGAGGACTGTGA-----ACCGAATCGGTTCAGTAAAATGTTCAATTGTGCGCTGGA Seq2 ------------------------------GTTCAGTAAAATGTTCAATTGTGCGCTGGA Seq3 GGCACGAGGGCTACGACTGTGAACGAATCGGTTCAGTAAAATGTTCAATTGTGCGCTGGA Seq1 ------------------------------------------------------------ Seq4 ATCTATTGTGTAGACTATTAACTATGGAATTTTACTTCACATTGACTAAAAAGCTGAGCA Seq2 ATCTATTGTGTAGACT-TTAACTATGGAATTTTACTTCACATTGACTAAAAAGCTGAGCA Seq3 ATCTATTGTGTAGACTATTAACTATGGAATTTTACTTCACATT-ACTAAAAAGCTGAGCA Seq1 ---------------------CTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT Seq4 AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT Seq2 AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT Seq3 AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT ***************************************
  • 71. + Alinhamento global e local nGlobal: as seqs são alinhadas de ponta a ponta nLocal: pedaços das seqs é que são comparados 70
  • 72. + Alinhamentos ótimos e heurísticos nheurística -- do dicionário Houaiss nmétodo de investigação baseado na aproximação progressiva de um dado problema nAlinhamento ótimo: produz o melhor resultado computacionalmente possível nAlinhamento heurístico: produz um resultado o mais próximo possível do resultado ótimo, mas, principalmente, produz um resultado de maneira muito veloz 71
  • 75. + Matrizes de substituição 74 A C G T A 1 -2 -2 -2 C -2 1 -2 -2 G -2 -2 1 -2 T -2 -2 -2 1 A C G T A 1 -2 -1 -2 C -2 1 -2 -1 G -1 -2 1 -2 T -2 -1 -2 1
  • 77. + BLAST nBasic Local Alignment Search Tool nFerramenta de alinhamento mais utilizada no mundo nTodo pesquisador em biologia molecular já usou alguma vez (ou centenas de vezes) nDiz-se que o trabalho original onde a ferramenta foi publicada é o mais citado da história das ciências biológicas nÉ um algoritmo de alinhamento simples, heurístico e local nAlinha um seqüência de entrada contra uma base de dados desejada 76
  • 78. + Programas do BLAST 77 Formato da Seqüência de Entrada Banco de dados Formato da seqüência que é comparado Programa BLAST adequado Nucleotídeos Nucleotídeos Nucleotídeos BLASTn Proteínas Proteínas Proteínas BLASTp Nucleotídeos Proteínas Proteínas BLASTx Proteínas Nucleotídeos Proteínas TBLASTn Nucleotídeos Nucleotídeos Proteínas TBLASTtx
  • 80. + Filogenia a partir do alinhamento nMatriz de distância entre as proteínas alinhadas nClustal: 1 - (resíduos idênticos/resíduos alinhados) 79 - .17 - .59 .60 - .59 .59 .13 - .77 .77 .75 .75 - .81 .82 .73 .74 .80 - .87 .86 .86 .88 .93 .90 - Hbb_human Hbb_horse Hba_human Hba_horse Myg_phyca Glb5_petma Lgb2_lupla 1 2 3 4 5 6 7 1 2 3 4 5 6 7
  • 81. + Árvore filogenética nMétodo fenético nNão considera a evolução de cada caráter (coluna no alinhamento) nProduz uma árvore a partir de uma matriz de distância gerada ao considerar todo o conjunto de dados nVizinhos mais-próximos nNeighbor-joining nAverage neighbor nNearest neighbor nFarthest neighbor 80
  • 82. + Transcritoma 81 nConjunto de todas as moléculas de RNA encontradas em uma população celular: n mRNA n tRNA n rRNA n miRNA nTotal de transcritos encontrados em um organismo, tipo celular, condição... nReflete os genes que estão sendo expressos em um determinado momento. nSnapshot da função celular.
  • 83. + Métodos de estudo nExpressed Sequence Tags. nSequenciado por método de Sanger. nClonagem dos fragmentos usando vetores. nNão funciona em procariotos. nLow throughput. 82
  • 84. + Métodos de estudo 83 nMicroarray. nArranjos com os genes em locais determinados. nComparação de amostras par a par. nHibridização.
  • 87. + RNA-seq nUltra larga escala. nNão necessita de clonagem. nBaixo custo. nValores absolutos. nAnálise multi amostras. nGrande cobertura. 86
  • 88. + Protocolo nProtocolo para montagem da biblioteca pode variar de acordo com a tecnologia e com o objetivo: nRemoção de rRNA. nAmplificação por PCR. nConversão a cDNA. nSingle read ou pair end. 87
  • 89. + Genoma referência vs. Montagem de novo nMapeamento dos reads a um genoma referência. n Quantificação da expressão. n Identificação de variantes de splicing. nMontagem de novo do transcritoma. n Caracterização dos genes expressos. n Identificação de isoformas. n Ausência de genoma referência. 88
  • 90. + O que sai do sequenciador? nFormato padrão para análises é o FastQ. n @SEQ_ID GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCAC + !”*((((***+))%%%++)(%%%%).1***-+*”))**55CCF»»»CCCCCCC65 nPrimeira linha: identificador da sequência. n Nome da sequência. n Informação sobre filtros. nTerceira linha: qualidade da chamada da base (em código). 89
  • 92. + Mapeamento e quantificação nAs sequências produzidas são mapeadas a um genôma referência. nAlinhou em apenas uma região = ótimo. nAlinhou em mais que uma região = dilema. nO uso de replicatas é FUNDAMENTAL! 91 Repl. 1 Repl. 2 Repl. 3 Gene A 5 3 12 Gene B 16 25 35 Gene C 10 15 3 Gene D 750 500 500 Gene E 1504 1005 1030
  • 93. + Interpretando a contagem dos genes nNo exemplo da tabela, o Gene E tem duas vezes mais reads que o Gene D: 92
  • 94. + Interpretando a contagem dos genes nNo exemplo da tabela, o Gene E tem duas vezes mais reads que o Gene D: n Gene E é expresso duas vezes mais que o Gene D. 92
  • 95. + Interpretando a contagem dos genes nNo exemplo da tabela, o Gene E tem duas vezes mais reads que o Gene D: n Gene E é expresso duas vezes mais que o Gene D. n Ambos os genes se expressam na mesma intensidade, mas o Gene E é duas vezes maior que o Gene D. 92
  • 96. + Interpretando a contagem dos genes nNo exemplo da tabela, o Gene E tem duas vezes mais reads que o Gene D: n Gene E é expresso duas vezes mais que o Gene D. n Ambos os genes se expressam na mesma intensidade, mas o Gene E é duas vezes maior que o Gene D. n Ambos os genes tem o mesmo tamanho e se expressam na mesma intensidade, mas o Gene D tem um parálogo no genoma ao qual metade dos seus reads foram mapeados. 92
  • 97. + Interpretando a contagem dos genes nNo exemplo da tabela, o Gene E tem duas vezes mais reads que o Gene D: n Gene E é expresso duas vezes mais que o Gene D. n Ambos os genes se expressam na mesma intensidade, mas o Gene E é duas vezes maior que o Gene D. n Ambos os genes tem o mesmo tamanho e se expressam na mesma intensidade, mas o Gene D tem um parálogo no genoma ao qual metade dos seus reads foram mapeados. nA causa é os três ao mesmo tempo. 92
  • 98. + Identificando genes diferencialmente expressos. nComparar diferentes condições: controle com testes. n Célula normal com célula tumoral. n Planta sem e com estresse hídrico. n Animal sem e com parasita... nGenes em duas condições diferentes VÃO apresentar quantidades de reads diferentes. nEssa variação pode ser diferença biológica entre as duas condições, ou ruído experimental. nAplicação de testes estatísticos. 93
  • 99. + Identificando genes diferencialmente expressos. nPara identificar uma diferença estatisticamente significantes, é necessário que a diferença de expressão entre as duas condições seja maior que a imprecisão do nível de expressão sob uma determinada condição. 94
  • 100. + Sou pobre, não vou usar replicata. nLição de vida: n Um Gene H, em uma célula normal extraída do Zé Moreno, tem 5 reads. n O mesmo Gene H, em célula tumoral extraída do mesmo Zé Moreno, tem 10 reads. n Uoua! O Gene H é duas vezes mais expresso na célula tumoral! n Ganhei uns trocados e fiz transcritoma da célula normal de mais 2 pacientes. De brinde, ganhei o sequenciamento do Zé moreno de novo. n O Gene H teve 12 reads na célula do Zé Moreno, 17 reads na Maria Tolé, e 22 reads na célula do Tião Torresmo. nMoral da história: quanto mais medições fizer, mais vai ter certeza dos níveis de expressão dos genes. 95
  • 101. + Replicata técnica vs. Replicata biológica nTécnica: explica a variação encontrada que pode ter sido causada por critérios técnicos: preparação da biblioteca, qualidade do sequênciamento, cobertura do gene... nBiológica: explica a variação encontrada que pode ter sido causada pela variabilidade de expressão que não está associada à mudança nas condições do experimento. 96
  • 102. + Fontes de variação Variância de Poisson nÉ a incerteza existente em qualquer medição em que algo é amostrado e contado. nComo é baseado no valor da contagem em si, não é específico do experimento. nEssa variância está relacionada a quantidade total de reads. nPor exemplo, a diferença na expressão de um gene medido com 1 read versus 2 reads é inerentemente menos seguro do que as diferenças na expressão de um gene medido com 100 reads versus 200 reads, apesar de ambas as diferenças serem, nominalmente, uma mudança 2X. 97
  • 104. + Fontes de variação Variação Técnica Não-Poisson nAssociado à incapacidade da técnica não conseguir medir a expressão perfeitamente. nVisto em replicatas técnicas. nCausas: n Seleção de miRNA. n Depleção de rRNA. n Amplificação por PCR. n Armazenamento. n RNA-later. nMoral da história: Manipule sua amostra o mínimo possível. 99
  • 105. + Fontes de variação Variação Biológica nOcorre naturalmente nas amostras. nA expressão naturalmente flutua em células sob a mesma condição. nCausas da variações biológicas podem ser diferenças genéticas, de maquinaria celular, ou de resposta a variação do ambiente. nVariação biológica também sofre a influência das outras duas variações vistas. 100
  • 106. + Filosofando... nMais replicatas vs. Mais reads. nComo lidar com batch-effects? nPreciso validar com RT-PCR? nEu considero como diferencialmente expresso genes com p- value < 0.01. nCalcular FDR (False discovery rate) nLeia artigos que tenham usado benchmarks. nConverse com o bioinformata que vai fazer as análises. 101
  • 107. + Metagenômica nMetagenoma: material genético recuperado diretamente de amostras ambientais. nFornece informações sobre os organismos em seu habitat natural.
  • 108. + Metagenômica nCerca de 99% das bactérias não são cultiváveis. nPermite o estudo de organismos que não são facilmente cultivados em laboratório. nIdentificação de funções em espécies ainda não identificadas.
  • 109. + Análise do gene do rRNA 16s nGene altamente conservado em bactérias e archaea. nRegião hiper variável confere sequências com assinatura específica. nFornece um perfil da diversidade na amostra.
  • 110. + Whole Genome Shotgun e nova geração de sequenciadores nPermite uma visão mais global da comunidade. nAnálise dos níveis da diversidade filogenética e polimorfismos intraespecíficos. nEstudo de genes completos e de vias metabólicas da comunidade. nReconstrução dos genomas. nDemanda intensa análise bioinformática.
  • 111. + Etapas da análise metagenômica nFatores influentes. nInterdependências ocultas.
  • 112. + Métodos de estudo - Funcional nIsolamento do DNA da amostra. nClonagem do DNA em um hospedeiro. nExpressão do gene e análise funcional. nAnálise das sequências.
  • 113. + Métodos de estudo - Genômico nDNA isolado pode ser submetido a um sequenciamento aleatório ou direcionado. nPermite montagem de todo metaboloma. nAnálise filogenética. nMetagenômica comparativa.
  • 116. + Assinatura filogenética nCada read é associado a um organismo (espécie, gênero, família…) nUtiliza bases de dados de genômas referência ou base de dados NT do NCBI. nFerramenta de alinhamento. nValores de identidade para definir o nível cladístico assinado. 88% 98% 99% Bacteroides fragilis Escherichia coli 70%
  • 117. + Assinatura filogenética nComposição geral da amostra nPrograma: MEGAN nAgrupa multiplos alinhamentos em um nível cladístico.
  • 118. + Análise filogenética nQual clado prevalece na amostra? nExiste um perfil filogenético? nIdentificação de marcadores filogenéticos. nAssociação da presença de um clado a uma determinada característica.
  • 119. + Anotação funcional nAvaliar o potencial genético da amostra. nMontagem dos contigs. nPredição dos genes. nAlinhamento dos genes preditos a uma base de dados.
  • 120. + Análise funcional nQual função está mais presente? nExiste alguma função do seu interesse? nMontagem do mapa metabólico do ambiente. nRastrear a função e identificar o organismo que executa.
  • 121. +
  • 122. +
  • 123. +
  • 124. +
  • 125. +