O documento apresenta um resumo sobre bioinformática. Aborda tópicos como a pré-história da bioinformática, a era genômica, ferramentas de análise bioinformática como BLAST e alinhamentos múltiplos, predição de genes e análise funcional.
+
Pré História
nMendel identificacaracteres hereditários.
nLinus Pauling descreve o DNA como uma hélice simples.
nWatson e Crick descrevem a dupla hélice do DNA.
nDogma central da biologia molecular.
2
DNA$
mRNA$
Proteínas$
Variação$Normal$ou$Patológica$
4.
+
A era genômica
n1977- Sanger sequencia um bacteriófago.
nAnos 90 - Automatização do processo através de
sequenciadores capilares.
n1995 - Primeiro genoma completo (Haemophilus influenzae)
nComeça o projeto genoma humano.
3
+
Software
nParte lógica docomputador.
nConjunto de instruções processados pelos hardwares.
nInteração entre usuário e máquina.
nTorna o computador útil.
12
14.
+
Sistemas operacionais
nÉ umconjunto de programas que fazem a inteface do usuário e
seus programas com o Hardware.
13
Programas HardwareSistema Operacional
Linux, Windows, Mac
+
Porque usamos oLinux?
nÉ livre;
nÉ gratuito;
nNâo é vulnerável a vírus;
nRecebe apoio de grades empresas como IBM, HP, Sun etc;
nMultitarefa e Multiusuário;
nModularização, somente é carregado para memória o que
usado durante o processamento;
nNão há necessidade de reinicar o sistemas após cada
modificação;
16
+
Porque usamos oLinux?
nÉ livre;
nÉ gratuito;
nNâo é vulnerável a vírus;
nRecebe apoio de grades empresas como IBM, HP, Sun etc;
nMultitarefa e Multiusuário;
nModularização, somente é carregado para memória o que
usado durante o processamento;
nNão há necessidade de reinicar o sistemas após cada
modificação;
18
+
Como fazer umgenoma
nA abordagem shotgun
nParte-se o DNA em pedacinhos
nCorre-se um gel
nEscolhe-se o tamanho dos fragmentos a trabalhar
nPedacinhos são clonados em vetores (montagem da biblioteca
genômica)
nSequenciamento com primers do vetor
nMonta-se a sequência por sobreposição
23
+
Base calling -PHRED
nLê os arquivos – compatível com os principais formatos de
arquivos: SCF (standard chrmoatogram format), ABI
(373/377/3700), ESD (MegaBACE) e LI-COR.
nChama as bases – atribui uma base para cada pico identificado
com um taxa de erros menor do que os programas de base
calling padrões.
nAssina um valor de qualidade às bases – um “valor de Phred”
baseado na estimativa da taxa de erros é calculado para cada
base.
nCria arquivos de saída – as bases chamadas e os valores de
qualidade são escritos em arquivos de saída.
29
+
Fórmula do valorde PHRED
nq = - 10 x log10 (p)
n q - Valor de qualidade
n p - Probabilidade estimada de erro na base
nq = 20 significa p = 10-2 (1 erro em 100 bases)
nq = 40 significa p = 10-4 (1 erro em 10,000 bases)
33
+
O que sequenciar?
nQuebraro DNA original em fragmentos aleatórios e selecionar
os fragmentos de determinado tamanho (Ex: 2Kbp)
36
singlet
gap
DNA original
38.
+
A montagem abinitio
nReconstruir a sequência do genoma, dados vários
(potencialmente milhões) fragmentos curtos de sequência (os
reads)
nOs reads têm tamanho entre 35-800 bp
nOs reads podem conter erros de sequenciamento (mismatches
ou indels)
nA orientação (5`3` ou 3`5`) de cada read é desconhecida
37
39.
+
Terminologia
nRead: fragmento sequenciado
nContig:Pedaço contíguo de sequência formado a partir da
sobreposição dos reads
nSinglet: read sem sobreposição com nenhum outro
nGap: região do genoma não capturada por nenhum read
nCobertura:Total de bases sequenciadas dividido pelo tamanho
do genoma
38
+
Predição de genes
nIdentificaçãode genes codificadores de proteínas.
nCombinam métodos não comparativos e comparativos.
nPredição ab initio usa informações de ORFs, uso de códons, e
sequências consenso de sítios de splicing.
nGeneMark, SNAP, GENSCAN...
51
+
Análise Funcional
nAssocia umafunção aos genes preditos.
nBaseada na homologia entre sequências.
nUtiliza bases de dados de sequências conhecidas e programas
de alinhamento.
57
+
Objetivos
59
nIdentificar as funçõesdos genes.
nCaracterizar os processos celulares.
nMapear em vias metabólicas.
nElucidar o funcionamento do organismo.
+
Dicas
nProcurar por Hitsque tenham descrição clara.
n Evitar: hypothetical protein, putative..
nBuscar em várias bases de dados.
n Aumentar a quantidade de entradas anotadas.
n Hits não identificados em uma base podem ser anotados por outra.
nObservar a cobertura do alinhamento.
n BLAST faz alinhamento local.
n Não classificar uma proteína como um todo baseado apenas em
alinhamento a um unico domínio.
61
+
Alinhamentos
nSimples X Múltiplo
nLocal X Global
n Heurístico X Ótimo
67
Score = 276 bits (139), Expect = 3e-78
Identities = 139/139 (100%)
Strand = Plus / Plus
Query: 326 aggtgtaaaaccgtttgaatgcacttattgttataaaggattcactcgaaattctgatct 385
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 560 aggtgtaaaaccgtttgaatgcacttattgttataaaggattcactcgaaattctgatct 619
Query: 386 tcataagcacatcgacgctgttcacaaaggtctcaagcctttcggatgtgaagtatgcca 445
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 620 tcataagcacatcgacgctgttcacaaaggtctcaagcctttcggatgtgaagtatgcca 679
Query: 446 gcgaaacttctctcagaaa 464
|||||||||||||||||||
Sbjct: 680 gcgaaacttctctcagaaa 698
69.
+
Alinhamento simples
n Aquelerealizado entre seqüências de DNA ou proteínas,
desde que duas a duas
68
Score = 652 bits (329), Expect = 0.0
Identities = 240/240 (100%)
Strand = Plus / Plus
Query: 1 ctttcaagatgaacgaaccaactggtgtcgggccaacatttgctgatgcatgcgatgatg 60
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 136 ctttcaagatgaacgaaccaactggtgtcgggccaacatttgctgatgcatgcgatgatg 195
Query: 61 gcgaacttatcagcatttgttgtctttgtggtaaaacgttttcaagtcagagtcttctac 120
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 196 gcgaacttatcagcatttgttgtctttgtggtaaaacgttttcaagtcagagtcttctac 255
Query: 121 acaaacattttgaattgatgcatgaaggtacggaaatagatactgaacagtatgatctaa 180
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 256 acaaacattttgaattgatgcatgaaggtacggaaatagatactgaacagtatgatctaa 315
Query: 181 gtggatttgccgctatggggaatgaacaaggtcgtaaaagtaatggtgaagaagatgcaa 240
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 316 gtggatttgccgctatggggaatgaacaaggtcgtaaaagtaatggtgaagaagatgcaa 375
70.
+
Alinhamento multiplo
nAquele realizadoentre MAIS DE DUAS seqüências de DNA ou
proteínas
69
Seq1 ------------------------------------------------------------
Seq4 -GCACGAGGACTGTGA-----ACCGAATCGGTTCAGTAAAATGTTCAATTGTGCGCTGGA
Seq2 ------------------------------GTTCAGTAAAATGTTCAATTGTGCGCTGGA
Seq3 GGCACGAGGGCTACGACTGTGAACGAATCGGTTCAGTAAAATGTTCAATTGTGCGCTGGA
Seq1 ------------------------------------------------------------
Seq4 ATCTATTGTGTAGACTATTAACTATGGAATTTTACTTCACATTGACTAAAAAGCTGAGCA
Seq2 ATCTATTGTGTAGACT-TTAACTATGGAATTTTACTTCACATTGACTAAAAAGCTGAGCA
Seq3 ATCTATTGTGTAGACTATTAACTATGGAATTTTACTTCACATT-ACTAAAAAGCTGAGCA
Seq1 ---------------------CTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT
Seq4 AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT
Seq2 AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT
Seq3 AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT
***************************************
71.
+
Alinhamento global elocal
nGlobal: as seqs são alinhadas de ponta a ponta
nLocal: pedaços das seqs é que são comparados
70
72.
+
Alinhamentos ótimos eheurísticos
nheurística -- do dicionário Houaiss
nmétodo de investigação baseado na aproximação progressiva
de um dado problema
nAlinhamento ótimo: produz o melhor resultado
computacionalmente possível
nAlinhamento heurístico: produz um resultado o mais próximo
possível do resultado ótimo, mas, principalmente, produz um
resultado de maneira muito veloz
71
+
BLAST
nBasic Local AlignmentSearch Tool
nFerramenta de alinhamento mais utilizada no mundo
nTodo pesquisador em biologia molecular já usou alguma vez
(ou centenas de vezes)
nDiz-se que o trabalho original onde a ferramenta foi publicada
é o mais citado da história das ciências biológicas
nÉ um algoritmo de alinhamento simples, heurístico e local
nAlinha um seqüência de entrada contra uma base de dados
desejada
76
78.
+
Programas do BLAST
77
Formatoda
Seqüência de
Entrada
Banco de
dados
Formato da
seqüência que
é comparado
Programa
BLAST
adequado
Nucleotídeos Nucleotídeos Nucleotídeos BLASTn
Proteínas Proteínas Proteínas BLASTp
Nucleotídeos Proteínas Proteínas BLASTx
Proteínas Nucleotídeos Proteínas TBLASTn
Nucleotídeos Nucleotídeos Proteínas TBLASTtx
+
Árvore filogenética
nMétodo fenético
nNãoconsidera a evolução de cada caráter (coluna no
alinhamento)
nProduz uma árvore a partir de uma matriz de distância gerada
ao considerar todo o conjunto de dados
nVizinhos mais-próximos
nNeighbor-joining
nAverage neighbor
nNearest neighbor
nFarthest neighbor
80
82.
+
Transcritoma
81
nConjunto de todasas moléculas de RNA encontradas em uma
população celular:
n mRNA
n tRNA
n rRNA
n miRNA
nTotal de transcritos encontrados em um organismo, tipo
celular, condição...
nReflete os genes que estão sendo expressos em um
determinado momento.
nSnapshot da função celular.
83.
+
Métodos de estudo
nExpressedSequence Tags.
nSequenciado por método de Sanger.
nClonagem dos fragmentos usando
vetores.
nNão funciona em procariotos.
nLow throughput.
82
+
Protocolo
nProtocolo para montagemda biblioteca pode variar de acordo
com a tecnologia e com o objetivo:
nRemoção de rRNA.
nAmplificação por PCR.
nConversão a cDNA.
nSingle read ou pair end.
87
89.
+
Genoma referência vs.Montagem
de novo
nMapeamento dos reads a um genoma referência.
n Quantificação da expressão.
n Identificação de variantes de splicing.
nMontagem de novo do transcritoma.
n Caracterização dos genes expressos.
n Identificação de isoformas.
n Ausência de genoma referência.
88
90.
+
O que saido sequenciador?
nFormato padrão para análises é o FastQ.
n @SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCAC
+
!”*((((***+))%%%++)(%%%%).1***-+*”))**55CCF»»»CCCCCCC65
nPrimeira linha: identificador da sequência.
n Nome da sequência.
n Informação sobre filtros.
nTerceira linha: qualidade da chamada da base (em código).
89
+
Mapeamento e quantificação
nAssequências produzidas são mapeadas a um genôma
referência.
nAlinhou em apenas uma região = ótimo.
nAlinhou em mais que uma região = dilema.
nO uso de replicatas é FUNDAMENTAL!
91
Repl. 1 Repl. 2 Repl. 3
Gene A 5 3 12
Gene B 16 25 35
Gene C 10 15 3
Gene D 750 500 500
Gene E 1504 1005 1030
93.
+
Interpretando a contagemdos
genes
nNo exemplo da tabela, o Gene E tem duas vezes mais reads
que o Gene D:
92
94.
+
Interpretando a contagemdos
genes
nNo exemplo da tabela, o Gene E tem duas vezes mais reads
que o Gene D:
n Gene E é expresso duas vezes mais que o Gene D.
92
95.
+
Interpretando a contagemdos
genes
nNo exemplo da tabela, o Gene E tem duas vezes mais reads
que o Gene D:
n Gene E é expresso duas vezes mais que o Gene D.
n Ambos os genes se expressam na mesma intensidade, mas o Gene E é
duas vezes maior que o Gene D.
92
96.
+
Interpretando a contagemdos
genes
nNo exemplo da tabela, o Gene E tem duas vezes mais reads
que o Gene D:
n Gene E é expresso duas vezes mais que o Gene D.
n Ambos os genes se expressam na mesma intensidade, mas o Gene E é
duas vezes maior que o Gene D.
n Ambos os genes tem o mesmo tamanho e se expressam na mesma
intensidade, mas o Gene D tem um parálogo no genoma ao qual metade
dos seus reads foram mapeados.
92
97.
+
Interpretando a contagemdos
genes
nNo exemplo da tabela, o Gene E tem duas vezes mais reads
que o Gene D:
n Gene E é expresso duas vezes mais que o Gene D.
n Ambos os genes se expressam na mesma intensidade, mas o Gene E é
duas vezes maior que o Gene D.
n Ambos os genes tem o mesmo tamanho e se expressam na mesma
intensidade, mas o Gene D tem um parálogo no genoma ao qual metade
dos seus reads foram mapeados.
nA causa é os três ao mesmo tempo.
92
98.
+
Identificando genes
diferencialmente expressos.
nComparardiferentes condições: controle com testes.
n Célula normal com célula tumoral.
n Planta sem e com estresse hídrico.
n Animal sem e com parasita...
nGenes em duas condições diferentes VÃO apresentar
quantidades de reads diferentes.
nEssa variação pode ser diferença biológica entre as duas
condições, ou ruído experimental.
nAplicação de testes estatísticos.
93
99.
+
Identificando genes
diferencialmente expressos.
nParaidentificar uma diferença estatisticamente significantes, é
necessário que a diferença de expressão entre as duas
condições seja maior que a imprecisão do nível de expressão
sob uma determinada condição.
94
100.
+
Sou pobre, nãovou usar replicata.
nLição de vida:
n Um Gene H, em uma célula normal extraída do Zé Moreno, tem 5 reads.
n O mesmo Gene H, em célula tumoral extraída do mesmo Zé Moreno,
tem 10 reads.
n Uoua! O Gene H é duas vezes mais expresso na célula tumoral!
n Ganhei uns trocados e fiz transcritoma da célula normal de mais 2
pacientes. De brinde, ganhei o sequenciamento do Zé moreno de novo.
n O Gene H teve 12 reads na célula do Zé Moreno, 17 reads na Maria Tolé,
e 22 reads na célula do Tião Torresmo.
nMoral da história: quanto mais medições fizer, mais vai ter
certeza dos níveis de expressão dos genes.
95
101.
+
Replicata técnica vs.Replicata
biológica
nTécnica: explica a variação
encontrada que pode ter
sido causada por critérios
técnicos: preparação da
biblioteca, qualidade do
sequênciamento, cobertura
do gene...
nBiológica: explica a
variação encontrada que
pode ter sido causada pela
variabilidade de expressão
que não está associada à
mudança nas condições do
experimento.
96
102.
+
Fontes de variação
Variânciade Poisson
nÉ a incerteza existente em qualquer medição em que algo é
amostrado e contado.
nComo é baseado no valor da contagem em si, não é específico
do experimento.
nEssa variância está relacionada a quantidade total de reads.
nPor exemplo, a diferença na expressão de um gene medido
com 1 read versus 2 reads é inerentemente menos seguro do
que as diferenças na expressão de um gene medido com 100
reads versus 200 reads, apesar de ambas as diferenças serem,
nominalmente, uma mudança 2X.
97
+
Fontes de variação
VariaçãoTécnica Não-Poisson
nAssociado à incapacidade da
técnica não conseguir medir
a expressão perfeitamente.
nVisto em replicatas técnicas.
nCausas:
n Seleção de miRNA.
n Depleção de rRNA.
n Amplificação por PCR.
n Armazenamento.
n RNA-later.
nMoral da história: Manipule
sua amostra o mínimo
possível.
99
105.
+
Fontes de variação
VariaçãoBiológica
nOcorre naturalmente nas amostras.
nA expressão naturalmente flutua
em células sob a mesma condição.
nCausas da variações biológicas
podem ser diferenças genéticas,
de maquinaria celular, ou de
resposta a variação do ambiente.
nVariação biológica também sofre a
influência das outras duas
variações vistas.
100
106.
+
Filosofando...
nMais replicatas vs.Mais reads.
nComo lidar com batch-effects?
nPreciso validar com RT-PCR?
nEu considero como diferencialmente expresso genes com p-
value < 0.01.
nCalcular FDR (False discovery rate)
nLeia artigos que tenham usado benchmarks.
nConverse com o bioinformata que vai fazer as análises.
101
+
Metagenômica
nCerca de 99%das bactérias não são cultiváveis.
nPermite o estudo de organismos que não são facilmente
cultivados em laboratório.
nIdentificação de funções em espécies ainda não identificadas.
109.
+
Análise do genedo rRNA 16s
nGene altamente conservado em bactérias e archaea.
nRegião hiper variável confere sequências com assinatura
específica.
nFornece um perfil da diversidade na amostra.
110.
+
Whole Genome Shotgune nova
geração de sequenciadores
nPermite uma visão mais global da comunidade.
nAnálise dos níveis da diversidade filogenética e
polimorfismos intraespecíficos.
nEstudo de genes completos e de vias metabólicas da
comunidade.
nReconstrução dos genomas.
nDemanda intensa análise bioinformática.
111.
+
Etapas da análisemetagenômica
nFatores influentes.
nInterdependências ocultas.
112.
+
Métodos de estudo- Funcional
nIsolamento do DNA da amostra.
nClonagem do DNA em um
hospedeiro.
nExpressão do gene e análise
funcional.
nAnálise das sequências.
113.
+
Métodos de estudo- Genômico
nDNA isolado pode ser submetido a
um sequenciamento aleatório ou
direcionado.
nPermite montagem de todo
metaboloma.
nAnálise filogenética.
nMetagenômica comparativa.
+
Assinatura filogenética
nCada readé associado a um organismo (espécie, gênero,
família…)
nUtiliza bases de dados de genômas referência ou base de dados
NT do NCBI.
nFerramenta de alinhamento.
nValores de identidade para definir o nível cladístico assinado.
88% 98% 99%
Bacteroides fragilis
Escherichia coli
70%
+
Análise filogenética
nQual cladoprevalece na amostra?
nExiste um perfil filogenético?
nIdentificação de marcadores filogenéticos.
nAssociação da presença de um clado a uma determinada
característica.
119.
+
Anotação funcional
nAvaliar opotencial genético da amostra.
nMontagem dos contigs.
nPredição dos genes.
nAlinhamento dos genes preditos a uma base de dados.
120.
+
Análise funcional
nQual funçãoestá mais presente?
nExiste alguma função do seu interesse?
nMontagem do mapa metabólico do ambiente.
nRastrear a função e identificar o organismo que executa.