Minicurso 2013

+
Bioinformática
Prof. Dr. Gabriel da Rocha Fernandes
Universidade Católica de Brasília

+
Pré História
nMendel identifica caracteres hereditários.
nLinus Pauling descreve o DNA como uma hélice simples.
nWatson e Crick descrevem a dupla hélice do DNA.
nDogma central da biologia molecular.
2
DNA$
mRNA$
Proteínas$
Variação$Normal$ou$Patológica$

+
A era genômica
n1977 - Sanger sequencia um bacteriófago.
nAnos 90 - Automatização do processo através de
sequenciadores capilares.
n1995 - Primeiro genoma completo (Haemophilus influenzae)
nComeça o projeto genoma humano.
3

+
Novas tecnologias e a era pós-
genômica
7

+
A explosão de sequências
8

+
Dogma Central
10
Croma&na(
mRNA( ncRNA(
Proteínas(
Variação(Normal(ou(Patológica(Ambiente(
Variação(em(seqüência( Variação(estrutural( Variação(química(na(croma&na(
Epigenômica(
Genômica(
Transcritômica(
Proteômica(

+
Hardware
nComponentes do computador:
n Processadores
n Memória
n Discos
nDesempenha as funções da máquina.
11

+
Software
nParte lógica do computador.
nConjunto de instruções processados pelos hardwares.
nInteração entre usuário e máquina.
nTorna o computador útil.
12

+
Sistemas operacionais
nÉ um conjunto de programas que fazem a inteface do usuário e
seus programas com o Hardware.
13
Programas HardwareSistema Operacional
Linux, Windows, Mac

+
Windows
nMicrosoft
nUser friendly.
nPopular.
nServiço de licenças
nLimitado.
14

+
MacOS
nApple
nVem de brinde nos Mac.
nSistema Unix.
nAmbiente gráfico => Windows.
nDesenvolvimento => Linux.
15

+
Porque usamos o Linux?
nÉ livre;
nÉ gratuito;
nNâo é vulnerável a vírus;
nRecebe apoio de grades empresas como IBM, HP, Sun etc;
nMultitarefa e Multiusuário;
nModularização, somente é carregado para memória o que
usado durante o processamento;
nNão há necessidade de reinicar o sistemas após cada
modificação;
16

+
Porque usamos o Linux?
nÉ livre;
nÉ gratuito;
nNâo é vulnerável a vírus;
nRecebe apoio de grades empresas como IBM, HP, Sun etc;
nMultitarefa e Multiusuário;
nModularização, somente é carregado para memória o que
usado durante o processamento;
nNão há necessidade de reinicar o sistemas após cada
modificação;
18

+
NCBI
nwww.ncbi.nlm.nih.gov
19

+
NCBI
20
National Institute
of Health
National Library
of Medicine

+
A análise bioinformática
21

+
Análise Genômica
nInterdependência entre as diversas etapas de análises.
nNovas metodologias e melhorias constantes.
22

+
Como fazer um genoma
nA abordagem shotgun
nParte-se o DNA em pedacinhos
nCorre-se um gel
nEscolhe-se o tamanho dos fragmentos a trabalhar
nPedacinhos são clonados em vetores (montagem da biblioteca
genômica)
nSequenciamento com primers do vetor
nMonta-se a sequência por sobreposição
23

+
Estratégia de sequenciamento
24

+
Base calling - PHRED
nLê os arquivos – compatível com os principais formatos de
arquivos: SCF (standard chrmoatogram format), ABI
(373/377/3700), ESD (MegaBACE) e LI-COR.
nChama as bases – atribui uma base para cada pico identificado
com um taxa de erros menor do que os programas de base
calling padrões.
nAssina um valor de qualidade às bases – um “valor de Phred”
baseado na estimativa da taxa de erros é calculado para cada
base.
nCria arquivos de saída – as bases chamadas e os valores de
qualidade são escritos em arquivos de saída.
29

+
Região de média qualidade
31

+
Região de baixa qualidade
32

+
Fórmula do valor de PHRED
nq = - 10 x log10 (p)
n q - Valor de qualidade
n p - Probabilidade estimada de erro na base
nq = 20 significa p = 10-2 (1 erro em 100 bases)
nq = 40 significa p = 10-4 (1 erro em 10,000 bases)
33

+
Montagem do genoma
nAlinhamento das sequencias para geração de um consenso.
nIdentificação e eliminação dos gaps.
35

+
O que sequenciar?
nQuebrar o DNA original em fragmentos aleatórios e selecionar
os fragmentos de determinado tamanho (Ex: 2Kbp)
36
singlet
gap
DNA original

+
A montagem ab initio
nReconstruir a sequência do genoma, dados vários
(potencialmente milhões) fragmentos curtos de sequência (os
reads)
nOs reads têm tamanho entre 35-800 bp
nOs reads podem conter erros de sequenciamento (mismatches
ou indels)
nA orientação (5`3` ou 3`5`) de cada read é desconhecida
37

+
Terminologia
nRead: fragmento sequenciado
nContig: Pedaço contíguo de sequência formado a partir da
sobreposição dos reads
nSinglet: read sem sobreposição com nenhum outro
nGap: região do genoma não capturada por nenhum read
nCobertura:Total de bases sequenciadas dividido pelo tamanho
do genoma
38

+
Contigs e cobertura
39
nTenho um álbum de figurinhas, com 24 figurinhas em uma
página.

+
Contigs e cobertura
40
nCompro 5 pacotes, totalizando 25 figurinhas.

+
Contigs e cobertura
41
nContigs e singlets.
Contig 1 Contig 2
Contig 3

+
Contigs e cobertura
42
nCompro mais 5 pacotes, totalizando 50 figurinhas.

+
Contigs e cobertura
43
nCompro mais 20 pacotes, totalizando 150 figurinhas. E ainda
assim faltou uma.

+
Contigs e cobertura
44
nPrimer walking é ligar na Panini e comprar as figurinhas que
faltam.

+
Problemas
nSequências repetitivas.
nTamanho dos reads.
nSequencias Alu.
46

+
Sequencias repetitivas.
De onde veio o meu read?
47

+
Uso dos paired-ends
50
nDecisão sobre
repetições.
nMontagem de
scaffolds.

+
Predição de genes
nIdentificação de genes codificadores de proteínas.
nCombinam métodos não comparativos e comparativos.
nPredição ab initio usa informações de ORFs, uso de códons, e
sequências consenso de sítios de splicing.
nGeneMark, SNAP, GENSCAN...
51

+
Arquivo GFF
nGeneral Feature Format
nIndica as posições no contig de cada item identificado.
53

+
Visualização
nArtemis - Sanger Institute
56

+
Análise Funcional
nAssocia uma função aos genes preditos.
nBaseada na homologia entre sequências.
nUtiliza bases de dados de sequências conhecidas e programas
de alinhamento.
57

+
Análise funcional
58
27
0!
!
Predição dos genes!
27
0!
!
BLAST! Base de dados!

+
Objetivos
59
nIdentificar as funções dos genes.
nCaracterizar os processos celulares.
nMapear em vias metabólicas.
nElucidar o funcionamento do organismo.

+
Ferramentas
nFerramenta de alinhamento:
n BLAST
n HMMER
nBase de dados:
n COG
n KEGG Orthology
n PFam
n Gene Ontology
60

+
Dicas
nProcurar por Hits que tenham descrição clara.
n Evitar: hypothetical protein, putative..
nBuscar em várias bases de dados.
n Aumentar a quantidade de entradas anotadas.
n Hits não identificados em uma base podem ser anotados por outra.
nObservar a cobertura do alinhamento.
n BLAST faz alinhamento local.
n Não classificar uma proteína como um todo baseado apenas em
alinhamento a um unico domínio.
61

+
iPath
npathways.embl.de
64

+
Arquivo de sequência - FASTA
66
>gi|197101743|ref|NP_001125556.1| myoglobin
[Pongo abelii]
MGLSDGEWQLVLNVWGKVEADIPSHGQEVLIRLFKGHPETLEKFDK
FKHLKSEDEMKASEDLKKHGATVLTALGGILKKKGHHEAEIKPLAQ
SHATKHKIPVKYLEFISESIIQVLQSKHPGDFGADAQGAMNKALEL
FRKDMASNYKELGFQG
>gi|386872|gb|AAA59595.1| myoglobin [Homo
sapiens]
MGLSDGEWQLVLNVWGKVEADIPGHGQEVLIRLFKGHPETLEKFDK
FKHLKSEDEMKASEDLKKHGATVLTALGGILKKKGHHEAEIKPLAQ
SHATKHKIPVKYLEFISECIIQVLQSKHPGDFGADAEGAMNKALEL
FRKDMASNYKELGFQG

+
Alinhamentos
nSimples X Múltiplo
n Local X Global
n Heurístico X Ótimo
67
Score = 276 bits (139), Expect = 3e-78
Identities = 139/139 (100%)
Strand = Plus / Plus
Query: 326 aggtgtaaaaccgtttgaatgcacttattgttataaaggattcactcgaaattctgatct 385
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 560 aggtgtaaaaccgtttgaatgcacttattgttataaaggattcactcgaaattctgatct 619
Query: 386 tcataagcacatcgacgctgttcacaaaggtctcaagcctttcggatgtgaagtatgcca 445
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 620 tcataagcacatcgacgctgttcacaaaggtctcaagcctttcggatgtgaagtatgcca 679
Query: 446 gcgaaacttctctcagaaa 464
|||||||||||||||||||
Sbjct: 680 gcgaaacttctctcagaaa 698

+
Alinhamento simples
n Aquele realizado entre seqüências de DNA ou proteínas,
desde que duas a duas
68
Score = 652 bits (329), Expect = 0.0
Identities = 240/240 (100%)
Strand = Plus / Plus
Query: 1 ctttcaagatgaacgaaccaactggtgtcgggccaacatttgctgatgcatgcgatgatg 60
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 136 ctttcaagatgaacgaaccaactggtgtcgggccaacatttgctgatgcatgcgatgatg 195
Query: 61 gcgaacttatcagcatttgttgtctttgtggtaaaacgttttcaagtcagagtcttctac 120
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 196 gcgaacttatcagcatttgttgtctttgtggtaaaacgttttcaagtcagagtcttctac 255
Query: 121 acaaacattttgaattgatgcatgaaggtacggaaatagatactgaacagtatgatctaa 180
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 256 acaaacattttgaattgatgcatgaaggtacggaaatagatactgaacagtatgatctaa 315
Query: 181 gtggatttgccgctatggggaatgaacaaggtcgtaaaagtaatggtgaagaagatgcaa 240
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Sbjct: 316 gtggatttgccgctatggggaatgaacaaggtcgtaaaagtaatggtgaagaagatgcaa 375

+
Alinhamento multiplo
nAquele realizado entre MAIS DE DUAS seqüências de DNA ou
proteínas
69
Seq1 ------------------------------------------------------------
Seq4 -GCACGAGGACTGTGA-----ACCGAATCGGTTCAGTAAAATGTTCAATTGTGCGCTGGA
Seq2 ------------------------------GTTCAGTAAAATGTTCAATTGTGCGCTGGA
Seq3 GGCACGAGGGCTACGACTGTGAACGAATCGGTTCAGTAAAATGTTCAATTGTGCGCTGGA
Seq1 ------------------------------------------------------------
Seq4 ATCTATTGTGTAGACTATTAACTATGGAATTTTACTTCACATTGACTAAAAAGCTGAGCA
Seq2 ATCTATTGTGTAGACT-TTAACTATGGAATTTTACTTCACATTGACTAAAAAGCTGAGCA
Seq3 ATCTATTGTGTAGACTATTAACTATGGAATTTTACTTCACATT-ACTAAAAAGCTGAGCA
Seq1 ---------------------CTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT
Seq4 AATATACCTGGAGCGTTCAGACTTTCAAGATGAACGAACCAACTGGTGTCGGGCCAACAT
***************************************

+
Alinhamento global e local
nGlobal: as seqs são alinhadas de ponta a ponta
nLocal: pedaços das seqs é que são comparados
70

+
Alinhamentos ótimos e heurísticos
nheurística -- do dicionário Houaiss
nmétodo de investigação baseado na aproximação progressiva
de um dado problema
nAlinhamento ótimo: produz o melhor resultado
computacionalmente possível
nAlinhamento heurístico: produz um resultado o mais próximo
possível do resultado ótimo, mas, principalmente, produz um
resultado de maneira muito veloz
71

+
Ferramentas de alinhamento
72

+
Matrizes de substituição
74
A C G T
A 1 -2 -2 -2
C -2 1 -2 -2
G -2 -2 1 -2
T -2 -2 -2 1
A C G T
A 1 -2 -1 -2
C -2 1 -2 -1
G -1 -2 1 -2
T -2 -1 -2 1

+
Matrizes de substituição
75

+
BLAST
nBasic Local Alignment Search Tool
nFerramenta de alinhamento mais utilizada no mundo
nTodo pesquisador em biologia molecular já usou alguma vez
(ou centenas de vezes)
nDiz-se que o trabalho original onde a ferramenta foi publicada
é o mais citado da história das ciências biológicas
nÉ um algoritmo de alinhamento simples, heurístico e local
nAlinha um seqüência de entrada contra uma base de dados
desejada
76

+
Programas do BLAST
77
Formato da
Seqüência de
Entrada
Banco de
dados
Formato da
seqüência que
é comparado
Programa
BLAST
adequado
Nucleotídeos Nucleotídeos Nucleotídeos BLASTn
Proteínas Proteínas Proteínas BLASTp
Nucleotídeos Proteínas Proteínas BLASTx
Proteínas Nucleotídeos Proteínas TBLASTn
Nucleotídeos Nucleotídeos Proteínas TBLASTtx

+
Alinhamento multiplo
78
conservation profile
conserved residues
secondary structure

+
Filogenia a partir do alinhamento
nMatriz de distância entre as proteínas alinhadas
nClustal: 1 - (resíduos idênticos/resíduos alinhados)
79
-
.17 -
.59 .60 -
.59 .59 .13 -
.77 .77 .75 .75 -
.81 .82 .73 .74 .80 -
.87 .86 .86 .88 .93 .90 -
Hbb_human
Hbb_horse
Hba_human
Hba_horse
Myg_phyca
Glb5_petma
Lgb2_lupla
1
2
3
4
5
6
7
1 2 3 4 5 6 7

+
Árvore filogenética
nMétodo fenético
nNão considera a evolução de cada caráter (coluna no
alinhamento)
nProduz uma árvore a partir de uma matriz de distância gerada
ao considerar todo o conjunto de dados
nVizinhos mais-próximos
nNeighbor-joining
nAverage neighbor
nNearest neighbor
nFarthest neighbor
80

+
Transcritoma
81
nConjunto de todas as moléculas de RNA encontradas em uma
população celular:
n mRNA
n tRNA
n rRNA
n miRNA
nTotal de transcritos encontrados em um organismo, tipo
celular, condição...
nReflete os genes que estão sendo expressos em um
determinado momento.
nSnapshot da função celular.

+
Métodos de estudo
nExpressed Sequence Tags.
nSequenciado por método de Sanger.
nClonagem dos fragmentos usando
vetores.
nNão funciona em procariotos.
nLow throughput.
82

+
Métodos de estudo
83
nMicroarray.
nArranjos com os genes em locais
determinados.
nComparação de amostras par a par.
nHibridização.

+
Next Generation Sequencing
84

+
RNA-seq
nUltra larga escala.
nNão necessita de clonagem.
nBaixo custo.
nValores absolutos.
nAnálise multi amostras.
nGrande cobertura.
86

+
Protocolo
nProtocolo para montagem da biblioteca pode variar de acordo
com a tecnologia e com o objetivo:
nRemoção de rRNA.
nAmplificação por PCR.
nConversão a cDNA.
nSingle read ou pair end.
87

+
Genoma referência vs. Montagem
de novo
nMapeamento dos reads a um genoma referência.
n Quantificação da expressão.
n Identificação de variantes de splicing.
nMontagem de novo do transcritoma.
n Caracterização dos genes expressos.
n Identificação de isoformas.
n Ausência de genoma referência.
88

+
O que sai do sequenciador?
nFormato padrão para análises é o FastQ.
n @SEQ_ID
GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCAC
+
!”*((((***+))%%%++)(%%%%).1***-+*”))**55CCF»»»CCCCCCC65
nPrimeira linha: identificador da sequência.
n Nome da sequência.
n Informação sobre filtros.
nTerceira linha: qualidade da chamada da base (em código).
89

+
Mapeamento e quantificação
nAs sequências produzidas são mapeadas a um genôma
referência.
nAlinhou em apenas uma região = ótimo.
nAlinhou em mais que uma região = dilema.
nO uso de replicatas é FUNDAMENTAL!
91
Repl. 1 Repl. 2 Repl. 3
Gene A 5 3 12
Gene B 16 25 35
Gene C 10 15 3
Gene D 750 500 500
Gene E 1504 1005 1030

+
Interpretando a contagem dos
genes
nNo exemplo da tabela, o Gene E tem duas vezes mais reads
que o Gene D:
92

+
genes
que o Gene D:
n Gene E é expresso duas vezes mais que o Gene D.
92

+
genes
que o Gene D:
n Ambos os genes se expressam na mesma intensidade, mas o Gene E é
duas vezes maior que o Gene D.
92

+
genes
que o Gene D:
n Ambos os genes tem o mesmo tamanho e se expressam na mesma
intensidade, mas o Gene D tem um parálogo no genoma ao qual metade
dos seus reads foram mapeados.
92

+
genes
que o Gene D:
n Ambos os genes tem o mesmo tamanho e se expressam na mesma
intensidade, mas o Gene D tem um parálogo no genoma ao qual metade
dos seus reads foram mapeados.
nA causa é os três ao mesmo tempo.
92

+
Identificando genes
diferencialmente expressos.
nComparar diferentes condições: controle com testes.
n Célula normal com célula tumoral.
n Planta sem e com estresse hídrico.
n Animal sem e com parasita...
nGenes em duas condições diferentes VÃO apresentar
quantidades de reads diferentes.
nEssa variação pode ser diferença biológica entre as duas
condições, ou ruído experimental.
nAplicação de testes estatísticos.
93

+
Identificando genes
diferencialmente expressos.
nPara identificar uma diferença estatisticamente significantes, é
necessário que a diferença de expressão entre as duas
condições seja maior que a imprecisão do nível de expressão
sob uma determinada condição.
94

+
Sou pobre, não vou usar replicata.
nLição de vida:
n Um Gene H, em uma célula normal extraída do Zé Moreno, tem 5 reads.
n O mesmo Gene H, em célula tumoral extraída do mesmo Zé Moreno,
tem 10 reads.
n Uoua! O Gene H é duas vezes mais expresso na célula tumoral!
n Ganhei uns trocados e fiz transcritoma da célula normal de mais 2
pacientes. De brinde, ganhei o sequenciamento do Zé moreno de novo.
n O Gene H teve 12 reads na célula do Zé Moreno, 17 reads na Maria Tolé,
e 22 reads na célula do Tião Torresmo.
nMoral da história: quanto mais medições fizer, mais vai ter
certeza dos níveis de expressão dos genes.
95

+
Replicata técnica vs. Replicata
biológica
nTécnica: explica a variação
encontrada que pode ter
sido causada por critérios
técnicos: preparação da
biblioteca, qualidade do
sequênciamento, cobertura
do gene...
nBiológica: explica a
variação encontrada que
pode ter sido causada pela
variabilidade de expressão
que não está associada à
mudança nas condições do
experimento.
96

+
Fontes de variação
Variância de Poisson
nÉ a incerteza existente em qualquer medição em que algo é
amostrado e contado.
nComo é baseado no valor da contagem em si, não é específico
do experimento.
nEssa variância está relacionada a quantidade total de reads.
nPor exemplo, a diferença na expressão de um gene medido
com 1 read versus 2 reads é inerentemente menos seguro do
que as diferenças na expressão de um gene medido com 100
reads versus 200 reads, apesar de ambas as diferenças serem,
nominalmente, uma mudança 2X.
97

+
Variância de Poisson
98

+
Variação Técnica Não-Poisson
nAssociado à incapacidade da
técnica não conseguir medir
a expressão perfeitamente.
nVisto em replicatas técnicas.
nCausas:
n Seleção de miRNA.
n Depleção de rRNA.
n Amplificação por PCR.
n Armazenamento.
n RNA-later.
nMoral da história: Manipule
sua amostra o mínimo
possível.
99

+
Variação Biológica
nOcorre naturalmente nas amostras.
nA expressão naturalmente flutua
em células sob a mesma condição.
nCausas da variações biológicas
podem ser diferenças genéticas,
de maquinaria celular, ou de
resposta a variação do ambiente.
nVariação biológica também sofre a
influência das outras duas
variações vistas.
100

+
Filosofando...
nMais replicatas vs. Mais reads.
nComo lidar com batch-effects?
nPreciso validar com RT-PCR?
nEu considero como diferencialmente expresso genes com p-
value < 0.01.
nCalcular FDR (False discovery rate)
nLeia artigos que tenham usado benchmarks.
nConverse com o bioinformata que vai fazer as análises.
101

+
Metagenômica
nMetagenoma: material genético recuperado diretamente de
amostras ambientais.
nFornece informações sobre os organismos em seu habitat
natural.

+
Metagenômica
nCerca de 99% das bactérias não são cultiváveis.
nPermite o estudo de organismos que não são facilmente
cultivados em laboratório.
nIdentificação de funções em espécies ainda não identificadas.

+
Análise do gene do rRNA 16s
nGene altamente conservado em bactérias e archaea.
nRegião hiper variável confere sequências com assinatura
específica.
nFornece um perfil da diversidade na amostra.

+
Whole Genome Shotgun e nova
geração de sequenciadores
nPermite uma visão mais global da comunidade.
nAnálise dos níveis da diversidade filogenética e
polimorfismos intraespecíficos.
nEstudo de genes completos e de vias metabólicas da
comunidade.
nReconstrução dos genomas.
nDemanda intensa análise bioinformática.

+
Etapas da análise metagenômica
nFatores influentes.
nInterdependências ocultas.

+
Métodos de estudo - Funcional
nIsolamento do DNA da amostra.
nClonagem do DNA em um
hospedeiro.
nExpressão do gene e análise
funcional.
nAnálise das sequências.

+
Métodos de estudo - Genômico
nDNA isolado pode ser submetido a
um sequenciamento aleatório ou
direcionado.
nPermite montagem de todo
metaboloma.
nAnálise filogenética.
nMetagenômica comparativa.

+
Análise filogenética e funcional

+
Assinatura filogenética
nCada read é associado a um organismo (espécie, gênero,
família…)
nUtiliza bases de dados de genômas referência ou base de dados
NT do NCBI.
nFerramenta de alinhamento.
nValores de identidade para definir o nível cladístico assinado.
88% 98% 99%
Bacteroides fragilis
Escherichia coli
70%

+
Assinatura filogenética
nComposição geral da amostra
nPrograma: MEGAN
nAgrupa multiplos alinhamentos
em um nível cladístico.

+
Análise filogenética
nQual clado prevalece na amostra?
nExiste um perfil filogenético?
nIdentificação de marcadores filogenéticos.
nAssociação da presença de um clado a uma determinada
característica.

+
Anotação funcional
nAvaliar o potencial genético da amostra.
nMontagem dos contigs.
nPredição dos genes.
nAlinhamento dos genes preditos a uma base de dados.

+
Análise funcional
nQual função está mais presente?
nExiste alguma função do seu interesse?
nMontagem do mapa metabólico do ambiente.
nRastrear a função e identificar o organismo que executa.

Minicurso 2013

Recomendados

Recomendados

Mais conteúdo relacionado

Mais procurados

Mais procurados (20)

Destaque

Destaque (20)

Semelhante a Minicurso 2013

Semelhante a Minicurso 2013 (20)

Minicurso 2013