SlideShare uma empresa Scribd logo
Montagem “de novo” de
Genomas
Daniel Guariz Pinheiro
Laboratório de Bioinformática
Departamento de Tecnologia
Faculdade de Ciências Agrárias e Veterinárias de Jaboticabal (FCAV)
Universidade Estadual Paulista “Júlio de Mesquita Filho” (UNESP)
Tópicos
• Introdução
– Montagem de Sequências
– Algoritmos para Montagem de
Sequências
– Softwares para Montagem
• Newbler
• Velvet
• SPADES
• Prática Montagem
Genoma
• Sequência(s) completa(s) de DNA
[cromossomo(s)] de um organismo específico –
indivíduo – ou representantes [genoma
referência] para uma determinada espécie.
– Conjunto de todos os genes
GENE
Introdução
Conceito de Gene
• 1866 - Conceito clássico em genética - Gregor Mendel
• Unidade discreta de herança ("fatores" heredítários);
• 1909 - O termo gene foi cunhado - Wilhelm L. Johannsen
• Conceito abstrato das unidades de herança ("entidade quasi mítica" [Keller, E.F, 2000]);
• 1915 - Teoria acerca dos cromossomos - Thomas Hunt Morgan
• Determinado locus em um cromossomo;
• 1941 - Conceito "um-gene-uma-enzima" - George W. Beadle e Edward L. Tatum
• 1953 - O gene começa a ganhar uma definição ainda mais materialista.
• Sequências de nucleotídeos;
• 1959 - Conceito "um-gene-um-polipeptídeo" - George W. Beadle e Edward L. Tatum
• 1961 - Conceitos de genes estruturais e regulatórios - François Jacob e Jacques Monod
• 1977 - Um-gene-múltiplos-produtos - Richard J. Robets e Phillip A. Sharp
• 1990 - Composição de domínios no DNA (Modelos da estrutura gênica) - Thomas Fogle;
• 1999 - Conceitos de "gene molecular" e "gene evolutivo" - Paul E. Griffiths; Eva M. Neumann-Held;
• …
• Conceito moderno: Entidade codificada em ácidos polinucléicos a qual ao menos pode ser transcrita
[Stephen T. Abedon].
Abstrato
Concreto
Conceito Simplificado de Gene
• Gene é um segmento de DNA que contém
informação codificada para a execução de
determinada função.
Definição operacional de gene
(proposta)
Gene é a união de sequências genômicas que
codificam um conjunto coerente de produtos funcionais
que potencialmente possuem regiões sobrepostas.
[Gerstein et al., 2007]
Segmentos de DNA
codificadores
de proteínas
(ORFs):
A
B
C
D
E
O produto gênico funcional pode ser
o RNA e não a proteína
• non-coding RNAs
tRNAs (tRNA Phe) rRNAs (ribossomo 70S)
(1965)
snRNAs (U1 spliceosomal RNA)
miRNAs (mir-34)
scaRNAs (Small Cajal Body Specific RNAs)
snoRNAs (small nucleolar RNAs - C/D Box)
piRNAs ( Aub/PIWI/RISC complex)
...
Aspectos que devem ser considerados
• Gene é a união de sequências genômicas que
codificam um conjunto coerente de produtos
funcionais (que possuem regiões que se sobrepoem
considerando a referência genômica)
[Gerstein et al., 2007]
– Três aspectos devem ser considerados:
• Gene é uma sequência genômica que codifica precisamente um
produto funcional (RNA ou proteína);
• Nos casos onde há muitos produtos funcionais compartillhando
regiões sobrepostas, a união de todas as regiões de sequências
genômicas sobrepostas que codificam cada produto é um gene;
• A união deve ser coerente (RNA/proteína) – porém não requer
que todos os produtos necessariamente compartilhem
exatamente as mesmas regiões.
Dogma Central da Biologia Molecular
Crick F. Central dogma of molecular biology. Nature. 1970 Aug 8;227(5258):561-3. PubMed PMID: 4913914.
[Crick, F. , 1970]
transcrição
FLUXO DA INFORMAÇÃO GÊNICA
tradução
replicação
casos especiais
GENÔMICA ESTRUTURAL
Introdução
[Crick, F. , 1970]
Genômica
• Estudo do(s) genomas usando métodos de
montagem de sequências, que exigem obtenção
de dados em larga-escala.
– Comparações de genomas entre espécies permitem a
identificação de genes com relação de ancestralidade
(ortólogos);
– Comparações de genomas entre indivíduos de uma
mesma espécie permitem a identificação de
polimorfismos genéticos (SNPs, InDels e variações
estruturais – translocações, deleções e amplificações);
Genômica Estrutural / Funcional
• A Genômica Estrutural estuda a organização e
estrutura dos genes.
• A Genômica Funcional utiliza os dados
produzidos pelas análises genômicas para
descrever funções e interações dos genes e das
proteínas.
– O foco da genômica funcional é compreender as
funções do DNA através dos genes, da transcrição, da
tradução, e das interações proteína-proteína.
• As técnicas mais usadas nessa área são as análises de
expressão gênica utilizando técnica de RNA-Seq
TECNOLOGIAS DE SEQUENCIAMENTO E
NOVA GERAÇÃO
DNA Sequencing
DNA: o código da vida
• Biblioteca de
Informações Gênicas
Necessidade de decodificar...
• Decodificar
– Definição: Traduzir em
linguagem clara uma
informação codificada
• Informação biológica
– codificada em uma
macromolécula (combinação
de moléculas: Adeninas,
Guaninas, Citosinas e
Timinas)
Para iniciar o processo de
decodificação...
• ... é necessário primeiramente ler o código
GGTTAGTTTTCC..
Primeiros passos...
• Primeiros Métodos de Sequenciamento
• Baseados em eletroforese
WalterGilbert
FrederickSanger
Prêmio Nobel em Química - 1980
Método Químico
Tratamento químico para degradar o
DNA em nucleotídeos específicos para
posterior leitura
[Maxam e Gilbert, 1977]
Método Enzimático
Baseado na síntese enzimática de uma
fita complementar interrompida pela
incorporação de um didesoxinucleotídeo
(terminação da cadeia) para posterior leitura
[Sanger et al., 1977]
Prêmio Nobel em Química – 1958
Prêmio Nobel em Química – 1980
Sequenciamento “Manual”
Sequenciamento com
leitura manual
Primeiro Genoma Sequenciado - RNA
(bacteriófago MS2) - 1976
• MS2
– Vírus icosaédrico
– Fita simples RNA
• Infecta Escherichia coli e outros membros da família Enterobacteriaceae.
O primeiro genoma de DNA !!!
Phi X 174
genoma circular
5.386 nucleotídeos
...será que podemos sequenciar um
organismo mais complexo com
genoma maior com muitos cromossomos?
PRECISA SER OTIMIZADO E
AUTOMATIZADO!
Sequenciador semi-automático
• Sequenciador semi-automático
– Desenvolvido
– Leroy Hood, 1986
– Comercializado
– Applied Byosystems
Sequenciador automático
Ampliação da capacidade - várias
reações ao mesmo tempo)
Eletroforese capilar
Eletroforese em géis capilares ultra-finos
Primeiro protótipo de sequenciador
semi-automático
http://lifesciencesfoundation.org/events-Automated_DNA_sequencing.html
Protótipo de sequenciador automático
comercial ABI 370 (1987)
http://www.sciencemuseum.org.uk
ABI3730xl
• Ano de lançamento 2002
Sequenciamento do genoma
de um único indivíduo
John Craig Venter
Crescimento do número de dados de
sequências biológicas
1982
606 seqüências
2.427 bases
2008
98.868.465 seqüências
99.116.431.942 bases
Genbank: banco de dados
público de coleções de
sequências biológicas
anotadas do NIH (National
Institute of Health)
Marcos do sequenciamento
Iniciativa pública
Projeto Genoma
Humano
Publicação
do rascunho
do Genoma Humano
1990 2001
2000
Genoma
bactéria
Xylella fastidiosa
1997
Organization for
Nucleotide
Sequencing and
Analysis
19991996
Cancer Genome
Anatomy Project
1988
National Center
for
Biotechnology
Information
...
2003
Conclusão do
Projeto Genoma
Humano
1977
Sequenciamento
de DNA
Método de Sanger
1987
Sequenciamento
de DNA
automático
PGHC: Iniciativa brasileira
de sequenciamento de
cDNA tumores
Genoma
diploide de
um
indivíduo
2005, 2006, 2007
...
Next-Generation
Sequencing
2007
1000
Genomes Project
2010
Projeto Genoma
Humano
• The International Human Genome Sequencing Consortium
• 13 anos (1990-2003)
• U$3.000.000.000,00
• Avanços imediatos proporcionados
• Identificação de milhares de genes;
• Alguns deles relacionados a doenças;
• Desenvolvimento de produtos biotecnológicos e fármacos
resultantes deste conhecimento;
• Desenvolvimentos de ferramentas para análise genômica, inclusive de
outras espécies de interesse biomédico e econômico;
• Promoveu discussões éticas, legais e implicações sociais em torno do
assunto;
Atualmente é a principal base de conhecimento do genoma, utilizada como
referência para diversos estudos;
Publicações (rascunho do genoma)
CraigVenter
FrancisCollins
Iniciativa
privada
Iniciativa
pública
Atualizações constantes
Dez. 2013
Versão GRCh38 (hg38)
Nova Geração de Sequenciadores de
DNA
Roche (454) Illumina GA ABI SOLiDABI 3730xl
ABI 3730xl Roche (454) Illumina GA ABI SOLiD
Método Sequenciamento
por ddNTP
Pirosequenciamento Sequenciamento
por Síntese
Seqüenciamento
por Ligação
Ano de lançamento 2002 2005 2006 2007
AdaptedfromRichardWilson,SchoolofMedicine,WashingtonUniversity,“Sequencingthe
CancerGenome”
- Aumento da quantidade de dados por corrida (kilobases a gigabases);
- Redução do tamanho das sequências (~700 bases Sanger para até 2x300 bases
(paired-end) no caso de Illumina nas versões mais recentes -MiSeq, no caso do
454 o tamanho é em média de 400 bases, e no caso de SOLiD o tamanho máximo é de 75
bases);
-Redução do tempo (escala de dias para horas);
-Redução do custo por base sequenciada;
Novas Gerações de Sequenciadores
3ª Geração
(single molecule)
Single Molecule Real Time – SMRT
(Pacific Bioscience)
HeliScope (Helicos Bioscience)
454 (Roche)
2ª Geração
(amplificação clonal)
SOLiD (Life Technologies)
HiSeq2000, HiSeq2500, MiSeq
Illumina
Ion Torrent- PGM, Proton
(Life Technologies)
GridION-Oxford Nanopore
4ª Geração
(Post-Light)
1ª Geração
(clonagem)
Sanger
MÉTODOS PARA MONTAGEM DE
SEQUÊNCIAS GENÔMICAS
Introdução
Por quê montar?
• Obtenção de uma nova referência;
• Obter genes inteiros:
– Aumentar a capacidade de encontrar correspondências mais
verossímeis através das buscas por similaridade de sequências para
então obter boas inferências de homologia (identificação de
ortólogos);
– Aumento do sinal filogenético
• Essencialmente uma dependência para todo sistema de anotação funcional;
• Identificação de longas regiões variáveis, como por exemplo, ilhas
de patogenicidade;
• Descoberta de operons (co-incidência de genes);
• Discriminação de membros de famílias gênicas;
• Análise de sintenia;
• …
Fluxo de trabalho
“SIMPLIFICADO”
Há alguma referência?
• Resequenciamento
– Existem sequências produzidas a partir de um genoma da
mesma espécie da amostra ou de uma espécie relacionada
que podem ser usadas como referências para a montagem
(assembly) das sequências alvo. Envolve um processo de
alinhamento com a(s) referência(s) e análise desse
alinhamento para a reconstrução das sequências.
• Sequenciamento "de novo"
– Não há sequências que podem ser usadas como
referências. Este tipo de sequenciamento exigirá uma
montagem (assembly) das sequências utilizando apenas os
dados obtidos desse sequenciamento. Envolve um
processo de alinhamento entre as sequências geradas, que
permitirá obter sequências consensos, os alinhamentos
são analisados para a reconstrução das sequências.
Alinhamento de Sequências
Em Bioinformática, alinhamento de
sequências é uma forma de dispor as
sequências de DNA, RNA, ou proteínas para
identificar regiões de similaridade que podem
ser consequência de relacionamentos
funcionais, estruturais ou relações evolutivas
entre elas.
Significado Biológico do Alinhamento
de Sequências
• Definição de 3 termos importantes:
– identidade: refere-se à fração de
aminoácidos ou nucleotídeos idênticos
entre pares de sequências após um
alinhamento dessas sequências;
– similaridade: refere-se à fração de
aminoácidos ou nucleotídeos similares
(por exemplo, com propriedades físico-
químicas semelhantes) entre pares de
sequências após um alinhamento
dessas sequências;
– homologia: representa uma relação
evolutiva entre as sequências;
• Homólogos
– Parálogos;
– Ortólogos;
Estratégias de
Sequenciamento
visando a
reconstrução da
sequência
genômica
a) Shotgun sequencing
b) Hierarchical sequencing
Hierarchical x Shotgun
Estratégia de sequenciamento
shotgun
[Commins, Toft e Fares, 2009]
Mapeamento de leituras e
Montagem “de novo”
[Haas and Zody, Nature Biotechnology 28, 421–423 (2010)]
Identificação das sequências
• Resequenciamento
– Alinhamento: Conjunto de Sequências X Sequências Referências (Ex.:
Genoma)
>seq1
TGACAGATACAGAAAGATACAGTACATAGaCAG
>seq2
AAATCTTAGAGTGTCCCATCTGTCTGGAGTTGA
>seq3
CGATACAAGTAGGTTACAGTACAAAGTACAGTA
>seq4
CCGTACCACCACCTAGACCTGTACATGGTCAGT
...
>chrX
...
GGGGTTTCTCAGATAACTGGGCCCCT
GCGCTCAGGAGGCCTTCACCCTCTGC
TCTGGGTAAAGTTCATTGGAACAGAA
AGAAATGGATTTATCTGCTCTTCGCG
TTGAAGAAGTACAAAATGTCATTAAT
GCTATGCAGAAAATCTTAGAGTGTCC
CATCTGTCTGGAGTTGATCAAGGAAC
...
Objetivos:
- Eliminar as sequência sem identidade
- Eliminar as sequência com múltiplas identidades (ambiguous)
- Encontrar as sequência com identidade única (unambiguous) em relação a
elementos previamente mapeados (transcritos);
Human genome reference hg19Sequencing Result
MATCH
Montagem “de novo”
de sequências
• Sequenciamento “de novo”
– Alinhamentos múltiplos de
sequências de leituras
(evidências experimentais)
• Montagem de fragmentos de
sequências genômicas originais
através de um consenso
CTGTTATGGGCAACCCTAAGGTGAAGGCTCATGGCAAGAAAGTGCTCGGTGCCTTTAGTGATGGCCTGGCTCACCTGTGGAC
ATGGGCAACCCTAAGGTGAAGGCT TGCTCGGTGCCTTTAGTGATGGCCTGGCTCACCTGTG
TAAATGGGCAACCCTAAG
GCCGGCAACCCGAAGGTG
CCTAAGGTGAAGGCTAGC
GTTTGCTCGGTGCCTTTA
GTGCCTTTAGTGATGAAA
GATGGCCTGGCTCACAGC
GCCCCTGGCTCACCTGTG
Original:
Consensus :
Read 1
Read 2
Read 3
Read 4
Read 5
Read 6
Read 7
[Blanca, J. COMAV Institute]
Original:
Consensus :
Leitura 1
Leitura 2
Leitura 3
Leitura 4
Leitura 5
Leitura 6
Leitura 7
Leitura 8
Leitura 9
Leitura 10
Leitura 11
ACCCTAAGGTGAAGG
CCGAAGGTGAAGGCT
GGCAACCCTAAGGTG
GCAACCCGAAGGTGA
ATGGGCAACCCGAAGGTGAAGGCT
MONTAGEM "DE NOVO" DE
SEQUÊNCIAS
Introdução
Quebra-cabeças
(rompecabezas) (jigsaw puzzle)
O maior quebra-cabeças
• 32.256 peças
MONTAGEM DE SEQUÊNCIAS DE DNA:
CONCEITOS E DEFINIÇÕES
Introdução
Montagem
• Definição
– É uma estrutura hierárquica que mapeia os dados
de sequências de fragmentos para uma
reconstrução aproximada do alvo (neste caso
transcritos) em sua forma original;
– A montagem agrupa leituras em contigs e contigs
em scaffolds (supercontigs);
• leituras (reads) => contigs => scaffolds
Montagem de sequências consenso
(contigs)
Gap
Terminologia e Conceitos Básicos (I)
• contig – alinhamento múltiplo de leituras de onde é extraída uma
sequência consenso (termos derivados: unitig - contig de alta
confiabilidade; isotig - contig que representa uma isoforma de transcrito);
• scaffold – definem a ordem e orientação dos contigs além do tamanho
dos gaps entre os contigs;
• singlets – leituras não agrupadas em um contig;
• gap – espaço entre dois contigs, onde não se conhece a sequência;
Terminologia e Conceitos Básicos (II)
• Cobertura (coverage) – fold coverage
– Total de bases sequenciadas [N * L] dividido pelo
tamanho da região de interesse (e.g. genoma) [G]
• (N * L)/G
– N = Número de leituras
– L = Tamanho da leitura
– G = Tamanho da região de interesse
• Exemplo
– Tamanho do Genoma (G): 1 Mbp
– Quantidade de leituras (N): 5 milhões de reads
– Tamanho das leituras (L): 50 bp
» Cobertura = (5.000.000 * 50) / 1.000.000 = 25X
– Na prática, corresponde a quantas vezes, em média,
cada base do alvo (genoma) foi sequenciada;
Terminologia e Conceitos Básicos (III)
• Cobertura necessária em projetos de
sequenciamento de genomas:
– Resequenciamento:
• Sanger (Leituras de ~800bp): C. Venter (3Gb ~7.5x)
– [Levy et al., 2007]
• Roche 454 (Leituras de ~400bp): J. Watson (3Gb ~7.4x)
– [Wheeler et al., 2008]
– Sequenciamento “de novo”:
• Illumina (Leituras de 52pb): Panda (Ailuropoda
melanoleura) (2,4Gb ~56x)
– [Li et al., 2010]
Como estimar os parâmetros de
sequenciamento?
Estimar parâmetros (número esperado de contigs, tamanho dos contigs)
[Lander e Waterman, 1988]
Considerações:
Amostragem equivalente a um processo de Poisson;
Assume que as leituras serão amostradas aleatoriamente no genoma;
L = tamanho das leituras
T = mínimo de sobreposição entre as leituras
G = tamanho do genoma
N = número de leituras
c = cobertura = (N*L/G)
σ = 1 –(T/L)
e = 2,718
E(número de contigs) = Ne(-c*σ)
E(tamanho dos contigs) = L*( ((e(c*σ)–1)/c) + (1–σ) )
Modelo Lander-Waterman
Cobertura - Simulação
Genoma 1Mb
* quanto maior a cobertura
menos contigs são produzidos
porém maiores;
• Número esperado de contigs em relação à cobertura
Modelo Lander-Waterman
Simulação número de contigs
x
cobertura
Illumina - Estimação de parâmetros
com Modelo Lander-Waterman
• http://www.illumina.com/CoverageCalculator
Perform the following steps to run the
calculator:
1. Click on the tab to choose your
instrument
(HiSeq/GAIIx/HiScanSQ/MiSeq).
2. Enter numbers:
• Target genome or region size,
for example, input 3000000000
(3 Gb) for human genome;
• Coverage you want;
• Total number of cycles. For
example, if you want to perform
100 bp paired-end runs (2×100),
enter 200.
3. Read out the total output required,
output per lane, and number of lanes
you need to use for the desired
coverage.
http://www.illumina.com/documents/products/technotes/technote_coverage_calculation.pdf
Será que o modelo se aplica aos
dados de NGS?
• Genoma do Panda (Ailuropoda melanoleura)
– Tamanho do genoma 2,4 Gb
C = (N*L)/G C = 8x
G = 2.400.000.000 (2,4Gb)
L = 52 pb
[Li R et al., 2010]
8 = (N*52)/2400000000
52*N = 8*2400000000
N=19200000000/52
N=369.230.769
37 bibliotecas do tipo paired-end e mate-pair (150 bp, 500 bp, 2 kbp, 5 kbp, and 10 kbp)
Média de tamanho de 52 pb
218 lanes Illumina Genome Analyzer (17 lanes descartadas por baixa qualidade)
3.379.000.000 de reads (96% cobertura do genoma)
176 Gb (73×) de cobertura – fold coverage (reads utilizáveis)
134 Gb (56×) de cobertura – fold coverage (reads de alta qualidade)
Leituras pequenas exigem maior
quantidade para ter um resultado
comparável
Exemplos de montagens com a mesma entrada (270 bp sequenciadas = mesma
“cobertura” = C) e mesmo parâmetro de sobreposição: 20 bp
Assembly 1 (incompleta)
E(número de contigs) = Ne(-c*σ)
Para aumentar o valor de C é necessário aumentar o
número de reads ou o tamanho das reads, ou seja, o
número de bases sequenciadas
Maior dificuldade em atravessar
repetições
Quanto maior a sequência, maior a capacidade de atravessar as regiões repetitivas no genoma
(encontrar uma região específica onde possa ancorar e resolver a ambiguidade).
Cobertura – nova geração de
sequenciadores
• Tamanho esperado de contigs em relação à cobertura
Panda e Cachorro
genomas de ~2,4Gb[Schatz et al., 2010]
Discrepância grande
entre o predito (Modelo LW) e o
observado (média e N50)
Resultado de um modelo
simplificado, que não leva em
consideração:
- leituras curtas e genomas
repetitivos;
- qualidade das leituras;
- sequenciamento não uniforme
-vieses (ex.: conteúdo de GC);
- ...
Importância do tamanho das leituras
[Whiteford et al., 2005]
Contigs > que o tamanho
indicado no gráfico.
 200000 = ~35% genoma
de E. coli
Leituras de tamanho 200
Tamanho do Genoma
• Quantidade total de DNA contido dentro de
um genoma (cópia única – genoma haplóide).
– Valor C [ C-value ]
• Massa
– Picograma (trilionésimo [10-12] de grama - pg)
• Número total de nucleotídeos em pares de
base (pb)
– 1 pg = 978 pb
Paradoxo do valor de C
Resumo: Montagem "de novo"
• Reconstrução da sequência (genoma) em sua forma
original, sem a consulta de sequências previamente
resolvidas de genomas, transcritos e proteínas.
• A montagem é possível quando o alvo é excessivamente
amostrado com leituras "shotgun" que se sobrepõem.
• Montagem de novo de dados de Next-Generation
Sequencing (NGS)
– Levar em consideração:
• tamanho das leituras (menos informação por leitura)
– necessidade de maior cobertura – aumento da complexidade;
• grande volume de dados
– necessidade de algoritmos que utilizem de forma racional e eficiente os
recursos computacionais (CPU/RAM);
Avaliação da Montagem
Tamanho|
Contiguidade
Completude |
Plenitude|
Integralidade
Exatidão|
Acurácia
Tamanho e contiguidade
– Tamanhos das sequências obtidas:
• tamanho máximo;
• tamanho médio ou mediano;
• tamanho total combinado;
– Contiguidade
• N50 (tamanho do menor contig no conjunto dos
maiores contigs que combinados representam 50% da
montagem) – contiguity;
– Valores muito altos podem representar erros na montagem e
valores muito pequenos podem representar montagem
incompleta;
• L50 (número de contigs maiores que o N50)
Tamanho e Contiguidade
• Objetivo
– Poucos contigs porém longos
• Métricas
– Tamanho
• Número de contigs;
• Média ou mediana de tamanho dos contigs;
• Tamanho total combinado;
• Tamanho de contigs acima de 10 kbp, 100 kbp, etc.;
– Contiguidade
• N50 (tamanho do menor contig no conjunto dos maiores contigs
que combinados representam 50% da montagem) – contiguity;
– Valores muito altos podem representar erros na montagem e valores
muito pequenos podem representar montagem incompleta;
• L50 (número de contigs maiores que o N50)
• Etc.
N = tamanho ?
L = quantidade ?
“(…)We used a statistic called the ‘N50 length’, defined as the largest length L
such that 50% of all nucleotides are contained in contigs of size at least L. (…)”
http://www.acgt.me/blog/2015/6/11/l50-vs-n50-thats-another-fine-mess-that-
bioinformatics-got-us-into
[International Human Genome Sequencing Consortium Lander et al., 2001]
N50
• https://www.broad.harvard.edu/crd/wiki/index.php/N50
• N50 - representação do tamanho médio (mediana
ponderada) de um conjunto de sequências;
• Dado um conjunto de sequências de tamanhos variáveis;
– N50 = indica que as sequências com tamanho l < N50
representam (somadas as bases) 50% (bases) de toda a
montagem;
– L = {2,2,2,3,3,4,8,8}
– Método para calcular
• Exemplo acima:
– tamanho combinado 32
– L' = {2,2,2,2,2,2,3,3,3,3,3,3,4,4,4,4,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8}
– 6 x (2); 6 x (3); 4 x (4); 16 x (8)
– N50(L) = mediana(L') = 6
50% < N50(L) = 6
N50
Indicador de contiguidade,
O valor de N50 representa que metade da montagem possui tamanho menor que
esse valor enquanto a outra metade possui tamanho maior que esse valor.
L50 é o menor número de contigs cuja soma dos tamanhos
representa metade da montagem (Exemplo acima: 5)
https://www.molecularecologist.com/2017/03/whats-n50/
assemblathon2-analysis
• This repo contains a motley assortment of
unpublished scripts and commands used by
Ian Korf, Keith Bradnam, and Joe Fass in the
analysis of Assemblathon 2 competition
entries (assemblies).
• https://github.com/ucdavis-
bioinformatics/assemblathon2-analysis
– assemblathon_stats.pl
• used to calculate many of the basic contig- and
scaffold-level statistics (requires FAlite.pm)
Problema do N50
https://www.molecularecologist.com/2017/04/the-n50-misassembly-problem/
Metade é maior que
1 Mbp e metade é
menor que 1Mbp
Uma outra métrica…
• NG50
[Considera o tamanho estimado do genoma para definir o que está acima de 50%]
http://www.molecularecologist.com/2017/04/a-solution-to-the-n50-filtering-problem/
NG50 = o cálculo do N50 é realizado com o valor estimado
do tamanho do genoma. Neste caso 500 kbp e não com o
tamanho da montagem 400 kbp.
outra métrica…
• NA50
– N50 para o conjunto
de blocos alinhados
(ao invés do
conjunto inicial de
contigs)
• Dessa forma, se
alguns dos contigs
falham em alinhar,a
métrica NA50 ainda
é computada com
respeito aos 50% da
montage total
(incluindo os contigs
que alinharam e
não alinharam)
Necessita haver uma sequência referência onde os blocos podem alinhar
https://www.molecularecologist.com/2017/04/a-solution-to-the-n50-misassembly-problem/
[Considera o tamanho da montagem para os 50%]
NGA50
• NG50 + NA50
– Considera somente os blocos alinhados na
referência, porém, diferente do NA50, considera o
tamanho da referência em que os contigs alinham
e não o tamanho da montagem com todos os
contigs iniciais (mesmo os que não alinham).
https://www.molecularecologist.com/2017/04/a-solution-to-the-n50-misassembly-problem/
QUAST
COMPASS
[https://gigascience.biomedcentral.com/articles/10.1186/2047-217X-2-10.ris]
Exatidão
ou Acurácia
• Avaliação de erros na montagem
Alinhamento das leituras (reads) x Montagem e avaliação da consistência do alinhamento
Exemplos de inconsistências:
- Inserções, deleções ou substituições causadas pelo montador;
- União de sequências não contíguas (quimeras);
- Compressão de repetições ou duplicações desnecessárias;
- etc.
Tipos de bibliotecas
Informação de pareamento
e marcadores genéticos
Alguns erros
• Misassemblies
Acurácia dos contigs
• Medidas de satisfação e violações de restrições de
montagem
– e.g. sequências sobrepostas no contig devem ter
concordância entre si (poucas variações e variações
concordantes);
– e.g. sequências em pares das extremidades (paired-ends)
devem ser consistentes com tamanho do fragmento e
orientação;
• Se referências existem podem ser utilizadas para este
propósito;
– Comparações com proteomas de espécies próximas
também podem ser úteis para avaliação da montagem;
• Cobertura no alinhamento das reads X contigs
QUAST
• MISASSEMBLIES
– No. of misassemblies:
• Número de erros, usando definição de Plantagora [Barthelson et al., 2011]
– misassembly breakpoint : posição no contig onde a sequência no flanco esquerdo
com relação à sequência no flanco direito neste alinhamento com a referência
» alinha acima de 1kb de distância;
» sobrepõem acima 1 Kb;
» alinha em fitas opostas;
» alinha em diferentes cromossomos;
– No. of misassembled contigs:
• Número de contigs que contêm misassembly breakpoints.
– Misassembled contigs length:
• Número de bases em todos os contigs com um ou mais misassemblies.
– No. of unaligned contigs:
• Número de contigs que não têm alinhamento com a sequência referência.
– No. of ambiguously mapped contigs:
• Número de contigs que têm bom mapeamento (altos escores e idênticos) em múltiplos
locais no genoma.
QUAST também provê relatório com detalhamento dos contigs que estão em cada categoria.
REAPR
“We have validated REAPR on complete genomes or de novo assemblies from
bacteria, malaria and Caenorhabditis elegans, and demonstrate that 86% and 82%
of the human and mouse reference genomes are error-free, respectively.”
Fragment Coverage Distribution (FCD)
Staphylococcus aureus
Montagem com Velvet
(Circos plot)
a) Cores representam mapeamentos
- Vermelho (pares corretos)
- Verde (órfãs)
- Azul (pares com leituras muito próximas ou distantes)
b) Muitas repetições
Completude
… ou Integralidade
Proporção do genoma original representado pela
montagem
Baseado na estimativa de tamanho do genoma
Baseado na proporção de genes montados que fazem
parte do conjunto de genes considerados essenciais ( core
genes ) para um grupo de organismos.
Avaliação mais acurada que as
métricas baseadas em tamanho
BUSCO
• Benchmarking Universal Single-
Copy Orthologs
• CEGMA (Core Eukaryotic Genes Mapping Approach)
– Identificação de genes ortólogos conservados (core genes –
genes essenciais) em centenas de espécies eucarióticas
• Mende D.R. et al. . (2013) Accurate and universal
delineation of prokaryotic species. Nat. Methods , 10,
881–884.
BUSCO
Generalizado e cópia simples
Dissecting the Drosophila melanogaster gene set by orthologous group universality and duplicability highlights how the largest
fractions of genes are preserved as single-copy orthologues across all 80 insects or specific to the 12 drosophilids. Orthologous
groups with 80 insect species from OrthoDB: universality, from widespread to specific or sparse species representation; duplicability,
from mostly single-copy to mostly multi-copy orthologue counts.
[https://doi.org/10.1016/j.cois.2015.01.004]
BUSCO
Resultados do BUSCO
gVolante
• https://gvolante.riken.jp/
Comparação com avaliações [CEGMA, CVG, BUSCO] de genomas pré-computadas.
[https://doi.org/10.1093/bioinformatics/btx445]
Status do Genoma
Exemplos
Como avaliar
Tamanho estimado por k-mers
Comparação entre estimativas
Novo genoma =
Nova espécie?
• Taxonomia molecular
– DNA-DNA Hybridization
Average Nucleotide Identity
(ANI)
• Nova espécie abaixo de 95% ANI
– 70% DDH (limiar recomendado)
FastANI
• Fast Whole-Genome Similarity (ANI) Estimation
DESAFIOS NO PROCESSO DE
MONTAGEM
Introdução
Desafios (1)
• Contaminates ambientais nas amostras (e.g. Bactérias, Fungos, Virus, …);
• Artefatos gerados durante as etapas (e.g. PCR) do sequenciamento (e.g. Quimeras e
mutações);
• Poliploidia e heterozigoze (Polimorfismos), Mutações;
• Erros de sequenciamento
– e.g. Roche 454 e ION - erros de homopolímeros (3 ou mais bases consecutivas);
• Vieses
– composição: frequência de nucleotídeos (conteúdo de GC);
– posicional: sequenciamento não uniforme do transcrito (degradação);
• Presença de moléculas adaptadores
Viés na composição
[Hansenetal.,2010]
Mapeamento genômico
DOI: 10.1093/nar/gkq224
[Hansen et al., 2010]
Viés no conteúdo de GC (1)
Sequenciamento do Panda Gigante
(Ailuropoda melanoleuca)
[Li R et al., 2010] [Li R et al., 2010]
% GENOMA MONTADO x CONTEÚDO G+C QUANTIDADE DE LEITURAS x CONTEÚDO G+C
A tecnologia de sequenciamento e
viés no conteúdo GC
As tecnologias de sequenciamento possuem um
viés com relação ao conteúdo de GC no resultado
do sequenciamento, nas leituras obtidas.
Viés no conteúdo de GC
nas plataformas NGS
[Quail et al., 2012]Viés: Illumina livre de amplificação [Kozarewa I, et al., 2009] (menor o viés)
/ PGM (maior o viés)
Genoma protozoário
Plasmodium falciparum (19,4%GC)
Erros inerentes às plataformas de
sequenciamento
[Fox et al., 2014]
doi:10.4172/jngsa.1000106
Sequenciamento de Homopolímeros
na plataforma 454/Ion Torrent
0
1
2
3
4
5
6
1 2 3 4 5 6 7 8 9
A
C
T
G
T C A G A ?c GG - AAAAA ?a
key sequence (TCAG) – Calibragem do sinal 454
Eixo Y
Sinal
Intensidade de
Fluorescência
(454)
ou de alteração
no pH (Ion
Torrrent).
Eixo X
Ciclos de
infusão
ordenada de
nucleotídeos
(A, C, T e G)
ACTG ACTG ACTG ACTG ACTG ACTG ACTG ACTG ACTG
Erros no Sequenciamento de
Homopolímeros na plataforma 454
Linearidade mantida até
homopolímeros de tamanho 8 nt
Distribuição dos erros
em homopolímeros
[Margulies M, et al. , 2006]
[Margulies M, et al. , 2006]
Dentre os erros até 6-mers:
Inserções (azul) Deleções (vermelho)
Desafios (2)
Regiões de baixa complexidade são as mais difíceis de serem montadas!
• Repetições (sequências repetitivas no transcritoma torna a
montagem mais difícil);
– Necessidade de "spanners" – leituras que atravessam uma região de
repetição e que possuem suficientes regiões únicas em ambos os lados;
• Utilização de leituras paired-ends/mate-pairs e suas propriedades de tamanho
e orientação, estando um dos pares ancorado em uma região única;
Terminologia e Conceitos Básicos (IV)
• Conceito de "k-mers"
– Subsequências de tamanho k
• Em uma sequência de tamanho (L) há (L-k+1) k-mers;
• Exemplo: sequência de tamanho L=8 tem 5 k-mers com
k=4
ACGTACGA
ACGT
CGTA
GTAC
TACG
ACGA
1
2
3
4
5
monomers
k-mers Uniqueness ratio
k-mers uniqueness ratio – número de k-mers distintas que ocorrem uma única vez no genoma
número total de k-mers distintas que ocorrem no genoma
[Schatz et al., 2010]
Trichomonas vaginalis
Exige um tamanho maior
de k-mer para alcançar a
unicidade
Problemas recorrentes causados por
repetições
Rochas, pedras e pedregulhos
[http://www.genomenewsnetwork.org/articles/03_00/assemble_genome_3_24.shtml]
paired-end/mate-pair
Classificação desses fragmentos
nos montadores:
mais confiáveis (Rochas) aos
menos confiáveis (Pedregulhos)
ALGORITMOS PARA MONTAGEM DE
SEQUÊNCIAS
Introdução
Algoritmos para montagem
• Três categorias (baseadas em grafos)
– Overlap/Layout/Consensus (OLC)
• grafo de sobreposições;
– de Bruijn Graphs (DBG)
• grafo de sobreposição de sufixo-prefixo de k-mers;
– Greedy graphs
• estrutura implícita de grafos de sobreposições;
Grafo
• Não ! Isto é um Gráfico !!!
Grafo
Grafo é uma estrutura G(V, A) onde V é um conjunto não
vazio de objetos denominados nós ou vértices
(nodes/vertices) e A é um conjunto de pares não
ordenados de V, chamado arestas ou arcos
(edges/arcs).
Nós (vértices): V = {U, V, W, X, Y, Z}
Arestas (arcos): A = {a, b, c, d, e, f, g, h, i, j}
Representação simplificada de um grafo
Grafo (1)
• Grafo é uma estrutura abstrata, pode ser representada por uma
rede de nós conectados por arcos
• Königsberg (Kaliningrad, Russia)
– Século 18
• Problema proposto: Cruzar as sete pontes numa caminhada contínua sem
passar duas vezes por qualquer uma delas.
• Caminho euleriano: passar por todas as arestas (pontes) uma única vez.
• Solução: não há (nós possuem valência – ou grau – ímpar)
Regiões de Königsberg = nós ou vértices
Pontes = arcos ou arestas[Compeau, Pevzner & Tesler, 2011]
Grafo (2)
• O Problema do Caixeiro
Viajante
– determinar a menor rota
para percorrer uma série de
cidades (visitando uma única
vez cada uma delas),
retornando à cidade de
origem.
– Meados de 1800
• William Rowan Hamilton e
Thomas Penyngton Kerkman
Caminho hamiltoniano: passar por todas
os nós (cidades) uma única vez.
Overlap-Layout-Consensus (OLC)
• 1º detecção de sobreposição;
– Alinhamento pareado entre todas as
leituras – identificação dos pares com
melhor match (alinhamento
global/local + heurísticas [e.g. seed &
extend]);
• 2º layout dos fragmentos (montagem do
contig);
– Construção e manipulação do grafo de
sobreposição
(Analisar/Simplificar/Limpar);
– Caminho Hamiltoniano;
• 3º decisão da sequência (montagem do
consenso);
– Alinhamento Múltiplo de Sequências
(Layout obtido percorrendo o(s)
caminho(s) mais provável(l/is) –
maior suporte);
– Obtenção da sequência consenso
(Normalmente a frequência de um
nucleotídeo em determinada
posição determina a base
consenso;)
Grafo de sobreposição para OLC
Caminho Hamiltoniano – caminho
(elementar) que permite passar uma
única vez por todos os nós do grafo –
contig;
Grafo de sobreposição:
nós - leituras;
arestas - sobreposições;
sobreposições não consideradas – caminhos alternativos
Softwares montadores (OLC)
• Utilizam o paradigma OLC:
– Phrap (http://www.phrap.org/)
• genoma, cDNA
• Sanger, 454
• (Green, P., 1994 - unpublished)
– CAP3 (http://seq.cs.iastate.edu/)
• genoma, cDNA
• Sanger, 454
• (Huang, X. and Madan, A., 1999)
– MIRA (http://sourceforge.net/projects/mira-assembler/)
• genoma, cDNA
• Sanger, 454, Illumina, Ion Torrent, PacBio, SOLiD (convertido para bases)
• (Chevreux, B. et al., 1999) (Chevreux, B. et al., 2004)
– Newbler (https://valicertext.roche.com/)
• genoma, cDNA
• Sanger, 454, Illumina, Ion Torrent, PacBio, SOLiD (convertido para bases)
• Software Proprietário da Roche
Greedy Graphs
• A partir de múltiplos alinhamentos pareados entre todas as leituras;
• Operação básica: dada alguma leitura ou contig, adiciona uma ou mais
leituras ou contigs (mais similares uns aos outros) de forma progressiva
até que não haja mais operações possíveis;
• Estrutura implícita de grafo, em que somente são consideradas as
arestas (alinhamentos) com alto score (define o caminho);
• O algoritmo deve incorporar mecanismos para lidar com sobreposições
falsas.
– Sobreposições de regiões repetitivas podem ter score alto e levar a erros na
montagem.
I - reads 1 e 2 (score 200)
II - reads 3 e 4 (score 150)
III - reads 2 e 3 (score 50)
1
2
3
4
Consenso a
partir das
sobreposições
Softwares montadores (Greedy)
• Baseados em grafos do tipo Greedy:
– SSAKE (http://www.bcgsc.ca/platform/bioinfo/software/ssake)
• genoma
• Illumina
• (Warren, R.L. et al., 2007)
– SHARCGS (http://sharcgs.molgen.mpg.de/)
• genoma
• Illumina
• (Dohm, J.C. et al., 2007)
– VCAKE (http://sourceforge.net/projects/vcake/)
• genoma
• Illumina
• (Jeck, W.R. et al., 2007)
Grafos de Bruijn
• Sequência De Bruijn:
– Sequência cíclica S de um alfabeto (por exemplo A={0,1}), de onde são derivadas
subsequências de tamanho k, consecutivas e que aparecem exatamente uma única
vez, percorrendo um caminho Euleriano em um grafo dessas subsequências
conectadas.
Nicolaas Govert de BruijnIrving John Good
{0,0}
{0,1}
{1,0}
{1,1}
1946
Exemplo de grafo de Bruijn
Alfabeto (A={0,1})
K-mers
• Subsequências de tamanho k
Subsequências de tamanho
K=7
Grafo de sobreposição de k-mers
sufixo (k-1) = prefix (k-1)
Grafos de-Bruijn
• Grafos de k-mers
– nós – todas as subsequências de tamanho k (ex. abaixo
K=4);
– arestas – todas as sobreposições (k-1 bases) entre essas
subsequências que são consecutivas na sequência original;
AACCGG
k-mer = 4
AACC
ACCG
CCGG
CCGGTT
k-mer = 4
CCGG
CGGT
GGTT
Exemplo: k= 4 => arestas representam as sobreposição de k-1 (3) bases
Grafos: Overlap Layout Consensus e de Bruijn
K-mers como nós
• No grafo ao lado, TODAS as
sobreposições entre os k-
mers extraídos foram
consideradas, dessa forma,
há arcos que ligam k-mers,
porém sem suporte nas
leituras
– Por exemplo:
• Não há leituras que possuem a
subsequência “ATGC” sendo
assim a aresta que liga os k-
mers “ATG” com “TGC” não
tem suporte
K-mers como nós e somente as arestas
com suporte
AAT
ATG
TGG GGC
GCG
TGC
CGT
GCA
GTG
CAA
AT
TG
GG
GC
CG
GT
AA
TG
CA
GC
Nós = k-mers
Arestas = sobreçosições
Nós = sobreposições
Arestas = k-mers
Estratégia utilizando grafos de-Bruijn
[Schatz M C et al. Genome Res. 2010;20:1165-1173]
Grafo de k-mers (subsequências de tamanho k = 3)
e sobreposições de tamanho k-1 (3-1=2)
Grafo de Reads e
suas sobreposições
Características dos grafos k-mers
• Em geral
– A montagem é um problema de redução de grafos.
• NP-difíceis, não há uma solução determinística eficiente (tempo polinomial) conhecida para
encontrar o caminho exato (pode nem ser possível);
• Utilização de heurísticas: reduzir a redundância, reparar erros, reduzir a complexidade, alargar
caminhos simples e simplificar o grafo;
• Vantagens
– Desenvolvidos para lidar com a alta complexidade e o grande volume de dados dos
NGS;
– Rápida detecção de k-mers compartilhados - reduz custo computacional em relação à
busca de sobreposições em alinhamentos pareados;
• Não necessita comparações pareadas (todas x todas);
• Desvantagens
– Usam muita memória (tabela hash k-mers);
– Mais sensível a repetições e a erros de sequenciamento;
– Baixa sensibilidade (pode perder algumas sobreposições verdadeiras), dependendo:
• tamanho de k
– tamanho da sobreposição
• taxa de erro nas leituras (criam vértices e arestas no grafo aumentando a complexidade)
• Repetições (aumentam exponencialmente o número de caminhos no grafo)
Tamanho das leituras e Profundidade
do Sequenciamento
• Quanto maior o tamanho maior será a confiança nas
sobreposições e maior pode ser o k, evitando
problemas de sobreposições errôneas de k-mers,
possibilitando também ultrapassar pequenas
repetições;
– Sequências paired-end também contribuem pois há a
informação da distância entre os fragmentos;
• Profundidade do Sequenciamento contribui para
aumentar a cobertura do transcritoma e aumentar a
quantidade de suporte nos vértices (permitindo
aumentar o limiar estabelecido de cobertura e
evitando erros de sequenciamento)
Tamanho de k
• Tamanho de k :não pode ser nem muito grande, nem muito pequeno:
– grande o suficiente para não pegar falsas sobreposições que
compartilham k-mers em comum (resolução de repetições);
• k-mers grandes
– menor conectividade nos grafos com maior especificidade;
– grafos menores consomem menos memória RAM;
– pequeno o suficiente para encontrar o máximo de sobreposições
verdadeiras (maior aproveitamento, lidando com pequenos erros de
sequenciamento);
• k-mers pequenos
– alta conectividade nos grafos com maior sensibilidade;
– maior divergência e ambiguidade;
– grafos maiores consomem mais memória RAM;
• Solução para minimizar o problema:
– Combinar as informações dos grafos com diferentes tamanhos de k;
• [Surget-Groba et al., 2010]
• [Schulz et al., 2012]
Características dos grafos de-Bruijn
• No caso de sequenciamentos que não têm orientação específica (ambas
as fitas do cDNA podem ser sequenciadas) é necessário um mecanismo
para identificar a correta orientação;
– e.g. os nós (subsequências) podem possuir dois canais de entrada/saída –
forward/reverse;
• Repetições complexas (repetições em tandem, repetições invertidas,
repetições imperfeitas, repetições inseridas em outras repetições).
Repetições maiores ou iguais a k levam a grafos complicados, que não
contêm por si só informações suficientes para resolver ambiguidades;
– e.g. recorrer às sequências originais e possivelmente a fragmentos mate-
pairs/paired-ends;
• Sequências palíndromes (idênticas à reversa complementar) induzem a
caminhos que retornam a si (k=6; ACGCGT == ACGCGT) e podem causar
ambiguidade quanto à orientação do transcrito;
– e.g. utilização de um k ímpar (k=7; ACGCGTA ≠ TACGCGT) evita esse tipo de
ocorrência;
• Erros de sequenciamento;
– e.g. pesar os vértices pelo número de leituras que lhes dão suporte auxilia na
identificação de erros;
ACGCGTA
TACGCGT
Complexidades em k-mers
• Ramificações – caminhos sem-saídas
divergentes;
– Induzidos por erros no sequenciamento nas
extremidades das leituras;
• Bolhas – caminhos que divergem e depois
convergem;
– Induzidos por erros no sequenciamento no meio
das leituras;
• Corda esfiapada – caminhos que convergem e
divergem;
– Induzidos por repetições;
• Ciclos – caminhos que convergem neles
mesmos;
– Induzidos por repetições (e.g. repetições em
tandem – pequenos ciclos);
[Miller, J.R., et al., 2010]
"tips"
Exemplo
AGTCGAG CTTTAGA CGATGAG CTTTAGA
GTCGAGG TTAGATC ATGAGGC GAGACAG
GAGGCTC ATCCGAT AGGCTTT GAGACAG
AGTCGAG TAGATCC ATGAGGC TAGAGAA
TAGTCGA CTTTAGA CCGATGA TTAGAGA
CGAGGCT AGATCCG TGAGGCT AGAGACA
TAGTCGA GCTTTAG TCCGATG GCTCTAG
TCGACGC GATCCGA GAGGCTT AGAGACA
TAGTCGA TTAGATC GATGAGG TTTAGAG
GTCGAGG TCTAGAT ATGAGGC TAGAGAC
AGGCTTT ATCCGAT AGGCTTT GAGACAG
AGTCGAG TTAGATT ATGAGGC AGAGACA
GGCTTTA TCCGATG TTTAGAG
CGAGGCT TAGATCC TGAGGCT GAGACAG
AGTCGAG TTTAGATC ATGAGGC TTAGAGA
GAGGCTT GATCCGA GAGGCTT GAGACAG
Exemplo
• Grafo completo (sem simplificação)
AGAT
(8x)
ATCC
(7x)
TCCG
(7x)
CCGA
(7x)
CGAT
(6x)
GATG
(5x)
ATGA
(8x)
TGAG
(9x)
GATC
(8x)
GATT
(1x)
TAGT
(3x)
AGTC
(7x)
GTCG
(9x)
TCGA
(10x)
GGCT
(11x)
TAGA
(16x)
AGAG
(9x)
GAGA
(12x)
GACA
(8x)
ACAG
(5x)
GCTT
(8x)
GCTC
(2x)
CTTT
(8x)
CTCT
(1x)
TTTA
(8x)
TCTA
(2x)
TTAG
(12x)
CTAG
(2x)
AGAC
(9x)
AGAA
(1x)
CGAG
(8x)
CGAC
(1x)
GAGG
(16x)
GACG
(1x)
AGGC
(16x)
ACGC
(1x)
Simplificação do grafo
1ª etapa
Exemplo
• Após primeira simplificação (agrupamento de k-
mers consecutivos, sem ambiguidade)
TAGTCGA
AGAGATAGA
AGAT
GCTTTAG
GCTCTAG
AGACAG
AGAA
CGAG
CGACGC
GAGGCT
GATCCGATGAG
GATTTAGT
(3x)
AGTC
(7x)
GTCG
(9x)
TCGA
(10x)
Identificação de pontas (Tips) e
bolhas
Tips = Nós desconectados no terminal e de baixo suporte
Exemplo
• Após remoção de tips (caminhos que levam a nós com
baixo suporte * e a vértices sem grau de emissão)
TAGTCGA
AGAGATAGA
AGAT
GCTTTAG
GCTCTAG
AGACAG
CGAG
GAGGCT
GATCCGATGAG
* o suporte do vértice é dado pela sua multiplicidade,
a qual deve representar a cobertura das bases em
determinada região.
Algoritmo para remoção de
bolhas (Tour bus algorithm)
• Exemplo 1:
• Exemplo 2:
Largura
Profundidade
Velvet (Tour bus)
caminho em largura no grafo (breadth-first traversal)
prioridade ao que tem maior suporte (multiplicidade no vértice)
Exemplo
• Após remoção de bolhas (nova etapa de
simplificação
TAGTCGA
AGAGATAGA
AGAT
GCTTTAG AGACAG
CGAG
GAGGCT
GATCCGATGAG
?
Ambos
Com
suporte
Exemplo
• Simplificação final
TAGTCGAG AGAGACAG
AGATCCGATGAG
GAGGCTTTAGA
TAGTCGAG GAGGCTTTAGA AGATCCGATGAG GAGGCTTTAGA AGAGACAG
TAGTCGAGGCTTTAGATCCGATGAGGCTTTAGAGACAG
Sequência consenso:
Caminho pelos vértices (uma única vez em cada aresta – caminho euleriano):
Softwares montadores (de-Bruijn)
• Baseados em grafos de de-Bruijn:
– VELVET /Oases (http://www.ebi.ac.uk/~zerbino/velvet/)
• genoma, cDNA
• Illumina, SOLiD (2-base encoding)
• (Zerbino, D.R. e Birney E., 2008)
– SPADES/rnaSPAdes
(http://cab.spbu.ru/software/spades/)
• genoma, cDNA
• Illumina
• (Bankevich, A. et al., 2012)
– Etc.
SPAdes x Velvet
• 50 Salmonella enterica subsp. enterica serovar Paratyphi B dTa+ (S. Java) isolates were tested. DNA
[http://www.engage-europe.eu/-/media/Sites/engage-europe/Final-website-documents/ENGAGE_AppE_benchmarking_Velvet-
SPAdes_final.ashx?la=da&hash=A6AB88A45DC9205300258FCD824D4C7304214551]
FERRAMENTAS PARA MONTAGEM
DE SEQUÊNCIAS
Introdução
NEWBLER
Softwares
Funcionamento (1)
• 1ª ETAPA: Alinhamentos pareados entre as leituras (seed & extend);
• Identificação prévia de possívels sequências de adaptadores (regiões 3' ou
5' que frequentemente se repetem nas leituras) ou adaptadores podem
ser removidos previamente caso informados. (Parâmetros: -vt e -vs)
• Realizado em 2 fases:
• Leituras longas
• Leituras curtas
seed-and-extend
Estende, considerando o mínimo de
sobreposição (default 40 bp) e o mínimo de
identidade de alinhamento (default 90%)
Nº de SEEDs: 1 (default)
Tamanho da SEEDs: 16-mers (default) de
cada leitura, sendo uma SEED a cada 12 bp
(default) a partir da anterior;
step size
seed length seed count
base a base seed and extend
Sobreposições
[http://www.genomenewsnetwork.org/articles/03_00/assemble_genome_3_24.shtml]
ERRO DE MONTAGEM FRAGMENTO IGNORADO
Unitig
• O newbler constrói alinhamentos múltiplos de leituras com sobreposição e
identifica regiões com diferenças consistentes entre os conjuntos de
leituras e as divide em contigs (unitigs) – mini-montagens;
• Unitig – Uniquely Assemble-able Contig - contig formado pela sobreposição
de sequências que alinham unicamente entre si, sem contradições, ou seja,
sem ambiguidades;
Unitigs Únicos (U-Unitigs) e
Repetitivos
Funcionamento (3)
• Montagem do grafo de contigs, baseado no alinhamento das
leituras que atravessam as mini-montagens;
nós – leituras alinhadas de forma contígua (contigs)
arestas – leituras que alinham parte em um contig e
parte em outro
Funcionamento (4)
• Resolução de estruturas de ramificação no grafo (simplificação);
• Extensão dos "contigs" é realizada por meio da visita a cada um dos nós do
grafo (Caminho Hamiltoniano);
• Montagem da sequência consenso usando a informação da qualidade/sinal
para cada base nos alinhamentos múltiplos;
Se há dados disponíveis de sequências paired-end inclui uma etapa adicional:
• Organização dos contigs em scaffolds, usando a informação dos pares e da
distância aproximada dos pares entre os contigs.
Overview
• ( ) Identificar as sobreposições entre as leituras;
– seed & extend;
– Grafo de sobreposição e reads;
– Identificação de unitigs (A,B,C e Repeat);
• ( ) Construção do grafo de sobreposições;
• ( ) Percorrendo o grafo para obter a sequência consenso;
Princípios básicos e Terminologia
Newbler
Definições (-cdna):
contig: Conjunto de leituras com regiões de sobreposição não contestáveis ("unitigs")
e com diferenças consistentes entre os demais conjuntos de leituras. Um contig
pode representar um exon ou parte dele.
isogroup: É uma coleção de contigs que contêm leituras que os conectam, podendo
representar os contigs de um mesmo locus (gene).
isotig: Caminhos alternativos no grafo de contigs dentro de um isogroup. Um isotig
pode representar um transcrito individual, ou seja, uma variante transcricional
(isoforma) do gene.
Chamada básica do Montador
runAssembly [parâmetros] seqs.fasta
• Procura pelo arquivo seqs.fasta.qual no
mesmo diretório
• Cria o seguinte diretório (por padrão):
– P_yyyy_mm_dd_hh_min_sec_runAssembly
• P_ = Projeto, seguido de data e hora
2.6+ - aceita sequências no formato FASTQ
Parâmetros mais comuns (1)
• -cdna
– montagem em projetos transcritomas (cDNA);
• -urt
– "use read tips" (extremidades das leituras) para produzir isotigs mais longos a partir de
únicas leituras;
• -o output_directory
– informar o diretório onde serão armazenados os resultados;
• -force
– força o reinicio da montagem, caso o diretório informado para os resultados já exista;
• -vt trimmingFile.fasta
– informar um arquivo fasta com as sequências de vetores, primers ou adaptadores , que devem
ser excluídas das extremidades das leituras;
• -vs screeningFile.fasta
– informar um arquivo fasta com as sequências cujas regiões devem ser mascaradas nas
leituras;
Parâmetros mais comuns (2)
• -a num
– tamanho mínimo para o contig em 454AllContigs (default 100) – obs.: 0 se -cdna;
• -l num
– tamanho mínimo para o contig em 454LargeContigs/454Isotigs (default 500);
• -m
– mantém os dados de sequências na memória para aumentar a velocidade (necessita de RAM);
• -cpu num
– número de processadores para uso pelo montador (default 1);
• -minlen num
– tamanho mínimo para as leituras serem usadas na montagem;
• -het
– habilita o modo para considerar heterozigozidade (e.g., organismos diplóides). Esperar uma maior
variabilidade.
• -rip
– parâmetro de restrição, a leitura deve ser alocada em somente um contig – obs.: não considerado se -cdna
Outros parâmetros (1)
-cdna options
• -ig
– Isogroup Threshold (número máximo de contigs em um isogroup). Não serão formados isotigs
e aparecerão como contigs nos arquivos de saída (default: 500 contigs);
• -it
– Isotig Threshold (número máximo de isotigs em um isogroup). O processo de percorrer o
grafo termina e aparecerão como contigs nos arquivos de saída (default: 100 isotigs);
• -icc
– Isotig Contig Count Threshold (número máximo de contigs em um isotig). Isotig não aparece
na lista e seus contigs poderão ou não aparecer na lista, dependendo se ele pertence ou não a
outro isotig (default: 100 contigs);
• -icl
– Isotig Contig Length Threshold (tamanho mínimo de um contig para o isotig). Isotig não
aparece na lista e seus contigs poderão ou não aparecer na lista, dependendo se ele pertence
ou não a outro isotig (default: 3 bp);
Outros parâmetros (2)
• -notrim
– desabilitar trimagem padrão de qualidade e primer;
• -p
– especificar que as leituras são paired-ends, caso contrário isso será detectado automaticamente;
• -ud
– trata leituras separadamente, não agrupamento de duplicatas;
• -ss
– especificar seed step parameter – distância para início de uma nova seed (default: 12 bp);
• -sl
– especificar seed length parameter – tamanho da seed (default: 16 bp);
• -sc
– especificar seed count parameter – quantas seeds são necessárias para o alinhamento (default: 1);
• -ml
– especificar tamanho mínimo da sobreposição (default: 40bp);
• -mi
– especificar a identidade mínima da sobreposição (default: 90bp);
Parâmetros que afetam diretamente o rigor do alinhamento!!!
Parâmetros 2.6+
• -isplit
– Procurar por "depth spike" gerando um número
maior de isotigs;
• -scaffold
– Gera arquivos de saída (output) .fasta e .qual
gerados como resultados do processo de
scaffolding;
Arquivos de saída (1)
• Arquivos de sequências e qualidades
– Contigs
• 454AllContigs.fna
>contig00001 length=542 numreads=16 gene=isogroup00001 status=isotig
>contig00002 length=2 numreads=43 gene=isogroup00001 status=it_thresh
• 454AllContigs.qual
– Isotigs
• 454Isotigs.fna
>isotig00018 gene=isogroup00002 length=2494 numContigs=6
>isotig00003 gene=isogroup00004 length=2675 numContigs=10
• 454Isotigs.qual
• 454Isotigs.faa (ORFs traduzidas - considerando 6 frames {-3, -2, -1, +1, +2 e +3})
>isotig00018 1503 3236 -1 1734 577 19
>isotig00003 1824 2369 +3 546 181 1
name/start/end/coding frame/nucleotide length/protein length/number of methionines
Arquivos de saída (2)
• Arquivos extras
– Alinhamentos de ORFs
• 454IsotigOrfAlign.txt
isotig00018 2881 GGCGGGCAGTAAATATCATCATTGAGAATGCCCTCTTTCACTTGCAGAAAGAACAGGCGCTGAGTGATGTCCTGAATCAA 2960
-1:1503..3236* 119 .P..P..C..Y..I..D..D..N..L..I..G..E..K..V..Q..L..F..F..L..R..Q..T..I..D..Q..I..L 93
-2:2660..2902 8 L..R..A..T..F..I..M..M 1
+3:2709..3152 59 ..R..A..V..N..I..I..I..E..N..A..L..F..H..L..Q..K..E..Q..A..L..S..D..V..L..N..Q.. 84
– ACE (Como as leituras foram alinhadas para a formação dos Isotigs
– visualização no programa Tablet)
• 454Isotigs.ace
– Estatísticas (Estatísticas da montagem, e.g. número de leituras e
bases alinhadas, sobreposições, tamanho médio dos contigs, etc.)
• 454NewblerMetrics.txt
– http://contig.wordpress.com/2010/03/11/newbler-output-i-the-
454newblermetrics-txt-file/
– Progresso de execução
• 454NewblerProgress.txt
R (Arg) A (Ala) ...
Arquivos de saída (3)
• Leituras
– Status no alinhamento (extremidade 3' e 5' do contig);
• 454ReadStatus.txt
AccnoRead Status 5' Contig 5' Position 5' Strand 3' Contig 3' Position 3' Strand
F62E2P401D47TD Singleton
F62E2P401ALCTK Outlier
F62E2P401CVVLA TooShort
F62E2P401ANAAD Repeat
F62E2P401CE0XB PartiallyAssembled contig03687 124 - contig03687 493 +
F62E2P401EC2X1 Assembled contig02209 322 - contig02209 48 +
F62E2P401C259U Assembled contig00119 21 + contig00129 38 -
– Pontos de trimagem originais e revisados para a
montagem
• 454TrimStatus.txt
Accno Trimpoints Used Used Trimmed Length Orig Trimpoints Orig Trimmed Length Raw Length
F62E2P401BCQ2E 18-543 526 5-543 539 557
F62E2P401BGGG5 38-149 112 5-149 145 779
F62E2P401ATLP4 5-97 93 5-97 93 297
F62E2P401BJE8M 5-66 62 5-66 62 260
Assembled – Utilizada integralmente na montagem
Too Short – Muito pequena
Repeat – Identificada como repetitiva
Outlier – Leitura problemática (e.g. quimera)
PartiallyAssembled – Somente aproveitada uma parte da leitura na montagem
F62E2P401EC2X1 – inicia na base 48 contig02209 e termina na base 322 do
contig02209 (a leitura na forma complementar-reversa está integralmente
dentro do contig02209)
F62E2P401C259U – inicia na base 21 contig00119 e termina na base 38 do
contig00129 (leitura atravessa dois contigs)
Trimpoints Orig – pontos de trimagem originais (presentes no sff ou fasta) ou caso não informado: 1 até tamanho da sequência
Trimpoins Used – trimagem realizada pelo montador
Arquivos de saída (4)
• Montagem
– Informações relacionadas à sequência consenso, qualidade,
profundidade de sequências únicas, ou seja, não duplicadas e
alinhadas na posição, profundidade de sequências mapeadas
unicamente e alinhadas na posição, profundidade de sequências
únicas e repetitivas mapeadas na posição, média de sinal das
reads nessa posição no pirograma e desvio padrão para cada
posição do contig.
• 454AlignmentInfo.tsv
Position Consensus Quality Score Unique Depth Align Depth Total Depth Signal StdDeviation
>isotig00001 1
1 C 64 2 2 2 1.00 0.00
2 A 64 2 2 2 1.00 0.00
3 G 64 2 2 2 2.00 0.00
4 G 64 2 2 2 2.00 0.00
5 A 64 2 2 2 1.00 0.00
6 G 64 2 2 2 1.00 0.00
Arquivos de saída (5)
• Grafos
– Estrutura de conexão entre contigs [3 seções – Nós (1) /Arestas (2)(3)];
• 454ContigGraph.txt
(1) ContigNum ContigName Length Average_depth
...
31 contig00031 12 1.4
32 contig00032 1633 80.3
33 contig00033 947 105.7
...
(2) Edge FromContigNum FromEnd ToContigNum ToEnd AlignmentReadDepth
...
C 32 5' 31 3' 5
C 32 3' 33 5' 20
...
S 22 2592 31:+;32:+;33:+
S 23 2580 32:+;33:+
S 24 947 33:+
...
(3) Edge ContigNum Sequence Thru-FlowInformation
...
I 4 TGTTCGGTGTTCTCCGCCTCGGGCTGTCACAAATCGTGCTGCTGTGAGCCACTGCGTGCAGGTCTCAT 2:2-3'..3-5';1:6-3'..3-5'
...
– Layout dos Isotigs
• 454IsotigsLayout.txt
>isogroup00007 numIsotigs=3 numContigs=3
Length : 12 1633 947 (bp)
Contig : 00031 00032 00033 Total:
isotig00022 >>>>> >>>>> >>>>> 2592
isotig00023 >>>>> >>>>> 2580
isotig00024 >>>>> 947
"I" short contig - seq. acima inicia antes do contig4 e termina depois = dois fluxos
de informação separados por ; qtd de sequências:contig_anterior-
extremidade..contig_posterior extremidade
"P" paired-ends – como as sequências em pares atravessam contigs e permitem
scaffolds
"F" read-flow – como as sequências simples atravessam contigs e permitem
scaffolds
VELVET
Softwares
Etapas de montagem com grafos
de-Bruijn
Velvet: Pebble and Rock Band
• Resolução de Repetições e Scaffolding
– Paired-end sequencing (Pebble, Breadcrumb)
– Long-read sequencing (Rock Band)
Pebble
[Zerbino e Birney, 2009]
[ZerbinoeBirney,2009]
Rock Band
Breadcrumb
[ZerbinoeBirney,2008]
(miolo de pão)
Construção da tabela hash
• velveth
– Extração dos k-mers e indexação por meio de uma tabela hash a partir de um conjunto de
leituras. As sobreposições entre os k-mers imediatamente são obtidas.
– São gerados 2 arquivos (Sequences e Roadmaps) necessários para a construção do grafo de-
Bruijn pelo programa seguinte: velvetg;
• Sequences: sequências indexadas;
• Roadmaps: representação das sobreposições entre os k-mers únicos;
./velveth output_directory hash_length [[-file_format] [-read_type] filename]
• Principais parâmetros
– hash_length é o tamanho dos k-mers em bp. Quanto menor o k mais lento!!!
– read_type pode ser:
• -short / -shortPaired
• -short2 / -shortPaired2
• -long / -longPaired
– file_format pode ser:
• -fasta (default)
• -fastq
• ...
Hash Table (Array Associativo)
1 | ACGACA
2 | CGACAT
k-mer=3
ACG 1
CGA 1 2
GAC 1 2
ACA 1 2
CAT 2
K-mer
Opções extras (velveth)
• Em hash_length é possível utilizar um intervalo m,M,s
minimum,Maximum,step
• Quando utilizando paired reads
-interleaved (default - um único arquivo intercaladas)
-separate (arquivos separados)
• Cria uma versão binária dos arquivos Sequences e Roadmaps;
-create_binary
• Identifica as leituras como provenientes de sequenciamento
orientação específica
-strand_specific
Construção do Grafo de-Bruijn (1)
• velvetg
– Construção e manipulação do grafo de-Bruijn, correção de erros e
resolução de repetições.
– Arquivos gerados:
• contigs.fa - sequências consensos (gaps dentro contigs = N's);
• PreGraph - grafo intermediário 0;
• Graph - grafo intermediário 1;
• Graph2 - grafo intermediário 2;
• LastGraph - descrição plena do grafo de-Bruijn produzido;
• Log - descrição das ações executadas;
• stats.txt - números relativos à montagem;
• UnusedReads.fa - sequências não utilizadas na montagem;
• velvet_asm.afg - formato compatível com AMOS (-amos_file yes);
./velvetg output_directory [options]
Construção do grafo de-Bruijn (2)
• Simplificação do grafo
– unificação de nós em cadeia
• Remoção de erros
– remoção de "tips" – cadeia de nós desconectada
no fim;
– remoção de "bubbles" – dois caminhos que
iniciam e terminam nos mesmos nós (Algoritmo
Tour Bus);
• remoção de conexões errôneas – remoção de nós e arcos
de baixa cobertura (erro sequenciamento);
Algoritmo Tour bus
• Exemplo 1:
• Exemplo 2:
Construção do Grafo de-Bruijn (3)
Principais parâmetros
-cov_cutoff <floating-point|auto> : remoção de nós/arcos baixa cobertura
(sem remoção)
-ins_length <integer> : distância esperada entre pares (sem
pareamento|auto)
-read_trkg <yes|no> : rastreamento das posições das leituras na
montagem (Graph2 e LastGraph/ oases) (no)
-min_contig_lgth <integer> : tamanho mínimo da sequência consenso (k*2)
-amos_file <yes|no> : exportar montagem para arquivo AMOS (no)
-exp_cov <floating point|auto> : estimativa da cobertura esperada
para regiões únicas, é usado na
resolução de repetições (sem leituras
longas ou em pares)
-long_cov_cutoff <floating-point> : remoção de nós com baixa cobertura
de leituras longas (sem remoção)
-unused_reads <yes|no> : exportar leituras não aproveitadas em
UnusedReads.fa (no)
-exportFiltered <yes|no> : exportar nós que foram eliminados pelo filtro
de cobertura (no)
-shortMatePaired* <yes|no> : indica que a biblioteca mate-pair pode ser
contaminada com leituras paired-end (no)
-scaffolding <yes|no> : fazer scaffolding (no)
-conserveLong <yes|no> : conservar sequências com leituras longas (no)
Estatísticas
• Arquivo tabular
– ID identificador do contig
– lgth tamanho em k-mers
– out número de arcos 3'
– in número de arcos 5'
– long_cov cobertura em k-mers (long)
– short1_cov cobertura em k-mers (short1)
– short1_Ocov cobertura em k-mers – mapeamento perfeito (short1)
– short2_cov cobertura em k-mers (short2)
– short2_Ocov cobertura em k-mers - mapeamento perfeito (short2)
– long_nb número de reads (long)
– short1_nb número de reads (short1)
– short2_nb número de reads (short2)
Cobertura k-mers
• Tamanho k-mers: Quantas subsequência de tamanho k
são observadas para uma sequência de tamanho LN;
• Tamanho k-mers (Lk) e tamanho nucleotídeos (LN)
– Lk= LN-(k-1) = LN-k+1
– LN = Lk+(k-1) = Lk+k-1
– e.g. ACGTGAAG (LN = 8)
• k = 3
– ACG / CGT / GTG / TGA / GAA / AAG (6)
– Lk = 8-3+1 = 6
• Cobertura k-mers (Ck) e cobertura nucleotídeos (CN)
– Ck = CN * (LN–k+1)/LN
– CN = (LN * CK)/(LN-k+1)
VelvetOptimiser
• Encontrar os "melhores" parâmetros (k-mer e cov_cutoff)
– VelvetOptimiser.pl [options] -f 'velveth input line'
--help This help.
--v|verbose+ Verbose logging, includes all velvet output in the logfile. (default '0').
--s|hashs=i The starting (lower) hash value (default '19').
--e|hashe=i The end (higher) hash value (default '31').
--f|velvethfiles=s The file section of the velveth command line. (default '0').
--a|amosfile! Turn on velvet's read tracking and amos file output. (default '0').
--o|velvetgoptions=s Extra velvetg options to pass through. eg. -long_mult_cutoff -max_coverage etc (default '').
--t|threads=i The maximum number of simulataneous velvet instances to run. (default '48').
--g|genomesize=f The approximate size of the genome to be assembled in megabases.
Only used in memory use estimation. If not specified, memory use estimation
will not occur. If memory use is estimated, the results are shown and then program exits. (default '0').
--k|optFuncKmer=s The optimisation function used for k-mer choice. (default 'n50').
--c|optFuncCov=s The optimisation function used for cov_cutoff optimisation. (default 'Lbp').
--p|prefix=s The prefix for the output filenames, the default is the date and time in the format DD-MM-YYYY-HH-MM_.
(default 'auto').
Advanced!: Changing the optimisation function(s)
Velvet optimiser assembly optimisation function can be built from the following variables.
Lbp = The total number of base pairs in large contigs
Lcon = The number of large contigs
max = The length of the longest contig
n50 = The n50
ncon = The total number of contigs
tbp = The total number of basepairs in contigs
Examples are:
'Lbp' = Just the total basepairs in contigs longer than 1kb
'n50*Lcon' = The n50 times the number of long contigs.
'n50*Lcon/tbp+log(Lbp)' = The n50 times the number of long contigs divided
by the total bases in all contigs plus the log of the number of bases
in long contigs.
Parâmetro crítico: K
• O parâmetro K (k-mers) para a construção do
grafo de-Bruijn é fator determinante para a
montagem
– Sensibilidade x Especificidade
• valor baixo de k (mais sensível)
• valor alto de k (mais específico)
Soluções:
• Escolher um parâmetro de k que forneça a montagem com melhores
resultados (N50)
Tablet - Next Generation Sequence
Assembly Visualization
• http://bioinf.scri.ac.uk/tablet/
• Sistema Estável
• Interface intuitiva
• Instalação simples
• Suporte a vários formatos de arquivos
– ACE, AFG, MAQ, SOAP2, SAM and BAM
• Importa atributos
– GFF3
• Exportar dados de cobertura por contig
(transcrito) – número de profundidade
por base do contig
– oases_asm.afg.txt
• Script para sumarizar os dados de
cobertura (coveragestats.py)
• Requer muita memória
SPADES
Softwares
SPAdes pipeline
• Módulos
– BayesHammer – read error correction tool for Illumina reads,
which works well on both single-cell and standard data sets.
– IonHammer – read error correction tool for IonTorrent data,
which also works on both types of data.
– SPAdes – iterative short-read genome assembly module; values
of K are selected automatically based on the read length and
data set type.
– MismatchCorrector – a tool which improves mismatch and
short indel rates in resulting contigs and scaffolds; this module
uses the BWA tool [Li H. and Durbin R., 2009];
MismatchCorrector is turned off by default, but we recommend
to turn it on (see SPAdes options section).
Correção de erros
Hammer
https://academic.oup.com/bioinformatics/article/27/13/i137/178096/Error-
correction-of-high-throughput-sequencing
Correção de erros
• Distância de Hamming
– Número de posições em que as sequências divergem entre si.
• Grafo de Hamming
• Agrupamento
Performance
Data set E. coli isolate
Stage Time
Peak RAM
usage (Gb)
Additional
disk space (Gb)
BayesHammer 26m 7.1 11
SPAdes 8m 8.1 1.5
MismatchCorrector 20m 1.8 27.7
Whole pipeline 54m 8.1 30.2
Standard isolate E. coli; 6.2Gb, 28M reads, 2x100bp, insert size ~ 215bp
16 threads on a server with Intel Xeon 2.27GHz processors and SSD hard drive
Linha de ComandoSPAdes genome assembler v3.13.0
Usage: /usr/local/bin/spades.py [options] -o <output_dir>
Basic options:
-o <output_dir> directory to store all the resulting files (required)
--sc this flag is required for MDA (single-cell) data
--meta this flag is required for metagenomic sample data
--rna this flag is required for RNA-Seq data
--plasmid runs plasmidSPAdes pipeline for plasmid detection
--iontorrent this flag is required for IonTorrent data
--test runs SPAdes on toy dataset
-h/--help prints this usage message
-v/--version prints version
Input data:
--12 <filename> file with interlaced forward and reverse paired-end reads
-1 <filename> file with forward paired-end reads
-2 <filename> file with reverse paired-end reads
-s <filename> file with unpaired reads
--merged <filename> file with merged forward and reverse paired-end reads
--pe<#>-12 <filename> file with interlaced reads for paired-end library number <#> (<#> = 1,2,...,9)
--pe<#>-1 <filename> file with forward reads for paired-end library number <#> (<#> = 1,2,...,9)
--pe<#>-2 <filename> file with reverse reads for paired-end library number <#> (<#> = 1,2,...,9)
--pe<#>-s <filename> file with unpaired reads for paired-end library number <#> (<#> = 1,2,...,9)
--pe<#>-m <filename> file with merged reads for paired-end library number <#> (<#> = 1,2,...,9)
--pe<#>-<or> orientation of reads for paired-end library number <#> (<#> = 1,2,...,9; <or> = fr, rf, ff)
--s<#> <filename> file with unpaired reads for single reads library number <#> (<#> = 1,2,...,9)
--mp<#>-12 <filename> file with interlaced reads for mate-pair library number <#> (<#> = 1,2,..,9)
--mp<#>-1 <filename> file with forward reads for mate-pair library number <#> (<#> = 1,2,..,9)
--mp<#>-2 <filename> file with reverse reads for mate-pair library number <#> (<#> = 1,2,..,9)
--mp<#>-s <filename> file with unpaired reads for mate-pair library number <#> (<#> = 1,2,..,9)
--mp<#>-<or> orientation of reads for mate-pair library number <#> (<#> = 1,2,..,9; <or> = fr, rf, ff)
--hqmp<#>-12 <filename> file with interlaced reads for high-quality mate-pair library number <#> (<#> = 1,2,..,9)
--hqmp<#>-1 <filename> file with forward reads for high-quality mate-pair library number <#> (<#> = 1,2,..,9)
--hqmp<#>-2 <filename> file with reverse reads for high-quality mate-pair library number <#> (<#> = 1,2,..,9)
--hqmp<#>-s <filename> file with unpaired reads for high-quality mate-pair library number <#> (<#> = 1,2,..,9)
--hqmp<#>-<or> orientation of reads for high-quality mate-pair library number <#> (<#> = 1,2,..,9; <or> = fr, rf, ff)
--nxmate<#>-1 <filename> file with forward reads for Lucigen NxMate library number <#> (<#> = 1,2,..,9)
--nxmate<#>-2 <filename> file with reverse reads for Lucigen NxMate library number <#> (<#> = 1,2,..,9)
--sanger <filename> file with Sanger reads
--pacbio <filename> file with PacBio reads
--nanopore <filename> file with Nanopore reads
--tslr <filename> file with TSLR-contigs
--trusted-contigs <filename> file with trusted contigs
--untrusted-contigs <filename> file with untrusted contigs
Linha de ComandoSPAdes genome assembler v3.13.0
Usage: /usr/local/bin/spades.py [options] -o <output_dir>
Basic options:
-o <output_dir> directory to store all the resulting files (required)
Input data:
-1 <filename>file with forward paired-end reads
-2 <filename>file with reverse paired-end reads
-s <filename>file with unpaired reads
--pe<#>-12 <filename> file with interlaced reads for paired-end library number <#> (<#> = 1,2,...,9)
--pe<#>-1 <filename> file with forward reads for paired-end library number <#> (<#> = 1,2,...,9)
--pe<#>-2 <filename> file with reverse reads for paired-end library number <#> (<#> = 1,2,...,9)
--pe<#>-s <filename> file with unpaired reads for paired-end library number <#> (<#> = 1,2,...,9)
--pe<#>-m <filename> file with merged reads for paired-end library number <#> (<#> = 1,2,...,9)
--pe<#>-<or> orientation of reads for paired-end library number <#> (<#> = 1,2,...,9; <or> = fr,
rf, ff)
--s<#> <filename> file with unpaired reads for single reads library number <#> (<#> =
1,2,...,9)
--trusted-contigs <filename> file with trusted contigs
--untrusted-contigs <filename> file with untrusted contigs
Linha de Comando
Pipeline options:
--only-error-correction runs only read error correction (without assembling)
--only-assembler runs only assembling (without read error correction)
--careful tries to reduce number of mismatches and short indels
--continue continue run from the last available check-point
--restart-from <cp> restart run with updated options and from the specified check-point ('ec', 'as', 'k<int>', 'mc', 'last')
--disable-gzip-output forces error correction not to compress the corrected reads
--disable-rr disables repeat resolution stage of assembling
Advanced options:
--dataset <filename> file with dataset description in YAML format
-t/--threads <int> number of threads
[default: 16]
-m/--memory <int> RAM limit for SPAdes in Gb (terminates if exceeded)
[default: 250]
--tmp-dir <dirname> directory for temporary files
[default: <output_dir>/tmp]
-k <int,int,...> comma-separated list of k-mer sizes (must be odd and
less than 128) [default: 'auto']
--cov-cutoff <float> coverage cutoff value (a positive float number, or 'auto', or 'off') [default: 'off']
--phred-offset <33 or 64> PHRED quality offset in the input reads (33 or 64)
[default: auto-detect]
Coverage cutoff
• Caminho com maior suporte de leituras (reads)
Combinando montagens
(MeGAMerge)
minimus2 is a modified version of
the minimus pipeline designed for
merging one or two sequence
sets (S1,S2). It uses a nucmer
based overlap detector which is
much faster than the Smith-
Waterman hash-overlap program
used by minimus.
scaffolding / GAP filling
• Scaffolding Pre-Assemblies After Contig Extension (SSPACE)
– Algoritmo baseado em grafos do tipo Greedy
https://github.com/nsoranzo/sspace_basic
Gap
closing
Figure 3 Example of a gap-closing approach using paired-end reads. (a) Taking as example a scaffold constituted by two contigs joined by an assembly gap (a run of `N's)
by remapping the reads back to the contigs (b) it is possible to identify reads that have at least one of the mates in the gap region. Finally, (c) the reads identified inside
the gap can be de novo assembled to fill the region, resulting in a (d) closed gap.
CONSIDERAÇÕES FINAIS
Conclusão
Conclusão
• Há diferenças relevantes entre abordagens,
funcionalidades e eficiência entre os diferentes
algoritmos e implementações para as tarefas de
alinhamento de sequências e montagem;
– As diferentes abordagens refletem diretamente no
processamento e especialmente no resultado das análises;
• Portanto é necessário conhecer os princípios de cada
abordagem, reconhecer os parâmetros e os resultados,
para podermos utilizá-los da melhor forma possível.
– Promover a utilização racional dos programas disponíveis!!!
Referências
• Miller JR, Koren S, Sutton G. Assembly algorithms for next-generation sequencing data. Genomics. 2010 Jun;95(6):315-
27. Epub 2010 Mar 6. Review. PubMed PMID: 20211242; PubMed Central PMCID: PMC2874646;
• Li R, Fan W, Tian G, et al. The sequence and de novo assembly of the giant panda genome. Nature. 2010 Jan
21;463(7279):311-7. Epub 2009 Dec 13. Erratum in: Nature. 2010 Feb 25;463(7284):1106. PubMed PMID: 20010809;
• Zerbino DR, Birney E. Velvet: algorithms for de novo short read assembly using de Bruijn graphs. Genome Res. 2008
May;18(5):821-9. Epub 2008 Mar 18. PubMed PMID: 18349386; PubMed Central PMCID: PMC2336801;
• Schatz MC, Phillippy AM, Shneiderman B, Salzberg SL. Hawkeye: an interactive visual analytics tool for genome
assemblies. Genome Biol. 2007;8(3):R34. PubMed PMID: 17349036; PubMed Central PMCID: PMC1868940;
• Milne I, Bayer M, Cardle L, Shaw P, Stephen G, Wright F, Marshall D. Tablet--next generation sequence assembly
visualization. Bioinformatics. 2010 Feb 1;26(3):401-2. Epub 2009 Dec 4. PubMed PMID: 19965881; PubMed Central
PMCID: PMC2815658;
• Kremer, Frederico Schmitt, McBride, Alan John Alexander, & Pinto, Luciano da Silva. (2017). Approaches for in silico
finishing of microbial genome sequences. Genetics and Molecular Biology, 40(3), 553-576
• http://pt.wikipedia.org/wiki/Teoria_dos_grafos
• http://contig.wordpress.com
• http://genepool.bio.ed.ac.uk/bioinformatics/index.html
• http://cbsu.tc.cornell.edu/nextgenworkshop2010w5.aspx
• https://banana-slug.soe.ucsc.edu
• http://www.stanford.edu/class/gene211
• http://www.slideshare.net/bosc2010/chambwe-bosc2010
• http://www.nesc.ac.uk/action/esi/contribution.cfm?Title=1104
• https://pt.slideshare.net/aubombarely/genome-assembly2014/10
dgpinheiro@gmail.com
Daniel Guariz Pinheiro

Mais conteúdo relacionado

Mais procurados

Aula 12 - Tecnologia do DNA recombinante
Aula 12 - Tecnologia do DNA recombinanteAula 12 - Tecnologia do DNA recombinante
Aula 12 - Tecnologia do DNA recombinante
Fernando Mori Miyazawa
 
Biotecnologia e Engenharia Genética (Power Point)
Biotecnologia e Engenharia Genética (Power Point)Biotecnologia e Engenharia Genética (Power Point)
Biotecnologia e Engenharia Genética (Power Point)Bio
 
Recombinação genetica
Recombinação geneticaRecombinação genetica
Recombinação geneticaUERGS
 
3 ano-aula-genetica
3 ano-aula-genetica3 ano-aula-genetica
3 ano-aula-genetica
Luzelena Aires
 
Biologia molecular
Biologia molecularBiologia molecular
Biologia molecular
Guellity Marcel
 
Introdução à Biologia Molecular
Introdução à Biologia MolecularIntrodução à Biologia Molecular
Introdução à Biologia Molecular
Marcos Castro
 
Genética de populações
Genética de populaçõesGenética de populações
Genética de populaçõesGabriele Melo
 
Grafos De Bruijn para identificação de variações genéticas usando GBS
Grafos De Bruijn para identificação de variações genéticas usando GBSGrafos De Bruijn para identificação de variações genéticas usando GBS
Grafos De Bruijn para identificação de variações genéticas usando GBS
Marcos Castro
 
Produção Proteínas Recombinantes
Produção Proteínas RecombinantesProdução Proteínas Recombinantes
Produção Proteínas RecombinantesLABIMUNO UFBA
 
Como é feito o Exame de DNA?
Como é feito o Exame de DNA?Como é feito o Exame de DNA?
Como é feito o Exame de DNA?
Gabriel Negreira
 
Marcadores moleculares
Marcadores molecularesMarcadores moleculares
Marcadores moleculares
wagnerjudice
 
PCR- Reação em cadeia pela DNA POLIMERASE!
PCR- Reação em cadeia pela DNA POLIMERASE!PCR- Reação em cadeia pela DNA POLIMERASE!
PCR- Reação em cadeia pela DNA POLIMERASE!
Hemilly Rayanne
 
Aula 6 replicação do dna, transcrição do rna e síntese proteica
Aula 6   replicação do dna, transcrição do rna e síntese proteicaAula 6   replicação do dna, transcrição do rna e síntese proteica
Aula 6 replicação do dna, transcrição do rna e síntese proteica
Nayara de Queiroz
 
Aula de Engenharia Genética sobre Enzimas de restrição
Aula de Engenharia Genética sobre Enzimas de restriçãoAula de Engenharia Genética sobre Enzimas de restrição
Aula de Engenharia Genética sobre Enzimas de restrição
Jaqueline Almeida
 
Engenharia genética
Engenharia genéticaEngenharia genética
Engenharia genética
LorennaVilhena
 

Mais procurados (20)

Pcr
PcrPcr
Pcr
 
Aula 12 - Tecnologia do DNA recombinante
Aula 12 - Tecnologia do DNA recombinanteAula 12 - Tecnologia do DNA recombinante
Aula 12 - Tecnologia do DNA recombinante
 
Biotecnologia e Engenharia Genética (Power Point)
Biotecnologia e Engenharia Genética (Power Point)Biotecnologia e Engenharia Genética (Power Point)
Biotecnologia e Engenharia Genética (Power Point)
 
Recombinação genetica
Recombinação geneticaRecombinação genetica
Recombinação genetica
 
3 ano-aula-genetica
3 ano-aula-genetica3 ano-aula-genetica
3 ano-aula-genetica
 
Biologia molecular
Biologia molecularBiologia molecular
Biologia molecular
 
Transcrição gênica
Transcrição gênicaTranscrição gênica
Transcrição gênica
 
Transcrição e tradução
Transcrição e traduçãoTranscrição e tradução
Transcrição e tradução
 
Introdução à Biologia Molecular
Introdução à Biologia MolecularIntrodução à Biologia Molecular
Introdução à Biologia Molecular
 
Genética de populações
Genética de populaçõesGenética de populações
Genética de populações
 
Grafos De Bruijn para identificação de variações genéticas usando GBS
Grafos De Bruijn para identificação de variações genéticas usando GBSGrafos De Bruijn para identificação de variações genéticas usando GBS
Grafos De Bruijn para identificação de variações genéticas usando GBS
 
Produção Proteínas Recombinantes
Produção Proteínas RecombinantesProdução Proteínas Recombinantes
Produção Proteínas Recombinantes
 
Marcadores moleculares
Marcadores molecularesMarcadores moleculares
Marcadores moleculares
 
Como é feito o Exame de DNA?
Como é feito o Exame de DNA?Como é feito o Exame de DNA?
Como é feito o Exame de DNA?
 
Sintese de proteina 2
Sintese de proteina 2Sintese de proteina 2
Sintese de proteina 2
 
Marcadores moleculares
Marcadores molecularesMarcadores moleculares
Marcadores moleculares
 
PCR- Reação em cadeia pela DNA POLIMERASE!
PCR- Reação em cadeia pela DNA POLIMERASE!PCR- Reação em cadeia pela DNA POLIMERASE!
PCR- Reação em cadeia pela DNA POLIMERASE!
 
Aula 6 replicação do dna, transcrição do rna e síntese proteica
Aula 6   replicação do dna, transcrição do rna e síntese proteicaAula 6   replicação do dna, transcrição do rna e síntese proteica
Aula 6 replicação do dna, transcrição do rna e síntese proteica
 
Aula de Engenharia Genética sobre Enzimas de restrição
Aula de Engenharia Genética sobre Enzimas de restriçãoAula de Engenharia Genética sobre Enzimas de restrição
Aula de Engenharia Genética sobre Enzimas de restrição
 
Engenharia genética
Engenharia genéticaEngenharia genética
Engenharia genética
 

Semelhante a Montagem de Genomas

Aula estrutura e_replicacao_do_dna_christian
Aula estrutura e_replicacao_do_dna_christianAula estrutura e_replicacao_do_dna_christian
Aula estrutura e_replicacao_do_dna_christianAndressa Souza
 
Bioinformática arquivo de dados
Bioinformática arquivo de dadosBioinformática arquivo de dados
Bioinformática arquivo de dadosUERGS
 
Genoma Humano.pptx
Genoma Humano.pptxGenoma Humano.pptx
Genoma Humano.pptx
NivaldoJnior16
 
Pos Usp Ngs Big Data Parte 2
Pos Usp Ngs Big Data Parte 2Pos Usp Ngs Big Data Parte 2
Pos Usp Ngs Big Data Parte 2
Beta Campos
 
Aula de Genetica - Slide Microbiologia e Imunologia
Aula de Genetica - Slide Microbiologia e ImunologiaAula de Genetica - Slide Microbiologia e Imunologia
Aula de Genetica - Slide Microbiologia e Imunologia
JooVitorMacdoGalvo
 
Stabvida oportunidades profissionais
Stabvida oportunidades profissionaisStabvida oportunidades profissionais
Stabvida oportunidades profissionais
Francisco Couto
 
Minicurso Técnicas de Sequenciamento e suas Aplicações
Minicurso Técnicas de Sequenciamento e suas AplicaçõesMinicurso Técnicas de Sequenciamento e suas Aplicações
Minicurso Técnicas de Sequenciamento e suas Aplicações
Ana Paula Mendes Silva
 
Polimorfismos de nucleotídeos únicos em espécies poliplóides.ppt
Polimorfismos de nucleotídeos únicos em espécies poliplóides.pptPolimorfismos de nucleotídeos únicos em espécies poliplóides.ppt
Polimorfismos de nucleotídeos únicos em espécies poliplóides.ppt
CarlosWeslley1
 
2016 Frente 1 modulo 13 Engenharia genética
2016 Frente 1 modulo 13 Engenharia genética2016 Frente 1 modulo 13 Engenharia genética
2016 Frente 1 modulo 13 Engenharia genética
Colégio Batista de Mantena
 
D na invest-criminal-pcr-electroforese(dnafinferprint)
D na invest-criminal-pcr-electroforese(dnafinferprint)D na invest-criminal-pcr-electroforese(dnafinferprint)
D na invest-criminal-pcr-electroforese(dnafinferprint)Madalena_Bio12
 
Dna invest criminal-pcr-electroforese(dn-afingerprint)
Dna invest criminal-pcr-electroforese(dn-afingerprint)Dna invest criminal-pcr-electroforese(dn-afingerprint)
Dna invest criminal-pcr-electroforese(dn-afingerprint)Madalena_Bio12
 
Aulauergs 120606185224-phpapp02
Aulauergs 120606185224-phpapp02Aulauergs 120606185224-phpapp02
Aulauergs 120606185224-phpapp02
Leriaagro
 
Principios basicos-de-biologia-molecular
Principios basicos-de-biologia-molecularPrincipios basicos-de-biologia-molecular
Principios basicos-de-biologia-molecular
Facebook
 
Unid. 6 - GENÉTICA - Tema 1 - Bases da Genética - 9º ano.pptx
Unid. 6 - GENÉTICA - Tema 1 - Bases da Genética - 9º ano.pptxUnid. 6 - GENÉTICA - Tema 1 - Bases da Genética - 9º ano.pptx
Unid. 6 - GENÉTICA - Tema 1 - Bases da Genética - 9º ano.pptx
HellendosAnjos
 
ENGENHARIA GENÉTICA
ENGENHARIA GENÉTICAENGENHARIA GENÉTICA
ENGENHARIA GENÉTICA
Vitor Manuel de Carvalho
 
A importância da Bioinformática
A importância da BioinformáticaA importância da Bioinformática
A importância da Bioinformática
Marcos Castro
 
Biologia forense e suas áreas auxiliares.
Biologia forense e suas áreas auxiliares.Biologia forense e suas áreas auxiliares.
Biologia forense e suas áreas auxiliares.
Danieli Simões
 

Semelhante a Montagem de Genomas (20)

Aula 7 mi..(1)
Aula 7 mi..(1)Aula 7 mi..(1)
Aula 7 mi..(1)
 
RNAseq Analysis
RNAseq AnalysisRNAseq Analysis
RNAseq Analysis
 
Minicurso 2013
Minicurso 2013Minicurso 2013
Minicurso 2013
 
Aula estrutura e_replicacao_do_dna_christian
Aula estrutura e_replicacao_do_dna_christianAula estrutura e_replicacao_do_dna_christian
Aula estrutura e_replicacao_do_dna_christian
 
Bioinformática arquivo de dados
Bioinformática arquivo de dadosBioinformática arquivo de dados
Bioinformática arquivo de dados
 
Genoma Humano.pptx
Genoma Humano.pptxGenoma Humano.pptx
Genoma Humano.pptx
 
Pos Usp Ngs Big Data Parte 2
Pos Usp Ngs Big Data Parte 2Pos Usp Ngs Big Data Parte 2
Pos Usp Ngs Big Data Parte 2
 
Aula de Genetica - Slide Microbiologia e Imunologia
Aula de Genetica - Slide Microbiologia e ImunologiaAula de Genetica - Slide Microbiologia e Imunologia
Aula de Genetica - Slide Microbiologia e Imunologia
 
Stabvida oportunidades profissionais
Stabvida oportunidades profissionaisStabvida oportunidades profissionais
Stabvida oportunidades profissionais
 
Minicurso Técnicas de Sequenciamento e suas Aplicações
Minicurso Técnicas de Sequenciamento e suas AplicaçõesMinicurso Técnicas de Sequenciamento e suas Aplicações
Minicurso Técnicas de Sequenciamento e suas Aplicações
 
Polimorfismos de nucleotídeos únicos em espécies poliplóides.ppt
Polimorfismos de nucleotídeos únicos em espécies poliplóides.pptPolimorfismos de nucleotídeos únicos em espécies poliplóides.ppt
Polimorfismos de nucleotídeos únicos em espécies poliplóides.ppt
 
2016 Frente 1 modulo 13 Engenharia genética
2016 Frente 1 modulo 13 Engenharia genética2016 Frente 1 modulo 13 Engenharia genética
2016 Frente 1 modulo 13 Engenharia genética
 
D na invest-criminal-pcr-electroforese(dnafinferprint)
D na invest-criminal-pcr-electroforese(dnafinferprint)D na invest-criminal-pcr-electroforese(dnafinferprint)
D na invest-criminal-pcr-electroforese(dnafinferprint)
 
Dna invest criminal-pcr-electroforese(dn-afingerprint)
Dna invest criminal-pcr-electroforese(dn-afingerprint)Dna invest criminal-pcr-electroforese(dn-afingerprint)
Dna invest criminal-pcr-electroforese(dn-afingerprint)
 
Aulauergs 120606185224-phpapp02
Aulauergs 120606185224-phpapp02Aulauergs 120606185224-phpapp02
Aulauergs 120606185224-phpapp02
 
Principios basicos-de-biologia-molecular
Principios basicos-de-biologia-molecularPrincipios basicos-de-biologia-molecular
Principios basicos-de-biologia-molecular
 
Unid. 6 - GENÉTICA - Tema 1 - Bases da Genética - 9º ano.pptx
Unid. 6 - GENÉTICA - Tema 1 - Bases da Genética - 9º ano.pptxUnid. 6 - GENÉTICA - Tema 1 - Bases da Genética - 9º ano.pptx
Unid. 6 - GENÉTICA - Tema 1 - Bases da Genética - 9º ano.pptx
 
ENGENHARIA GENÉTICA
ENGENHARIA GENÉTICAENGENHARIA GENÉTICA
ENGENHARIA GENÉTICA
 
A importância da Bioinformática
A importância da BioinformáticaA importância da Bioinformática
A importância da Bioinformática
 
Biologia forense e suas áreas auxiliares.
Biologia forense e suas áreas auxiliares.Biologia forense e suas áreas auxiliares.
Biologia forense e suas áreas auxiliares.
 

Último

Manejo de feridas - Classificação e cuidados.
Manejo de feridas - Classificação e cuidados.Manejo de feridas - Classificação e cuidados.
Manejo de feridas - Classificação e cuidados.
RafaelNeves651350
 
CADERNO DE CONCEITOS E ORIENTAÇÕES DO CENSO ESCOLAR 2024.pdf
CADERNO DE CONCEITOS E ORIENTAÇÕES DO CENSO ESCOLAR 2024.pdfCADERNO DE CONCEITOS E ORIENTAÇÕES DO CENSO ESCOLAR 2024.pdf
CADERNO DE CONCEITOS E ORIENTAÇÕES DO CENSO ESCOLAR 2024.pdf
NatySousa3
 
APOSTILA JUIZ DE PAZ capelania cristã.pdf
APOSTILA JUIZ DE PAZ capelania cristã.pdfAPOSTILA JUIZ DE PAZ capelania cristã.pdf
APOSTILA JUIZ DE PAZ capelania cristã.pdf
CarlosEduardoSola
 
AULA-8-PARTE-2-MODELO-DE-SITE-EDITÁVEL-ENTREGA2-CURRICULARIZAÇÃO-DA-EXTENSÃO-...
AULA-8-PARTE-2-MODELO-DE-SITE-EDITÁVEL-ENTREGA2-CURRICULARIZAÇÃO-DA-EXTENSÃO-...AULA-8-PARTE-2-MODELO-DE-SITE-EDITÁVEL-ENTREGA2-CURRICULARIZAÇÃO-DA-EXTENSÃO-...
AULA-8-PARTE-2-MODELO-DE-SITE-EDITÁVEL-ENTREGA2-CURRICULARIZAÇÃO-DA-EXTENSÃO-...
CrislaineSouzaSantos
 
Arundhati Roy - O Deus das Pequenas Coisas - ÍNDIA.pdf
Arundhati Roy - O Deus das Pequenas Coisas - ÍNDIA.pdfArundhati Roy - O Deus das Pequenas Coisas - ÍNDIA.pdf
Arundhati Roy - O Deus das Pequenas Coisas - ÍNDIA.pdf
Ana Da Silva Ponce
 
Química orgânica e as funções organicas.pptx
Química orgânica e as funções organicas.pptxQuímica orgânica e as funções organicas.pptx
Química orgânica e as funções organicas.pptx
KeilianeOliveira3
 
Slides Lição 10, Central Gospel, A Batalha Do Armagedom, 1Tr24.pptx
Slides Lição 10, Central Gospel, A Batalha Do Armagedom, 1Tr24.pptxSlides Lição 10, Central Gospel, A Batalha Do Armagedom, 1Tr24.pptx
Slides Lição 10, Central Gospel, A Batalha Do Armagedom, 1Tr24.pptx
LuizHenriquedeAlmeid6
 
A nossa mini semana 2706 2906 Juliana.pptx
A nossa mini semana 2706 2906 Juliana.pptxA nossa mini semana 2706 2906 Juliana.pptx
A nossa mini semana 2706 2906 Juliana.pptx
juserpa07
 
APOSTILA DE TEXTOS CURTOS E INTERPRETAÇÃO.pdf
APOSTILA DE TEXTOS CURTOS E INTERPRETAÇÃO.pdfAPOSTILA DE TEXTOS CURTOS E INTERPRETAÇÃO.pdf
APOSTILA DE TEXTOS CURTOS E INTERPRETAÇÃO.pdf
RenanSilva991968
 
UFCD_8298_Cozinha criativa_índice do manual
UFCD_8298_Cozinha criativa_índice do manualUFCD_8298_Cozinha criativa_índice do manual
UFCD_8298_Cozinha criativa_índice do manual
Manuais Formação
 
ptoposta curricular de geografia.da educação de jovens a e adultos
ptoposta curricular de geografia.da educação de jovens a e adultosptoposta curricular de geografia.da educação de jovens a e adultos
ptoposta curricular de geografia.da educação de jovens a e adultos
Escola Municipal Jesus Cristo
 
Slides Lição 10, CPAD, Desenvolvendo uma Consciência de Santidade, 2Tr24.pptx
Slides Lição 10, CPAD, Desenvolvendo uma Consciência de Santidade, 2Tr24.pptxSlides Lição 10, CPAD, Desenvolvendo uma Consciência de Santidade, 2Tr24.pptx
Slides Lição 10, CPAD, Desenvolvendo uma Consciência de Santidade, 2Tr24.pptx
LuizHenriquedeAlmeid6
 
Aproveitando as ferramentas do Tableau para criatividade e produtividade
Aproveitando as ferramentas do Tableau para criatividade e produtividadeAproveitando as ferramentas do Tableau para criatividade e produtividade
Aproveitando as ferramentas do Tableau para criatividade e produtividade
Ligia Galvão
 
BULLYING NÃO É AMOR.pdf LIVRO PARA TRABALHAR COM ALUNOS ATRAVÉS DE PROJETOS...
BULLYING NÃO É AMOR.pdf LIVRO PARA TRABALHAR COM ALUNOS ATRAVÉS DE PROJETOS...BULLYING NÃO É AMOR.pdf LIVRO PARA TRABALHAR COM ALUNOS ATRAVÉS DE PROJETOS...
BULLYING NÃO É AMOR.pdf LIVRO PARA TRABALHAR COM ALUNOS ATRAVÉS DE PROJETOS...
Escola Municipal Jesus Cristo
 
Caça-palavras - ortografia S, SS, X, C e Z
Caça-palavras - ortografia  S, SS, X, C e ZCaça-palavras - ortografia  S, SS, X, C e Z
Caça-palavras - ortografia S, SS, X, C e Z
Mary Alvarenga
 
O autismo me ensinou - Letícia Butterfield.pdf
O autismo me ensinou - Letícia Butterfield.pdfO autismo me ensinou - Letícia Butterfield.pdf
O autismo me ensinou - Letícia Butterfield.pdf
Letícia Butterfield
 
Planejamento anual de Arte.docx-3° ano fundamental
Planejamento anual de Arte.docx-3° ano fundamentalPlanejamento anual de Arte.docx-3° ano fundamental
Planejamento anual de Arte.docx-3° ano fundamental
ericalara2620
 
MÁRTIRES DE UGANDA Convertem-se ao Cristianismo - 1885-1887.pptx
MÁRTIRES DE UGANDA Convertem-se ao Cristianismo - 1885-1887.pptxMÁRTIRES DE UGANDA Convertem-se ao Cristianismo - 1885-1887.pptx
MÁRTIRES DE UGANDA Convertem-se ao Cristianismo - 1885-1887.pptx
Martin M Flynn
 
Slides Lição 9, Central Gospel, As Bodas Do Cordeiro, 1Tr24.pptx
Slides Lição 9, Central Gospel, As Bodas Do Cordeiro, 1Tr24.pptxSlides Lição 9, Central Gospel, As Bodas Do Cordeiro, 1Tr24.pptx
Slides Lição 9, Central Gospel, As Bodas Do Cordeiro, 1Tr24.pptx
LuizHenriquedeAlmeid6
 
HISTÓRIA DO CEARÁ MOVIMENTOS REVOLUCIONARIOS NO CEARÁ.pptx
HISTÓRIA DO CEARÁ MOVIMENTOS REVOLUCIONARIOS NO CEARÁ.pptxHISTÓRIA DO CEARÁ MOVIMENTOS REVOLUCIONARIOS NO CEARÁ.pptx
HISTÓRIA DO CEARÁ MOVIMENTOS REVOLUCIONARIOS NO CEARÁ.pptx
WALTERDECARVALHOBRAG
 

Último (20)

Manejo de feridas - Classificação e cuidados.
Manejo de feridas - Classificação e cuidados.Manejo de feridas - Classificação e cuidados.
Manejo de feridas - Classificação e cuidados.
 
CADERNO DE CONCEITOS E ORIENTAÇÕES DO CENSO ESCOLAR 2024.pdf
CADERNO DE CONCEITOS E ORIENTAÇÕES DO CENSO ESCOLAR 2024.pdfCADERNO DE CONCEITOS E ORIENTAÇÕES DO CENSO ESCOLAR 2024.pdf
CADERNO DE CONCEITOS E ORIENTAÇÕES DO CENSO ESCOLAR 2024.pdf
 
APOSTILA JUIZ DE PAZ capelania cristã.pdf
APOSTILA JUIZ DE PAZ capelania cristã.pdfAPOSTILA JUIZ DE PAZ capelania cristã.pdf
APOSTILA JUIZ DE PAZ capelania cristã.pdf
 
AULA-8-PARTE-2-MODELO-DE-SITE-EDITÁVEL-ENTREGA2-CURRICULARIZAÇÃO-DA-EXTENSÃO-...
AULA-8-PARTE-2-MODELO-DE-SITE-EDITÁVEL-ENTREGA2-CURRICULARIZAÇÃO-DA-EXTENSÃO-...AULA-8-PARTE-2-MODELO-DE-SITE-EDITÁVEL-ENTREGA2-CURRICULARIZAÇÃO-DA-EXTENSÃO-...
AULA-8-PARTE-2-MODELO-DE-SITE-EDITÁVEL-ENTREGA2-CURRICULARIZAÇÃO-DA-EXTENSÃO-...
 
Arundhati Roy - O Deus das Pequenas Coisas - ÍNDIA.pdf
Arundhati Roy - O Deus das Pequenas Coisas - ÍNDIA.pdfArundhati Roy - O Deus das Pequenas Coisas - ÍNDIA.pdf
Arundhati Roy - O Deus das Pequenas Coisas - ÍNDIA.pdf
 
Química orgânica e as funções organicas.pptx
Química orgânica e as funções organicas.pptxQuímica orgânica e as funções organicas.pptx
Química orgânica e as funções organicas.pptx
 
Slides Lição 10, Central Gospel, A Batalha Do Armagedom, 1Tr24.pptx
Slides Lição 10, Central Gospel, A Batalha Do Armagedom, 1Tr24.pptxSlides Lição 10, Central Gospel, A Batalha Do Armagedom, 1Tr24.pptx
Slides Lição 10, Central Gospel, A Batalha Do Armagedom, 1Tr24.pptx
 
A nossa mini semana 2706 2906 Juliana.pptx
A nossa mini semana 2706 2906 Juliana.pptxA nossa mini semana 2706 2906 Juliana.pptx
A nossa mini semana 2706 2906 Juliana.pptx
 
APOSTILA DE TEXTOS CURTOS E INTERPRETAÇÃO.pdf
APOSTILA DE TEXTOS CURTOS E INTERPRETAÇÃO.pdfAPOSTILA DE TEXTOS CURTOS E INTERPRETAÇÃO.pdf
APOSTILA DE TEXTOS CURTOS E INTERPRETAÇÃO.pdf
 
UFCD_8298_Cozinha criativa_índice do manual
UFCD_8298_Cozinha criativa_índice do manualUFCD_8298_Cozinha criativa_índice do manual
UFCD_8298_Cozinha criativa_índice do manual
 
ptoposta curricular de geografia.da educação de jovens a e adultos
ptoposta curricular de geografia.da educação de jovens a e adultosptoposta curricular de geografia.da educação de jovens a e adultos
ptoposta curricular de geografia.da educação de jovens a e adultos
 
Slides Lição 10, CPAD, Desenvolvendo uma Consciência de Santidade, 2Tr24.pptx
Slides Lição 10, CPAD, Desenvolvendo uma Consciência de Santidade, 2Tr24.pptxSlides Lição 10, CPAD, Desenvolvendo uma Consciência de Santidade, 2Tr24.pptx
Slides Lição 10, CPAD, Desenvolvendo uma Consciência de Santidade, 2Tr24.pptx
 
Aproveitando as ferramentas do Tableau para criatividade e produtividade
Aproveitando as ferramentas do Tableau para criatividade e produtividadeAproveitando as ferramentas do Tableau para criatividade e produtividade
Aproveitando as ferramentas do Tableau para criatividade e produtividade
 
BULLYING NÃO É AMOR.pdf LIVRO PARA TRABALHAR COM ALUNOS ATRAVÉS DE PROJETOS...
BULLYING NÃO É AMOR.pdf LIVRO PARA TRABALHAR COM ALUNOS ATRAVÉS DE PROJETOS...BULLYING NÃO É AMOR.pdf LIVRO PARA TRABALHAR COM ALUNOS ATRAVÉS DE PROJETOS...
BULLYING NÃO É AMOR.pdf LIVRO PARA TRABALHAR COM ALUNOS ATRAVÉS DE PROJETOS...
 
Caça-palavras - ortografia S, SS, X, C e Z
Caça-palavras - ortografia  S, SS, X, C e ZCaça-palavras - ortografia  S, SS, X, C e Z
Caça-palavras - ortografia S, SS, X, C e Z
 
O autismo me ensinou - Letícia Butterfield.pdf
O autismo me ensinou - Letícia Butterfield.pdfO autismo me ensinou - Letícia Butterfield.pdf
O autismo me ensinou - Letícia Butterfield.pdf
 
Planejamento anual de Arte.docx-3° ano fundamental
Planejamento anual de Arte.docx-3° ano fundamentalPlanejamento anual de Arte.docx-3° ano fundamental
Planejamento anual de Arte.docx-3° ano fundamental
 
MÁRTIRES DE UGANDA Convertem-se ao Cristianismo - 1885-1887.pptx
MÁRTIRES DE UGANDA Convertem-se ao Cristianismo - 1885-1887.pptxMÁRTIRES DE UGANDA Convertem-se ao Cristianismo - 1885-1887.pptx
MÁRTIRES DE UGANDA Convertem-se ao Cristianismo - 1885-1887.pptx
 
Slides Lição 9, Central Gospel, As Bodas Do Cordeiro, 1Tr24.pptx
Slides Lição 9, Central Gospel, As Bodas Do Cordeiro, 1Tr24.pptxSlides Lição 9, Central Gospel, As Bodas Do Cordeiro, 1Tr24.pptx
Slides Lição 9, Central Gospel, As Bodas Do Cordeiro, 1Tr24.pptx
 
HISTÓRIA DO CEARÁ MOVIMENTOS REVOLUCIONARIOS NO CEARÁ.pptx
HISTÓRIA DO CEARÁ MOVIMENTOS REVOLUCIONARIOS NO CEARÁ.pptxHISTÓRIA DO CEARÁ MOVIMENTOS REVOLUCIONARIOS NO CEARÁ.pptx
HISTÓRIA DO CEARÁ MOVIMENTOS REVOLUCIONARIOS NO CEARÁ.pptx
 

Montagem de Genomas

  • 1. Montagem “de novo” de Genomas Daniel Guariz Pinheiro Laboratório de Bioinformática Departamento de Tecnologia Faculdade de Ciências Agrárias e Veterinárias de Jaboticabal (FCAV) Universidade Estadual Paulista “Júlio de Mesquita Filho” (UNESP)
  • 2. Tópicos • Introdução – Montagem de Sequências – Algoritmos para Montagem de Sequências – Softwares para Montagem • Newbler • Velvet • SPADES • Prática Montagem
  • 3. Genoma • Sequência(s) completa(s) de DNA [cromossomo(s)] de um organismo específico – indivíduo – ou representantes [genoma referência] para uma determinada espécie. – Conjunto de todos os genes
  • 5. Conceito de Gene • 1866 - Conceito clássico em genética - Gregor Mendel • Unidade discreta de herança ("fatores" heredítários); • 1909 - O termo gene foi cunhado - Wilhelm L. Johannsen • Conceito abstrato das unidades de herança ("entidade quasi mítica" [Keller, E.F, 2000]); • 1915 - Teoria acerca dos cromossomos - Thomas Hunt Morgan • Determinado locus em um cromossomo; • 1941 - Conceito "um-gene-uma-enzima" - George W. Beadle e Edward L. Tatum • 1953 - O gene começa a ganhar uma definição ainda mais materialista. • Sequências de nucleotídeos; • 1959 - Conceito "um-gene-um-polipeptídeo" - George W. Beadle e Edward L. Tatum • 1961 - Conceitos de genes estruturais e regulatórios - François Jacob e Jacques Monod • 1977 - Um-gene-múltiplos-produtos - Richard J. Robets e Phillip A. Sharp • 1990 - Composição de domínios no DNA (Modelos da estrutura gênica) - Thomas Fogle; • 1999 - Conceitos de "gene molecular" e "gene evolutivo" - Paul E. Griffiths; Eva M. Neumann-Held; • … • Conceito moderno: Entidade codificada em ácidos polinucléicos a qual ao menos pode ser transcrita [Stephen T. Abedon]. Abstrato Concreto
  • 6. Conceito Simplificado de Gene • Gene é um segmento de DNA que contém informação codificada para a execução de determinada função.
  • 7. Definição operacional de gene (proposta) Gene é a união de sequências genômicas que codificam um conjunto coerente de produtos funcionais que potencialmente possuem regiões sobrepostas. [Gerstein et al., 2007] Segmentos de DNA codificadores de proteínas (ORFs): A B C D E
  • 8. O produto gênico funcional pode ser o RNA e não a proteína • non-coding RNAs tRNAs (tRNA Phe) rRNAs (ribossomo 70S) (1965) snRNAs (U1 spliceosomal RNA) miRNAs (mir-34) scaRNAs (Small Cajal Body Specific RNAs) snoRNAs (small nucleolar RNAs - C/D Box) piRNAs ( Aub/PIWI/RISC complex) ...
  • 9. Aspectos que devem ser considerados • Gene é a união de sequências genômicas que codificam um conjunto coerente de produtos funcionais (que possuem regiões que se sobrepoem considerando a referência genômica) [Gerstein et al., 2007] – Três aspectos devem ser considerados: • Gene é uma sequência genômica que codifica precisamente um produto funcional (RNA ou proteína); • Nos casos onde há muitos produtos funcionais compartillhando regiões sobrepostas, a união de todas as regiões de sequências genômicas sobrepostas que codificam cada produto é um gene; • A união deve ser coerente (RNA/proteína) – porém não requer que todos os produtos necessariamente compartilhem exatamente as mesmas regiões.
  • 10. Dogma Central da Biologia Molecular Crick F. Central dogma of molecular biology. Nature. 1970 Aug 8;227(5258):561-3. PubMed PMID: 4913914. [Crick, F. , 1970] transcrição FLUXO DA INFORMAÇÃO GÊNICA tradução replicação casos especiais
  • 12. Genômica • Estudo do(s) genomas usando métodos de montagem de sequências, que exigem obtenção de dados em larga-escala. – Comparações de genomas entre espécies permitem a identificação de genes com relação de ancestralidade (ortólogos); – Comparações de genomas entre indivíduos de uma mesma espécie permitem a identificação de polimorfismos genéticos (SNPs, InDels e variações estruturais – translocações, deleções e amplificações);
  • 13. Genômica Estrutural / Funcional • A Genômica Estrutural estuda a organização e estrutura dos genes. • A Genômica Funcional utiliza os dados produzidos pelas análises genômicas para descrever funções e interações dos genes e das proteínas. – O foco da genômica funcional é compreender as funções do DNA através dos genes, da transcrição, da tradução, e das interações proteína-proteína. • As técnicas mais usadas nessa área são as análises de expressão gênica utilizando técnica de RNA-Seq
  • 14. TECNOLOGIAS DE SEQUENCIAMENTO E NOVA GERAÇÃO DNA Sequencing
  • 15. DNA: o código da vida • Biblioteca de Informações Gênicas
  • 16. Necessidade de decodificar... • Decodificar – Definição: Traduzir em linguagem clara uma informação codificada • Informação biológica – codificada em uma macromolécula (combinação de moléculas: Adeninas, Guaninas, Citosinas e Timinas)
  • 17. Para iniciar o processo de decodificação... • ... é necessário primeiramente ler o código GGTTAGTTTTCC..
  • 18. Primeiros passos... • Primeiros Métodos de Sequenciamento • Baseados em eletroforese WalterGilbert FrederickSanger Prêmio Nobel em Química - 1980 Método Químico Tratamento químico para degradar o DNA em nucleotídeos específicos para posterior leitura [Maxam e Gilbert, 1977] Método Enzimático Baseado na síntese enzimática de uma fita complementar interrompida pela incorporação de um didesoxinucleotídeo (terminação da cadeia) para posterior leitura [Sanger et al., 1977] Prêmio Nobel em Química – 1958 Prêmio Nobel em Química – 1980
  • 20. Primeiro Genoma Sequenciado - RNA (bacteriófago MS2) - 1976 • MS2 – Vírus icosaédrico – Fita simples RNA • Infecta Escherichia coli e outros membros da família Enterobacteriaceae.
  • 21. O primeiro genoma de DNA !!! Phi X 174 genoma circular 5.386 nucleotídeos ...será que podemos sequenciar um organismo mais complexo com genoma maior com muitos cromossomos? PRECISA SER OTIMIZADO E AUTOMATIZADO!
  • 22. Sequenciador semi-automático • Sequenciador semi-automático – Desenvolvido – Leroy Hood, 1986 – Comercializado – Applied Byosystems Sequenciador automático Ampliação da capacidade - várias reações ao mesmo tempo) Eletroforese capilar Eletroforese em géis capilares ultra-finos
  • 23. Primeiro protótipo de sequenciador semi-automático http://lifesciencesfoundation.org/events-Automated_DNA_sequencing.html
  • 24. Protótipo de sequenciador automático comercial ABI 370 (1987) http://www.sciencemuseum.org.uk
  • 25. ABI3730xl • Ano de lançamento 2002
  • 26. Sequenciamento do genoma de um único indivíduo John Craig Venter
  • 27. Crescimento do número de dados de sequências biológicas 1982 606 seqüências 2.427 bases 2008 98.868.465 seqüências 99.116.431.942 bases Genbank: banco de dados público de coleções de sequências biológicas anotadas do NIH (National Institute of Health)
  • 28. Marcos do sequenciamento Iniciativa pública Projeto Genoma Humano Publicação do rascunho do Genoma Humano 1990 2001 2000 Genoma bactéria Xylella fastidiosa 1997 Organization for Nucleotide Sequencing and Analysis 19991996 Cancer Genome Anatomy Project 1988 National Center for Biotechnology Information ... 2003 Conclusão do Projeto Genoma Humano 1977 Sequenciamento de DNA Método de Sanger 1987 Sequenciamento de DNA automático PGHC: Iniciativa brasileira de sequenciamento de cDNA tumores Genoma diploide de um indivíduo 2005, 2006, 2007 ... Next-Generation Sequencing 2007 1000 Genomes Project 2010
  • 29. Projeto Genoma Humano • The International Human Genome Sequencing Consortium • 13 anos (1990-2003) • U$3.000.000.000,00 • Avanços imediatos proporcionados • Identificação de milhares de genes; • Alguns deles relacionados a doenças; • Desenvolvimento de produtos biotecnológicos e fármacos resultantes deste conhecimento; • Desenvolvimentos de ferramentas para análise genômica, inclusive de outras espécies de interesse biomédico e econômico; • Promoveu discussões éticas, legais e implicações sociais em torno do assunto; Atualmente é a principal base de conhecimento do genoma, utilizada como referência para diversos estudos;
  • 30. Publicações (rascunho do genoma) CraigVenter FrancisCollins Iniciativa privada Iniciativa pública Atualizações constantes Dez. 2013 Versão GRCh38 (hg38)
  • 31. Nova Geração de Sequenciadores de DNA Roche (454) Illumina GA ABI SOLiDABI 3730xl ABI 3730xl Roche (454) Illumina GA ABI SOLiD Método Sequenciamento por ddNTP Pirosequenciamento Sequenciamento por Síntese Seqüenciamento por Ligação Ano de lançamento 2002 2005 2006 2007 AdaptedfromRichardWilson,SchoolofMedicine,WashingtonUniversity,“Sequencingthe CancerGenome” - Aumento da quantidade de dados por corrida (kilobases a gigabases); - Redução do tamanho das sequências (~700 bases Sanger para até 2x300 bases (paired-end) no caso de Illumina nas versões mais recentes -MiSeq, no caso do 454 o tamanho é em média de 400 bases, e no caso de SOLiD o tamanho máximo é de 75 bases); -Redução do tempo (escala de dias para horas); -Redução do custo por base sequenciada;
  • 32. Novas Gerações de Sequenciadores 3ª Geração (single molecule) Single Molecule Real Time – SMRT (Pacific Bioscience) HeliScope (Helicos Bioscience) 454 (Roche) 2ª Geração (amplificação clonal) SOLiD (Life Technologies) HiSeq2000, HiSeq2500, MiSeq Illumina Ion Torrent- PGM, Proton (Life Technologies) GridION-Oxford Nanopore 4ª Geração (Post-Light) 1ª Geração (clonagem) Sanger
  • 33.
  • 34. MÉTODOS PARA MONTAGEM DE SEQUÊNCIAS GENÔMICAS Introdução
  • 35. Por quê montar? • Obtenção de uma nova referência; • Obter genes inteiros: – Aumentar a capacidade de encontrar correspondências mais verossímeis através das buscas por similaridade de sequências para então obter boas inferências de homologia (identificação de ortólogos); – Aumento do sinal filogenético • Essencialmente uma dependência para todo sistema de anotação funcional; • Identificação de longas regiões variáveis, como por exemplo, ilhas de patogenicidade; • Descoberta de operons (co-incidência de genes); • Discriminação de membros de famílias gênicas; • Análise de sintenia; • …
  • 37. Há alguma referência? • Resequenciamento – Existem sequências produzidas a partir de um genoma da mesma espécie da amostra ou de uma espécie relacionada que podem ser usadas como referências para a montagem (assembly) das sequências alvo. Envolve um processo de alinhamento com a(s) referência(s) e análise desse alinhamento para a reconstrução das sequências. • Sequenciamento "de novo" – Não há sequências que podem ser usadas como referências. Este tipo de sequenciamento exigirá uma montagem (assembly) das sequências utilizando apenas os dados obtidos desse sequenciamento. Envolve um processo de alinhamento entre as sequências geradas, que permitirá obter sequências consensos, os alinhamentos são analisados para a reconstrução das sequências.
  • 38. Alinhamento de Sequências Em Bioinformática, alinhamento de sequências é uma forma de dispor as sequências de DNA, RNA, ou proteínas para identificar regiões de similaridade que podem ser consequência de relacionamentos funcionais, estruturais ou relações evolutivas entre elas.
  • 39. Significado Biológico do Alinhamento de Sequências • Definição de 3 termos importantes: – identidade: refere-se à fração de aminoácidos ou nucleotídeos idênticos entre pares de sequências após um alinhamento dessas sequências; – similaridade: refere-se à fração de aminoácidos ou nucleotídeos similares (por exemplo, com propriedades físico- químicas semelhantes) entre pares de sequências após um alinhamento dessas sequências; – homologia: representa uma relação evolutiva entre as sequências; • Homólogos – Parálogos; – Ortólogos;
  • 40. Estratégias de Sequenciamento visando a reconstrução da sequência genômica a) Shotgun sequencing b) Hierarchical sequencing
  • 43. Mapeamento de leituras e Montagem “de novo” [Haas and Zody, Nature Biotechnology 28, 421–423 (2010)]
  • 44. Identificação das sequências • Resequenciamento – Alinhamento: Conjunto de Sequências X Sequências Referências (Ex.: Genoma) >seq1 TGACAGATACAGAAAGATACAGTACATAGaCAG >seq2 AAATCTTAGAGTGTCCCATCTGTCTGGAGTTGA >seq3 CGATACAAGTAGGTTACAGTACAAAGTACAGTA >seq4 CCGTACCACCACCTAGACCTGTACATGGTCAGT ... >chrX ... GGGGTTTCTCAGATAACTGGGCCCCT GCGCTCAGGAGGCCTTCACCCTCTGC TCTGGGTAAAGTTCATTGGAACAGAA AGAAATGGATTTATCTGCTCTTCGCG TTGAAGAAGTACAAAATGTCATTAAT GCTATGCAGAAAATCTTAGAGTGTCC CATCTGTCTGGAGTTGATCAAGGAAC ... Objetivos: - Eliminar as sequência sem identidade - Eliminar as sequência com múltiplas identidades (ambiguous) - Encontrar as sequência com identidade única (unambiguous) em relação a elementos previamente mapeados (transcritos); Human genome reference hg19Sequencing Result MATCH
  • 45. Montagem “de novo” de sequências • Sequenciamento “de novo” – Alinhamentos múltiplos de sequências de leituras (evidências experimentais) • Montagem de fragmentos de sequências genômicas originais através de um consenso CTGTTATGGGCAACCCTAAGGTGAAGGCTCATGGCAAGAAAGTGCTCGGTGCCTTTAGTGATGGCCTGGCTCACCTGTGGAC ATGGGCAACCCTAAGGTGAAGGCT TGCTCGGTGCCTTTAGTGATGGCCTGGCTCACCTGTG TAAATGGGCAACCCTAAG GCCGGCAACCCGAAGGTG CCTAAGGTGAAGGCTAGC GTTTGCTCGGTGCCTTTA GTGCCTTTAGTGATGAAA GATGGCCTGGCTCACAGC GCCCCTGGCTCACCTGTG Original: Consensus : Read 1 Read 2 Read 3 Read 4 Read 5 Read 6 Read 7 [Blanca, J. COMAV Institute] Original: Consensus : Leitura 1 Leitura 2 Leitura 3 Leitura 4 Leitura 5 Leitura 6 Leitura 7 Leitura 8 Leitura 9 Leitura 10 Leitura 11 ACCCTAAGGTGAAGG CCGAAGGTGAAGGCT GGCAACCCTAAGGTG GCAACCCGAAGGTGA ATGGGCAACCCGAAGGTGAAGGCT
  • 46. MONTAGEM "DE NOVO" DE SEQUÊNCIAS Introdução
  • 49. MONTAGEM DE SEQUÊNCIAS DE DNA: CONCEITOS E DEFINIÇÕES Introdução
  • 50. Montagem • Definição – É uma estrutura hierárquica que mapeia os dados de sequências de fragmentos para uma reconstrução aproximada do alvo (neste caso transcritos) em sua forma original; – A montagem agrupa leituras em contigs e contigs em scaffolds (supercontigs); • leituras (reads) => contigs => scaffolds
  • 51. Montagem de sequências consenso (contigs)
  • 52. Gap Terminologia e Conceitos Básicos (I) • contig – alinhamento múltiplo de leituras de onde é extraída uma sequência consenso (termos derivados: unitig - contig de alta confiabilidade; isotig - contig que representa uma isoforma de transcrito); • scaffold – definem a ordem e orientação dos contigs além do tamanho dos gaps entre os contigs; • singlets – leituras não agrupadas em um contig; • gap – espaço entre dois contigs, onde não se conhece a sequência;
  • 53. Terminologia e Conceitos Básicos (II) • Cobertura (coverage) – fold coverage – Total de bases sequenciadas [N * L] dividido pelo tamanho da região de interesse (e.g. genoma) [G] • (N * L)/G – N = Número de leituras – L = Tamanho da leitura – G = Tamanho da região de interesse • Exemplo – Tamanho do Genoma (G): 1 Mbp – Quantidade de leituras (N): 5 milhões de reads – Tamanho das leituras (L): 50 bp » Cobertura = (5.000.000 * 50) / 1.000.000 = 25X – Na prática, corresponde a quantas vezes, em média, cada base do alvo (genoma) foi sequenciada;
  • 54. Terminologia e Conceitos Básicos (III) • Cobertura necessária em projetos de sequenciamento de genomas: – Resequenciamento: • Sanger (Leituras de ~800bp): C. Venter (3Gb ~7.5x) – [Levy et al., 2007] • Roche 454 (Leituras de ~400bp): J. Watson (3Gb ~7.4x) – [Wheeler et al., 2008] – Sequenciamento “de novo”: • Illumina (Leituras de 52pb): Panda (Ailuropoda melanoleura) (2,4Gb ~56x) – [Li et al., 2010]
  • 55. Como estimar os parâmetros de sequenciamento? Estimar parâmetros (número esperado de contigs, tamanho dos contigs) [Lander e Waterman, 1988] Considerações: Amostragem equivalente a um processo de Poisson; Assume que as leituras serão amostradas aleatoriamente no genoma; L = tamanho das leituras T = mínimo de sobreposição entre as leituras G = tamanho do genoma N = número de leituras c = cobertura = (N*L/G) σ = 1 –(T/L) e = 2,718 E(número de contigs) = Ne(-c*σ) E(tamanho dos contigs) = L*( ((e(c*σ)–1)/c) + (1–σ) ) Modelo Lander-Waterman
  • 56. Cobertura - Simulação Genoma 1Mb * quanto maior a cobertura menos contigs são produzidos porém maiores; • Número esperado de contigs em relação à cobertura Modelo Lander-Waterman Simulação número de contigs x cobertura
  • 57. Illumina - Estimação de parâmetros com Modelo Lander-Waterman • http://www.illumina.com/CoverageCalculator Perform the following steps to run the calculator: 1. Click on the tab to choose your instrument (HiSeq/GAIIx/HiScanSQ/MiSeq). 2. Enter numbers: • Target genome or region size, for example, input 3000000000 (3 Gb) for human genome; • Coverage you want; • Total number of cycles. For example, if you want to perform 100 bp paired-end runs (2×100), enter 200. 3. Read out the total output required, output per lane, and number of lanes you need to use for the desired coverage. http://www.illumina.com/documents/products/technotes/technote_coverage_calculation.pdf
  • 58. Será que o modelo se aplica aos dados de NGS? • Genoma do Panda (Ailuropoda melanoleura) – Tamanho do genoma 2,4 Gb C = (N*L)/G C = 8x G = 2.400.000.000 (2,4Gb) L = 52 pb [Li R et al., 2010] 8 = (N*52)/2400000000 52*N = 8*2400000000 N=19200000000/52 N=369.230.769 37 bibliotecas do tipo paired-end e mate-pair (150 bp, 500 bp, 2 kbp, 5 kbp, and 10 kbp) Média de tamanho de 52 pb 218 lanes Illumina Genome Analyzer (17 lanes descartadas por baixa qualidade) 3.379.000.000 de reads (96% cobertura do genoma) 176 Gb (73×) de cobertura – fold coverage (reads utilizáveis) 134 Gb (56×) de cobertura – fold coverage (reads de alta qualidade)
  • 59. Leituras pequenas exigem maior quantidade para ter um resultado comparável Exemplos de montagens com a mesma entrada (270 bp sequenciadas = mesma “cobertura” = C) e mesmo parâmetro de sobreposição: 20 bp Assembly 1 (incompleta) E(número de contigs) = Ne(-c*σ) Para aumentar o valor de C é necessário aumentar o número de reads ou o tamanho das reads, ou seja, o número de bases sequenciadas
  • 60. Maior dificuldade em atravessar repetições Quanto maior a sequência, maior a capacidade de atravessar as regiões repetitivas no genoma (encontrar uma região específica onde possa ancorar e resolver a ambiguidade).
  • 61. Cobertura – nova geração de sequenciadores • Tamanho esperado de contigs em relação à cobertura Panda e Cachorro genomas de ~2,4Gb[Schatz et al., 2010] Discrepância grande entre o predito (Modelo LW) e o observado (média e N50) Resultado de um modelo simplificado, que não leva em consideração: - leituras curtas e genomas repetitivos; - qualidade das leituras; - sequenciamento não uniforme -vieses (ex.: conteúdo de GC); - ...
  • 62. Importância do tamanho das leituras [Whiteford et al., 2005] Contigs > que o tamanho indicado no gráfico.  200000 = ~35% genoma de E. coli Leituras de tamanho 200
  • 63. Tamanho do Genoma • Quantidade total de DNA contido dentro de um genoma (cópia única – genoma haplóide). – Valor C [ C-value ] • Massa – Picograma (trilionésimo [10-12] de grama - pg) • Número total de nucleotídeos em pares de base (pb) – 1 pg = 978 pb
  • 65. Resumo: Montagem "de novo" • Reconstrução da sequência (genoma) em sua forma original, sem a consulta de sequências previamente resolvidas de genomas, transcritos e proteínas. • A montagem é possível quando o alvo é excessivamente amostrado com leituras "shotgun" que se sobrepõem. • Montagem de novo de dados de Next-Generation Sequencing (NGS) – Levar em consideração: • tamanho das leituras (menos informação por leitura) – necessidade de maior cobertura – aumento da complexidade; • grande volume de dados – necessidade de algoritmos que utilizem de forma racional e eficiente os recursos computacionais (CPU/RAM);
  • 66. Avaliação da Montagem Tamanho| Contiguidade Completude | Plenitude| Integralidade Exatidão| Acurácia
  • 67. Tamanho e contiguidade – Tamanhos das sequências obtidas: • tamanho máximo; • tamanho médio ou mediano; • tamanho total combinado; – Contiguidade • N50 (tamanho do menor contig no conjunto dos maiores contigs que combinados representam 50% da montagem) – contiguity; – Valores muito altos podem representar erros na montagem e valores muito pequenos podem representar montagem incompleta; • L50 (número de contigs maiores que o N50)
  • 68. Tamanho e Contiguidade • Objetivo – Poucos contigs porém longos • Métricas – Tamanho • Número de contigs; • Média ou mediana de tamanho dos contigs; • Tamanho total combinado; • Tamanho de contigs acima de 10 kbp, 100 kbp, etc.; – Contiguidade • N50 (tamanho do menor contig no conjunto dos maiores contigs que combinados representam 50% da montagem) – contiguity; – Valores muito altos podem representar erros na montagem e valores muito pequenos podem representar montagem incompleta; • L50 (número de contigs maiores que o N50) • Etc.
  • 69. N = tamanho ? L = quantidade ? “(…)We used a statistic called the ‘N50 length’, defined as the largest length L such that 50% of all nucleotides are contained in contigs of size at least L. (…)” http://www.acgt.me/blog/2015/6/11/l50-vs-n50-thats-another-fine-mess-that- bioinformatics-got-us-into [International Human Genome Sequencing Consortium Lander et al., 2001]
  • 70. N50 • https://www.broad.harvard.edu/crd/wiki/index.php/N50 • N50 - representação do tamanho médio (mediana ponderada) de um conjunto de sequências; • Dado um conjunto de sequências de tamanhos variáveis; – N50 = indica que as sequências com tamanho l < N50 representam (somadas as bases) 50% (bases) de toda a montagem; – L = {2,2,2,3,3,4,8,8} – Método para calcular • Exemplo acima: – tamanho combinado 32 – L' = {2,2,2,2,2,2,3,3,3,3,3,3,4,4,4,4,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8} – 6 x (2); 6 x (3); 4 x (4); 16 x (8) – N50(L) = mediana(L') = 6 50% < N50(L) = 6
  • 71. N50 Indicador de contiguidade, O valor de N50 representa que metade da montagem possui tamanho menor que esse valor enquanto a outra metade possui tamanho maior que esse valor. L50 é o menor número de contigs cuja soma dos tamanhos representa metade da montagem (Exemplo acima: 5) https://www.molecularecologist.com/2017/03/whats-n50/
  • 72. assemblathon2-analysis • This repo contains a motley assortment of unpublished scripts and commands used by Ian Korf, Keith Bradnam, and Joe Fass in the analysis of Assemblathon 2 competition entries (assemblies). • https://github.com/ucdavis- bioinformatics/assemblathon2-analysis – assemblathon_stats.pl • used to calculate many of the basic contig- and scaffold-level statistics (requires FAlite.pm)
  • 74. Uma outra métrica… • NG50 [Considera o tamanho estimado do genoma para definir o que está acima de 50%] http://www.molecularecologist.com/2017/04/a-solution-to-the-n50-filtering-problem/ NG50 = o cálculo do N50 é realizado com o valor estimado do tamanho do genoma. Neste caso 500 kbp e não com o tamanho da montagem 400 kbp.
  • 75. outra métrica… • NA50 – N50 para o conjunto de blocos alinhados (ao invés do conjunto inicial de contigs) • Dessa forma, se alguns dos contigs falham em alinhar,a métrica NA50 ainda é computada com respeito aos 50% da montage total (incluindo os contigs que alinharam e não alinharam) Necessita haver uma sequência referência onde os blocos podem alinhar https://www.molecularecologist.com/2017/04/a-solution-to-the-n50-misassembly-problem/ [Considera o tamanho da montagem para os 50%]
  • 76. NGA50 • NG50 + NA50 – Considera somente os blocos alinhados na referência, porém, diferente do NA50, considera o tamanho da referência em que os contigs alinham e não o tamanho da montagem com todos os contigs iniciais (mesmo os que não alinham). https://www.molecularecologist.com/2017/04/a-solution-to-the-n50-misassembly-problem/
  • 77. QUAST
  • 78.
  • 80. Exatidão ou Acurácia • Avaliação de erros na montagem Alinhamento das leituras (reads) x Montagem e avaliação da consistência do alinhamento Exemplos de inconsistências: - Inserções, deleções ou substituições causadas pelo montador; - União de sequências não contíguas (quimeras); - Compressão de repetições ou duplicações desnecessárias; - etc.
  • 82. Informação de pareamento e marcadores genéticos
  • 84. Acurácia dos contigs • Medidas de satisfação e violações de restrições de montagem – e.g. sequências sobrepostas no contig devem ter concordância entre si (poucas variações e variações concordantes); – e.g. sequências em pares das extremidades (paired-ends) devem ser consistentes com tamanho do fragmento e orientação; • Se referências existem podem ser utilizadas para este propósito; – Comparações com proteomas de espécies próximas também podem ser úteis para avaliação da montagem; • Cobertura no alinhamento das reads X contigs
  • 85. QUAST • MISASSEMBLIES – No. of misassemblies: • Número de erros, usando definição de Plantagora [Barthelson et al., 2011] – misassembly breakpoint : posição no contig onde a sequência no flanco esquerdo com relação à sequência no flanco direito neste alinhamento com a referência » alinha acima de 1kb de distância; » sobrepõem acima 1 Kb; » alinha em fitas opostas; » alinha em diferentes cromossomos; – No. of misassembled contigs: • Número de contigs que contêm misassembly breakpoints. – Misassembled contigs length: • Número de bases em todos os contigs com um ou mais misassemblies. – No. of unaligned contigs: • Número de contigs que não têm alinhamento com a sequência referência. – No. of ambiguously mapped contigs: • Número de contigs que têm bom mapeamento (altos escores e idênticos) em múltiplos locais no genoma. QUAST também provê relatório com detalhamento dos contigs que estão em cada categoria.
  • 86. REAPR “We have validated REAPR on complete genomes or de novo assemblies from bacteria, malaria and Caenorhabditis elegans, and demonstrate that 86% and 82% of the human and mouse reference genomes are error-free, respectively.”
  • 88. Staphylococcus aureus Montagem com Velvet (Circos plot) a) Cores representam mapeamentos - Vermelho (pares corretos) - Verde (órfãs) - Azul (pares com leituras muito próximas ou distantes) b) Muitas repetições
  • 89. Completude … ou Integralidade Proporção do genoma original representado pela montagem Baseado na estimativa de tamanho do genoma Baseado na proporção de genes montados que fazem parte do conjunto de genes considerados essenciais ( core genes ) para um grupo de organismos.
  • 90. Avaliação mais acurada que as métricas baseadas em tamanho
  • 91. BUSCO • Benchmarking Universal Single- Copy Orthologs • CEGMA (Core Eukaryotic Genes Mapping Approach) – Identificação de genes ortólogos conservados (core genes – genes essenciais) em centenas de espécies eucarióticas • Mende D.R. et al. . (2013) Accurate and universal delineation of prokaryotic species. Nat. Methods , 10, 881–884.
  • 92. BUSCO
  • 93. Generalizado e cópia simples Dissecting the Drosophila melanogaster gene set by orthologous group universality and duplicability highlights how the largest fractions of genes are preserved as single-copy orthologues across all 80 insects or specific to the 12 drosophilids. Orthologous groups with 80 insect species from OrthoDB: universality, from widespread to specific or sparse species representation; duplicability, from mostly single-copy to mostly multi-copy orthologue counts. [https://doi.org/10.1016/j.cois.2015.01.004]
  • 94. BUSCO
  • 96. gVolante • https://gvolante.riken.jp/ Comparação com avaliações [CEGMA, CVG, BUSCO] de genomas pré-computadas. [https://doi.org/10.1093/bioinformatics/btx445]
  • 102. Novo genoma = Nova espécie? • Taxonomia molecular – DNA-DNA Hybridization
  • 103. Average Nucleotide Identity (ANI) • Nova espécie abaixo de 95% ANI – 70% DDH (limiar recomendado)
  • 104. FastANI • Fast Whole-Genome Similarity (ANI) Estimation
  • 105. DESAFIOS NO PROCESSO DE MONTAGEM Introdução
  • 106. Desafios (1) • Contaminates ambientais nas amostras (e.g. Bactérias, Fungos, Virus, …); • Artefatos gerados durante as etapas (e.g. PCR) do sequenciamento (e.g. Quimeras e mutações); • Poliploidia e heterozigoze (Polimorfismos), Mutações; • Erros de sequenciamento – e.g. Roche 454 e ION - erros de homopolímeros (3 ou mais bases consecutivas); • Vieses – composição: frequência de nucleotídeos (conteúdo de GC); – posicional: sequenciamento não uniforme do transcrito (degradação); • Presença de moléculas adaptadores
  • 107. Viés na composição [Hansenetal.,2010] Mapeamento genômico DOI: 10.1093/nar/gkq224 [Hansen et al., 2010]
  • 108. Viés no conteúdo de GC (1) Sequenciamento do Panda Gigante (Ailuropoda melanoleuca) [Li R et al., 2010] [Li R et al., 2010] % GENOMA MONTADO x CONTEÚDO G+C QUANTIDADE DE LEITURAS x CONTEÚDO G+C
  • 109. A tecnologia de sequenciamento e viés no conteúdo GC As tecnologias de sequenciamento possuem um viés com relação ao conteúdo de GC no resultado do sequenciamento, nas leituras obtidas.
  • 110. Viés no conteúdo de GC nas plataformas NGS [Quail et al., 2012]Viés: Illumina livre de amplificação [Kozarewa I, et al., 2009] (menor o viés) / PGM (maior o viés) Genoma protozoário Plasmodium falciparum (19,4%GC)
  • 111. Erros inerentes às plataformas de sequenciamento [Fox et al., 2014] doi:10.4172/jngsa.1000106
  • 112. Sequenciamento de Homopolímeros na plataforma 454/Ion Torrent 0 1 2 3 4 5 6 1 2 3 4 5 6 7 8 9 A C T G T C A G A ?c GG - AAAAA ?a key sequence (TCAG) – Calibragem do sinal 454 Eixo Y Sinal Intensidade de Fluorescência (454) ou de alteração no pH (Ion Torrrent). Eixo X Ciclos de infusão ordenada de nucleotídeos (A, C, T e G) ACTG ACTG ACTG ACTG ACTG ACTG ACTG ACTG ACTG
  • 113. Erros no Sequenciamento de Homopolímeros na plataforma 454 Linearidade mantida até homopolímeros de tamanho 8 nt Distribuição dos erros em homopolímeros [Margulies M, et al. , 2006] [Margulies M, et al. , 2006] Dentre os erros até 6-mers: Inserções (azul) Deleções (vermelho)
  • 114. Desafios (2) Regiões de baixa complexidade são as mais difíceis de serem montadas! • Repetições (sequências repetitivas no transcritoma torna a montagem mais difícil); – Necessidade de "spanners" – leituras que atravessam uma região de repetição e que possuem suficientes regiões únicas em ambos os lados; • Utilização de leituras paired-ends/mate-pairs e suas propriedades de tamanho e orientação, estando um dos pares ancorado em uma região única;
  • 115. Terminologia e Conceitos Básicos (IV) • Conceito de "k-mers" – Subsequências de tamanho k • Em uma sequência de tamanho (L) há (L-k+1) k-mers; • Exemplo: sequência de tamanho L=8 tem 5 k-mers com k=4 ACGTACGA ACGT CGTA GTAC TACG ACGA 1 2 3 4 5 monomers
  • 116. k-mers Uniqueness ratio k-mers uniqueness ratio – número de k-mers distintas que ocorrem uma única vez no genoma número total de k-mers distintas que ocorrem no genoma [Schatz et al., 2010] Trichomonas vaginalis Exige um tamanho maior de k-mer para alcançar a unicidade
  • 117. Problemas recorrentes causados por repetições
  • 118. Rochas, pedras e pedregulhos [http://www.genomenewsnetwork.org/articles/03_00/assemble_genome_3_24.shtml] paired-end/mate-pair Classificação desses fragmentos nos montadores: mais confiáveis (Rochas) aos menos confiáveis (Pedregulhos)
  • 119. ALGORITMOS PARA MONTAGEM DE SEQUÊNCIAS Introdução
  • 120. Algoritmos para montagem • Três categorias (baseadas em grafos) – Overlap/Layout/Consensus (OLC) • grafo de sobreposições; – de Bruijn Graphs (DBG) • grafo de sobreposição de sufixo-prefixo de k-mers; – Greedy graphs • estrutura implícita de grafos de sobreposições;
  • 121. Grafo • Não ! Isto é um Gráfico !!!
  • 122. Grafo Grafo é uma estrutura G(V, A) onde V é um conjunto não vazio de objetos denominados nós ou vértices (nodes/vertices) e A é um conjunto de pares não ordenados de V, chamado arestas ou arcos (edges/arcs). Nós (vértices): V = {U, V, W, X, Y, Z} Arestas (arcos): A = {a, b, c, d, e, f, g, h, i, j} Representação simplificada de um grafo
  • 123. Grafo (1) • Grafo é uma estrutura abstrata, pode ser representada por uma rede de nós conectados por arcos • Königsberg (Kaliningrad, Russia) – Século 18 • Problema proposto: Cruzar as sete pontes numa caminhada contínua sem passar duas vezes por qualquer uma delas. • Caminho euleriano: passar por todas as arestas (pontes) uma única vez. • Solução: não há (nós possuem valência – ou grau – ímpar) Regiões de Königsberg = nós ou vértices Pontes = arcos ou arestas[Compeau, Pevzner & Tesler, 2011]
  • 124. Grafo (2) • O Problema do Caixeiro Viajante – determinar a menor rota para percorrer uma série de cidades (visitando uma única vez cada uma delas), retornando à cidade de origem. – Meados de 1800 • William Rowan Hamilton e Thomas Penyngton Kerkman Caminho hamiltoniano: passar por todas os nós (cidades) uma única vez.
  • 125. Overlap-Layout-Consensus (OLC) • 1º detecção de sobreposição; – Alinhamento pareado entre todas as leituras – identificação dos pares com melhor match (alinhamento global/local + heurísticas [e.g. seed & extend]); • 2º layout dos fragmentos (montagem do contig); – Construção e manipulação do grafo de sobreposição (Analisar/Simplificar/Limpar); – Caminho Hamiltoniano; • 3º decisão da sequência (montagem do consenso); – Alinhamento Múltiplo de Sequências (Layout obtido percorrendo o(s) caminho(s) mais provável(l/is) – maior suporte); – Obtenção da sequência consenso (Normalmente a frequência de um nucleotídeo em determinada posição determina a base consenso;)
  • 126. Grafo de sobreposição para OLC Caminho Hamiltoniano – caminho (elementar) que permite passar uma única vez por todos os nós do grafo – contig; Grafo de sobreposição: nós - leituras; arestas - sobreposições; sobreposições não consideradas – caminhos alternativos
  • 127. Softwares montadores (OLC) • Utilizam o paradigma OLC: – Phrap (http://www.phrap.org/) • genoma, cDNA • Sanger, 454 • (Green, P., 1994 - unpublished) – CAP3 (http://seq.cs.iastate.edu/) • genoma, cDNA • Sanger, 454 • (Huang, X. and Madan, A., 1999) – MIRA (http://sourceforge.net/projects/mira-assembler/) • genoma, cDNA • Sanger, 454, Illumina, Ion Torrent, PacBio, SOLiD (convertido para bases) • (Chevreux, B. et al., 1999) (Chevreux, B. et al., 2004) – Newbler (https://valicertext.roche.com/) • genoma, cDNA • Sanger, 454, Illumina, Ion Torrent, PacBio, SOLiD (convertido para bases) • Software Proprietário da Roche
  • 128. Greedy Graphs • A partir de múltiplos alinhamentos pareados entre todas as leituras; • Operação básica: dada alguma leitura ou contig, adiciona uma ou mais leituras ou contigs (mais similares uns aos outros) de forma progressiva até que não haja mais operações possíveis; • Estrutura implícita de grafo, em que somente são consideradas as arestas (alinhamentos) com alto score (define o caminho); • O algoritmo deve incorporar mecanismos para lidar com sobreposições falsas. – Sobreposições de regiões repetitivas podem ter score alto e levar a erros na montagem. I - reads 1 e 2 (score 200) II - reads 3 e 4 (score 150) III - reads 2 e 3 (score 50) 1 2 3 4 Consenso a partir das sobreposições
  • 129. Softwares montadores (Greedy) • Baseados em grafos do tipo Greedy: – SSAKE (http://www.bcgsc.ca/platform/bioinfo/software/ssake) • genoma • Illumina • (Warren, R.L. et al., 2007) – SHARCGS (http://sharcgs.molgen.mpg.de/) • genoma • Illumina • (Dohm, J.C. et al., 2007) – VCAKE (http://sourceforge.net/projects/vcake/) • genoma • Illumina • (Jeck, W.R. et al., 2007)
  • 130. Grafos de Bruijn • Sequência De Bruijn: – Sequência cíclica S de um alfabeto (por exemplo A={0,1}), de onde são derivadas subsequências de tamanho k, consecutivas e que aparecem exatamente uma única vez, percorrendo um caminho Euleriano em um grafo dessas subsequências conectadas. Nicolaas Govert de BruijnIrving John Good {0,0} {0,1} {1,0} {1,1} 1946
  • 131. Exemplo de grafo de Bruijn Alfabeto (A={0,1})
  • 132. K-mers • Subsequências de tamanho k Subsequências de tamanho K=7 Grafo de sobreposição de k-mers sufixo (k-1) = prefix (k-1)
  • 133. Grafos de-Bruijn • Grafos de k-mers – nós – todas as subsequências de tamanho k (ex. abaixo K=4); – arestas – todas as sobreposições (k-1 bases) entre essas subsequências que são consecutivas na sequência original; AACCGG k-mer = 4 AACC ACCG CCGG CCGGTT k-mer = 4 CCGG CGGT GGTT Exemplo: k= 4 => arestas representam as sobreposição de k-1 (3) bases
  • 134. Grafos: Overlap Layout Consensus e de Bruijn
  • 135. K-mers como nós • No grafo ao lado, TODAS as sobreposições entre os k- mers extraídos foram consideradas, dessa forma, há arcos que ligam k-mers, porém sem suporte nas leituras – Por exemplo: • Não há leituras que possuem a subsequência “ATGC” sendo assim a aresta que liga os k- mers “ATG” com “TGC” não tem suporte
  • 136. K-mers como nós e somente as arestas com suporte AAT ATG TGG GGC GCG TGC CGT GCA GTG CAA AT TG GG GC CG GT AA TG CA GC Nós = k-mers Arestas = sobreçosições Nós = sobreposições Arestas = k-mers
  • 137. Estratégia utilizando grafos de-Bruijn [Schatz M C et al. Genome Res. 2010;20:1165-1173] Grafo de k-mers (subsequências de tamanho k = 3) e sobreposições de tamanho k-1 (3-1=2) Grafo de Reads e suas sobreposições
  • 138. Características dos grafos k-mers • Em geral – A montagem é um problema de redução de grafos. • NP-difíceis, não há uma solução determinística eficiente (tempo polinomial) conhecida para encontrar o caminho exato (pode nem ser possível); • Utilização de heurísticas: reduzir a redundância, reparar erros, reduzir a complexidade, alargar caminhos simples e simplificar o grafo; • Vantagens – Desenvolvidos para lidar com a alta complexidade e o grande volume de dados dos NGS; – Rápida detecção de k-mers compartilhados - reduz custo computacional em relação à busca de sobreposições em alinhamentos pareados; • Não necessita comparações pareadas (todas x todas); • Desvantagens – Usam muita memória (tabela hash k-mers); – Mais sensível a repetições e a erros de sequenciamento; – Baixa sensibilidade (pode perder algumas sobreposições verdadeiras), dependendo: • tamanho de k – tamanho da sobreposição • taxa de erro nas leituras (criam vértices e arestas no grafo aumentando a complexidade) • Repetições (aumentam exponencialmente o número de caminhos no grafo)
  • 139. Tamanho das leituras e Profundidade do Sequenciamento • Quanto maior o tamanho maior será a confiança nas sobreposições e maior pode ser o k, evitando problemas de sobreposições errôneas de k-mers, possibilitando também ultrapassar pequenas repetições; – Sequências paired-end também contribuem pois há a informação da distância entre os fragmentos; • Profundidade do Sequenciamento contribui para aumentar a cobertura do transcritoma e aumentar a quantidade de suporte nos vértices (permitindo aumentar o limiar estabelecido de cobertura e evitando erros de sequenciamento)
  • 140. Tamanho de k • Tamanho de k :não pode ser nem muito grande, nem muito pequeno: – grande o suficiente para não pegar falsas sobreposições que compartilham k-mers em comum (resolução de repetições); • k-mers grandes – menor conectividade nos grafos com maior especificidade; – grafos menores consomem menos memória RAM; – pequeno o suficiente para encontrar o máximo de sobreposições verdadeiras (maior aproveitamento, lidando com pequenos erros de sequenciamento); • k-mers pequenos – alta conectividade nos grafos com maior sensibilidade; – maior divergência e ambiguidade; – grafos maiores consomem mais memória RAM; • Solução para minimizar o problema: – Combinar as informações dos grafos com diferentes tamanhos de k; • [Surget-Groba et al., 2010] • [Schulz et al., 2012]
  • 141. Características dos grafos de-Bruijn • No caso de sequenciamentos que não têm orientação específica (ambas as fitas do cDNA podem ser sequenciadas) é necessário um mecanismo para identificar a correta orientação; – e.g. os nós (subsequências) podem possuir dois canais de entrada/saída – forward/reverse; • Repetições complexas (repetições em tandem, repetições invertidas, repetições imperfeitas, repetições inseridas em outras repetições). Repetições maiores ou iguais a k levam a grafos complicados, que não contêm por si só informações suficientes para resolver ambiguidades; – e.g. recorrer às sequências originais e possivelmente a fragmentos mate- pairs/paired-ends; • Sequências palíndromes (idênticas à reversa complementar) induzem a caminhos que retornam a si (k=6; ACGCGT == ACGCGT) e podem causar ambiguidade quanto à orientação do transcrito; – e.g. utilização de um k ímpar (k=7; ACGCGTA ≠ TACGCGT) evita esse tipo de ocorrência; • Erros de sequenciamento; – e.g. pesar os vértices pelo número de leituras que lhes dão suporte auxilia na identificação de erros; ACGCGTA TACGCGT
  • 142. Complexidades em k-mers • Ramificações – caminhos sem-saídas divergentes; – Induzidos por erros no sequenciamento nas extremidades das leituras; • Bolhas – caminhos que divergem e depois convergem; – Induzidos por erros no sequenciamento no meio das leituras; • Corda esfiapada – caminhos que convergem e divergem; – Induzidos por repetições; • Ciclos – caminhos que convergem neles mesmos; – Induzidos por repetições (e.g. repetições em tandem – pequenos ciclos); [Miller, J.R., et al., 2010] "tips"
  • 143. Exemplo AGTCGAG CTTTAGA CGATGAG CTTTAGA GTCGAGG TTAGATC ATGAGGC GAGACAG GAGGCTC ATCCGAT AGGCTTT GAGACAG AGTCGAG TAGATCC ATGAGGC TAGAGAA TAGTCGA CTTTAGA CCGATGA TTAGAGA CGAGGCT AGATCCG TGAGGCT AGAGACA TAGTCGA GCTTTAG TCCGATG GCTCTAG TCGACGC GATCCGA GAGGCTT AGAGACA TAGTCGA TTAGATC GATGAGG TTTAGAG GTCGAGG TCTAGAT ATGAGGC TAGAGAC AGGCTTT ATCCGAT AGGCTTT GAGACAG AGTCGAG TTAGATT ATGAGGC AGAGACA GGCTTTA TCCGATG TTTAGAG CGAGGCT TAGATCC TGAGGCT GAGACAG AGTCGAG TTTAGATC ATGAGGC TTAGAGA GAGGCTT GATCCGA GAGGCTT GAGACAG
  • 144. Exemplo • Grafo completo (sem simplificação) AGAT (8x) ATCC (7x) TCCG (7x) CCGA (7x) CGAT (6x) GATG (5x) ATGA (8x) TGAG (9x) GATC (8x) GATT (1x) TAGT (3x) AGTC (7x) GTCG (9x) TCGA (10x) GGCT (11x) TAGA (16x) AGAG (9x) GAGA (12x) GACA (8x) ACAG (5x) GCTT (8x) GCTC (2x) CTTT (8x) CTCT (1x) TTTA (8x) TCTA (2x) TTAG (12x) CTAG (2x) AGAC (9x) AGAA (1x) CGAG (8x) CGAC (1x) GAGG (16x) GACG (1x) AGGC (16x) ACGC (1x)
  • 146. Exemplo • Após primeira simplificação (agrupamento de k- mers consecutivos, sem ambiguidade) TAGTCGA AGAGATAGA AGAT GCTTTAG GCTCTAG AGACAG AGAA CGAG CGACGC GAGGCT GATCCGATGAG GATTTAGT (3x) AGTC (7x) GTCG (9x) TCGA (10x)
  • 147. Identificação de pontas (Tips) e bolhas Tips = Nós desconectados no terminal e de baixo suporte
  • 148. Exemplo • Após remoção de tips (caminhos que levam a nós com baixo suporte * e a vértices sem grau de emissão) TAGTCGA AGAGATAGA AGAT GCTTTAG GCTCTAG AGACAG CGAG GAGGCT GATCCGATGAG * o suporte do vértice é dado pela sua multiplicidade, a qual deve representar a cobertura das bases em determinada região.
  • 149. Algoritmo para remoção de bolhas (Tour bus algorithm) • Exemplo 1: • Exemplo 2: Largura Profundidade Velvet (Tour bus) caminho em largura no grafo (breadth-first traversal) prioridade ao que tem maior suporte (multiplicidade no vértice)
  • 150. Exemplo • Após remoção de bolhas (nova etapa de simplificação TAGTCGA AGAGATAGA AGAT GCTTTAG AGACAG CGAG GAGGCT GATCCGATGAG ? Ambos Com suporte
  • 151. Exemplo • Simplificação final TAGTCGAG AGAGACAG AGATCCGATGAG GAGGCTTTAGA TAGTCGAG GAGGCTTTAGA AGATCCGATGAG GAGGCTTTAGA AGAGACAG TAGTCGAGGCTTTAGATCCGATGAGGCTTTAGAGACAG Sequência consenso: Caminho pelos vértices (uma única vez em cada aresta – caminho euleriano):
  • 152. Softwares montadores (de-Bruijn) • Baseados em grafos de de-Bruijn: – VELVET /Oases (http://www.ebi.ac.uk/~zerbino/velvet/) • genoma, cDNA • Illumina, SOLiD (2-base encoding) • (Zerbino, D.R. e Birney E., 2008) – SPADES/rnaSPAdes (http://cab.spbu.ru/software/spades/) • genoma, cDNA • Illumina • (Bankevich, A. et al., 2012) – Etc.
  • 153. SPAdes x Velvet • 50 Salmonella enterica subsp. enterica serovar Paratyphi B dTa+ (S. Java) isolates were tested. DNA [http://www.engage-europe.eu/-/media/Sites/engage-europe/Final-website-documents/ENGAGE_AppE_benchmarking_Velvet- SPAdes_final.ashx?la=da&hash=A6AB88A45DC9205300258FCD824D4C7304214551]
  • 154. FERRAMENTAS PARA MONTAGEM DE SEQUÊNCIAS Introdução
  • 156. Funcionamento (1) • 1ª ETAPA: Alinhamentos pareados entre as leituras (seed & extend); • Identificação prévia de possívels sequências de adaptadores (regiões 3' ou 5' que frequentemente se repetem nas leituras) ou adaptadores podem ser removidos previamente caso informados. (Parâmetros: -vt e -vs) • Realizado em 2 fases: • Leituras longas • Leituras curtas
  • 157. seed-and-extend Estende, considerando o mínimo de sobreposição (default 40 bp) e o mínimo de identidade de alinhamento (default 90%) Nº de SEEDs: 1 (default) Tamanho da SEEDs: 16-mers (default) de cada leitura, sendo uma SEED a cada 12 bp (default) a partir da anterior; step size seed length seed count base a base seed and extend
  • 159. Unitig • O newbler constrói alinhamentos múltiplos de leituras com sobreposição e identifica regiões com diferenças consistentes entre os conjuntos de leituras e as divide em contigs (unitigs) – mini-montagens; • Unitig – Uniquely Assemble-able Contig - contig formado pela sobreposição de sequências que alinham unicamente entre si, sem contradições, ou seja, sem ambiguidades;
  • 160. Unitigs Únicos (U-Unitigs) e Repetitivos
  • 161. Funcionamento (3) • Montagem do grafo de contigs, baseado no alinhamento das leituras que atravessam as mini-montagens; nós – leituras alinhadas de forma contígua (contigs) arestas – leituras que alinham parte em um contig e parte em outro
  • 162. Funcionamento (4) • Resolução de estruturas de ramificação no grafo (simplificação); • Extensão dos "contigs" é realizada por meio da visita a cada um dos nós do grafo (Caminho Hamiltoniano); • Montagem da sequência consenso usando a informação da qualidade/sinal para cada base nos alinhamentos múltiplos; Se há dados disponíveis de sequências paired-end inclui uma etapa adicional: • Organização dos contigs em scaffolds, usando a informação dos pares e da distância aproximada dos pares entre os contigs.
  • 163. Overview • ( ) Identificar as sobreposições entre as leituras; – seed & extend; – Grafo de sobreposição e reads; – Identificação de unitigs (A,B,C e Repeat); • ( ) Construção do grafo de sobreposições; • ( ) Percorrendo o grafo para obter a sequência consenso;
  • 164. Princípios básicos e Terminologia Newbler Definições (-cdna): contig: Conjunto de leituras com regiões de sobreposição não contestáveis ("unitigs") e com diferenças consistentes entre os demais conjuntos de leituras. Um contig pode representar um exon ou parte dele. isogroup: É uma coleção de contigs que contêm leituras que os conectam, podendo representar os contigs de um mesmo locus (gene). isotig: Caminhos alternativos no grafo de contigs dentro de um isogroup. Um isotig pode representar um transcrito individual, ou seja, uma variante transcricional (isoforma) do gene.
  • 165. Chamada básica do Montador runAssembly [parâmetros] seqs.fasta • Procura pelo arquivo seqs.fasta.qual no mesmo diretório • Cria o seguinte diretório (por padrão): – P_yyyy_mm_dd_hh_min_sec_runAssembly • P_ = Projeto, seguido de data e hora 2.6+ - aceita sequências no formato FASTQ
  • 166. Parâmetros mais comuns (1) • -cdna – montagem em projetos transcritomas (cDNA); • -urt – "use read tips" (extremidades das leituras) para produzir isotigs mais longos a partir de únicas leituras; • -o output_directory – informar o diretório onde serão armazenados os resultados; • -force – força o reinicio da montagem, caso o diretório informado para os resultados já exista; • -vt trimmingFile.fasta – informar um arquivo fasta com as sequências de vetores, primers ou adaptadores , que devem ser excluídas das extremidades das leituras; • -vs screeningFile.fasta – informar um arquivo fasta com as sequências cujas regiões devem ser mascaradas nas leituras;
  • 167. Parâmetros mais comuns (2) • -a num – tamanho mínimo para o contig em 454AllContigs (default 100) – obs.: 0 se -cdna; • -l num – tamanho mínimo para o contig em 454LargeContigs/454Isotigs (default 500); • -m – mantém os dados de sequências na memória para aumentar a velocidade (necessita de RAM); • -cpu num – número de processadores para uso pelo montador (default 1); • -minlen num – tamanho mínimo para as leituras serem usadas na montagem; • -het – habilita o modo para considerar heterozigozidade (e.g., organismos diplóides). Esperar uma maior variabilidade. • -rip – parâmetro de restrição, a leitura deve ser alocada em somente um contig – obs.: não considerado se -cdna
  • 168. Outros parâmetros (1) -cdna options • -ig – Isogroup Threshold (número máximo de contigs em um isogroup). Não serão formados isotigs e aparecerão como contigs nos arquivos de saída (default: 500 contigs); • -it – Isotig Threshold (número máximo de isotigs em um isogroup). O processo de percorrer o grafo termina e aparecerão como contigs nos arquivos de saída (default: 100 isotigs); • -icc – Isotig Contig Count Threshold (número máximo de contigs em um isotig). Isotig não aparece na lista e seus contigs poderão ou não aparecer na lista, dependendo se ele pertence ou não a outro isotig (default: 100 contigs); • -icl – Isotig Contig Length Threshold (tamanho mínimo de um contig para o isotig). Isotig não aparece na lista e seus contigs poderão ou não aparecer na lista, dependendo se ele pertence ou não a outro isotig (default: 3 bp);
  • 169. Outros parâmetros (2) • -notrim – desabilitar trimagem padrão de qualidade e primer; • -p – especificar que as leituras são paired-ends, caso contrário isso será detectado automaticamente; • -ud – trata leituras separadamente, não agrupamento de duplicatas; • -ss – especificar seed step parameter – distância para início de uma nova seed (default: 12 bp); • -sl – especificar seed length parameter – tamanho da seed (default: 16 bp); • -sc – especificar seed count parameter – quantas seeds são necessárias para o alinhamento (default: 1); • -ml – especificar tamanho mínimo da sobreposição (default: 40bp); • -mi – especificar a identidade mínima da sobreposição (default: 90bp); Parâmetros que afetam diretamente o rigor do alinhamento!!!
  • 170. Parâmetros 2.6+ • -isplit – Procurar por "depth spike" gerando um número maior de isotigs; • -scaffold – Gera arquivos de saída (output) .fasta e .qual gerados como resultados do processo de scaffolding;
  • 171. Arquivos de saída (1) • Arquivos de sequências e qualidades – Contigs • 454AllContigs.fna >contig00001 length=542 numreads=16 gene=isogroup00001 status=isotig >contig00002 length=2 numreads=43 gene=isogroup00001 status=it_thresh • 454AllContigs.qual – Isotigs • 454Isotigs.fna >isotig00018 gene=isogroup00002 length=2494 numContigs=6 >isotig00003 gene=isogroup00004 length=2675 numContigs=10 • 454Isotigs.qual • 454Isotigs.faa (ORFs traduzidas - considerando 6 frames {-3, -2, -1, +1, +2 e +3}) >isotig00018 1503 3236 -1 1734 577 19 >isotig00003 1824 2369 +3 546 181 1 name/start/end/coding frame/nucleotide length/protein length/number of methionines
  • 172. Arquivos de saída (2) • Arquivos extras – Alinhamentos de ORFs • 454IsotigOrfAlign.txt isotig00018 2881 GGCGGGCAGTAAATATCATCATTGAGAATGCCCTCTTTCACTTGCAGAAAGAACAGGCGCTGAGTGATGTCCTGAATCAA 2960 -1:1503..3236* 119 .P..P..C..Y..I..D..D..N..L..I..G..E..K..V..Q..L..F..F..L..R..Q..T..I..D..Q..I..L 93 -2:2660..2902 8 L..R..A..T..F..I..M..M 1 +3:2709..3152 59 ..R..A..V..N..I..I..I..E..N..A..L..F..H..L..Q..K..E..Q..A..L..S..D..V..L..N..Q.. 84 – ACE (Como as leituras foram alinhadas para a formação dos Isotigs – visualização no programa Tablet) • 454Isotigs.ace – Estatísticas (Estatísticas da montagem, e.g. número de leituras e bases alinhadas, sobreposições, tamanho médio dos contigs, etc.) • 454NewblerMetrics.txt – http://contig.wordpress.com/2010/03/11/newbler-output-i-the- 454newblermetrics-txt-file/ – Progresso de execução • 454NewblerProgress.txt R (Arg) A (Ala) ...
  • 173. Arquivos de saída (3) • Leituras – Status no alinhamento (extremidade 3' e 5' do contig); • 454ReadStatus.txt AccnoRead Status 5' Contig 5' Position 5' Strand 3' Contig 3' Position 3' Strand F62E2P401D47TD Singleton F62E2P401ALCTK Outlier F62E2P401CVVLA TooShort F62E2P401ANAAD Repeat F62E2P401CE0XB PartiallyAssembled contig03687 124 - contig03687 493 + F62E2P401EC2X1 Assembled contig02209 322 - contig02209 48 + F62E2P401C259U Assembled contig00119 21 + contig00129 38 - – Pontos de trimagem originais e revisados para a montagem • 454TrimStatus.txt Accno Trimpoints Used Used Trimmed Length Orig Trimpoints Orig Trimmed Length Raw Length F62E2P401BCQ2E 18-543 526 5-543 539 557 F62E2P401BGGG5 38-149 112 5-149 145 779 F62E2P401ATLP4 5-97 93 5-97 93 297 F62E2P401BJE8M 5-66 62 5-66 62 260 Assembled – Utilizada integralmente na montagem Too Short – Muito pequena Repeat – Identificada como repetitiva Outlier – Leitura problemática (e.g. quimera) PartiallyAssembled – Somente aproveitada uma parte da leitura na montagem F62E2P401EC2X1 – inicia na base 48 contig02209 e termina na base 322 do contig02209 (a leitura na forma complementar-reversa está integralmente dentro do contig02209) F62E2P401C259U – inicia na base 21 contig00119 e termina na base 38 do contig00129 (leitura atravessa dois contigs) Trimpoints Orig – pontos de trimagem originais (presentes no sff ou fasta) ou caso não informado: 1 até tamanho da sequência Trimpoins Used – trimagem realizada pelo montador
  • 174. Arquivos de saída (4) • Montagem – Informações relacionadas à sequência consenso, qualidade, profundidade de sequências únicas, ou seja, não duplicadas e alinhadas na posição, profundidade de sequências mapeadas unicamente e alinhadas na posição, profundidade de sequências únicas e repetitivas mapeadas na posição, média de sinal das reads nessa posição no pirograma e desvio padrão para cada posição do contig. • 454AlignmentInfo.tsv Position Consensus Quality Score Unique Depth Align Depth Total Depth Signal StdDeviation >isotig00001 1 1 C 64 2 2 2 1.00 0.00 2 A 64 2 2 2 1.00 0.00 3 G 64 2 2 2 2.00 0.00 4 G 64 2 2 2 2.00 0.00 5 A 64 2 2 2 1.00 0.00 6 G 64 2 2 2 1.00 0.00
  • 175. Arquivos de saída (5) • Grafos – Estrutura de conexão entre contigs [3 seções – Nós (1) /Arestas (2)(3)]; • 454ContigGraph.txt (1) ContigNum ContigName Length Average_depth ... 31 contig00031 12 1.4 32 contig00032 1633 80.3 33 contig00033 947 105.7 ... (2) Edge FromContigNum FromEnd ToContigNum ToEnd AlignmentReadDepth ... C 32 5' 31 3' 5 C 32 3' 33 5' 20 ... S 22 2592 31:+;32:+;33:+ S 23 2580 32:+;33:+ S 24 947 33:+ ... (3) Edge ContigNum Sequence Thru-FlowInformation ... I 4 TGTTCGGTGTTCTCCGCCTCGGGCTGTCACAAATCGTGCTGCTGTGAGCCACTGCGTGCAGGTCTCAT 2:2-3'..3-5';1:6-3'..3-5' ... – Layout dos Isotigs • 454IsotigsLayout.txt >isogroup00007 numIsotigs=3 numContigs=3 Length : 12 1633 947 (bp) Contig : 00031 00032 00033 Total: isotig00022 >>>>> >>>>> >>>>> 2592 isotig00023 >>>>> >>>>> 2580 isotig00024 >>>>> 947 "I" short contig - seq. acima inicia antes do contig4 e termina depois = dois fluxos de informação separados por ; qtd de sequências:contig_anterior- extremidade..contig_posterior extremidade "P" paired-ends – como as sequências em pares atravessam contigs e permitem scaffolds "F" read-flow – como as sequências simples atravessam contigs e permitem scaffolds
  • 177. Etapas de montagem com grafos de-Bruijn
  • 178. Velvet: Pebble and Rock Band • Resolução de Repetições e Scaffolding – Paired-end sequencing (Pebble, Breadcrumb) – Long-read sequencing (Rock Band) Pebble [Zerbino e Birney, 2009] [ZerbinoeBirney,2009] Rock Band Breadcrumb [ZerbinoeBirney,2008] (miolo de pão)
  • 179. Construção da tabela hash • velveth – Extração dos k-mers e indexação por meio de uma tabela hash a partir de um conjunto de leituras. As sobreposições entre os k-mers imediatamente são obtidas. – São gerados 2 arquivos (Sequences e Roadmaps) necessários para a construção do grafo de- Bruijn pelo programa seguinte: velvetg; • Sequences: sequências indexadas; • Roadmaps: representação das sobreposições entre os k-mers únicos; ./velveth output_directory hash_length [[-file_format] [-read_type] filename] • Principais parâmetros – hash_length é o tamanho dos k-mers em bp. Quanto menor o k mais lento!!! – read_type pode ser: • -short / -shortPaired • -short2 / -shortPaired2 • -long / -longPaired – file_format pode ser: • -fasta (default) • -fastq • ... Hash Table (Array Associativo) 1 | ACGACA 2 | CGACAT k-mer=3 ACG 1 CGA 1 2 GAC 1 2 ACA 1 2 CAT 2 K-mer
  • 180. Opções extras (velveth) • Em hash_length é possível utilizar um intervalo m,M,s minimum,Maximum,step • Quando utilizando paired reads -interleaved (default - um único arquivo intercaladas) -separate (arquivos separados) • Cria uma versão binária dos arquivos Sequences e Roadmaps; -create_binary • Identifica as leituras como provenientes de sequenciamento orientação específica -strand_specific
  • 181. Construção do Grafo de-Bruijn (1) • velvetg – Construção e manipulação do grafo de-Bruijn, correção de erros e resolução de repetições. – Arquivos gerados: • contigs.fa - sequências consensos (gaps dentro contigs = N's); • PreGraph - grafo intermediário 0; • Graph - grafo intermediário 1; • Graph2 - grafo intermediário 2; • LastGraph - descrição plena do grafo de-Bruijn produzido; • Log - descrição das ações executadas; • stats.txt - números relativos à montagem; • UnusedReads.fa - sequências não utilizadas na montagem; • velvet_asm.afg - formato compatível com AMOS (-amos_file yes); ./velvetg output_directory [options]
  • 182. Construção do grafo de-Bruijn (2) • Simplificação do grafo – unificação de nós em cadeia • Remoção de erros – remoção de "tips" – cadeia de nós desconectada no fim; – remoção de "bubbles" – dois caminhos que iniciam e terminam nos mesmos nós (Algoritmo Tour Bus); • remoção de conexões errôneas – remoção de nós e arcos de baixa cobertura (erro sequenciamento);
  • 183. Algoritmo Tour bus • Exemplo 1: • Exemplo 2:
  • 184. Construção do Grafo de-Bruijn (3) Principais parâmetros -cov_cutoff <floating-point|auto> : remoção de nós/arcos baixa cobertura (sem remoção) -ins_length <integer> : distância esperada entre pares (sem pareamento|auto) -read_trkg <yes|no> : rastreamento das posições das leituras na montagem (Graph2 e LastGraph/ oases) (no) -min_contig_lgth <integer> : tamanho mínimo da sequência consenso (k*2) -amos_file <yes|no> : exportar montagem para arquivo AMOS (no) -exp_cov <floating point|auto> : estimativa da cobertura esperada para regiões únicas, é usado na resolução de repetições (sem leituras longas ou em pares) -long_cov_cutoff <floating-point> : remoção de nós com baixa cobertura de leituras longas (sem remoção) -unused_reads <yes|no> : exportar leituras não aproveitadas em UnusedReads.fa (no) -exportFiltered <yes|no> : exportar nós que foram eliminados pelo filtro de cobertura (no) -shortMatePaired* <yes|no> : indica que a biblioteca mate-pair pode ser contaminada com leituras paired-end (no) -scaffolding <yes|no> : fazer scaffolding (no) -conserveLong <yes|no> : conservar sequências com leituras longas (no)
  • 185. Estatísticas • Arquivo tabular – ID identificador do contig – lgth tamanho em k-mers – out número de arcos 3' – in número de arcos 5' – long_cov cobertura em k-mers (long) – short1_cov cobertura em k-mers (short1) – short1_Ocov cobertura em k-mers – mapeamento perfeito (short1) – short2_cov cobertura em k-mers (short2) – short2_Ocov cobertura em k-mers - mapeamento perfeito (short2) – long_nb número de reads (long) – short1_nb número de reads (short1) – short2_nb número de reads (short2)
  • 186. Cobertura k-mers • Tamanho k-mers: Quantas subsequência de tamanho k são observadas para uma sequência de tamanho LN; • Tamanho k-mers (Lk) e tamanho nucleotídeos (LN) – Lk= LN-(k-1) = LN-k+1 – LN = Lk+(k-1) = Lk+k-1 – e.g. ACGTGAAG (LN = 8) • k = 3 – ACG / CGT / GTG / TGA / GAA / AAG (6) – Lk = 8-3+1 = 6 • Cobertura k-mers (Ck) e cobertura nucleotídeos (CN) – Ck = CN * (LN–k+1)/LN – CN = (LN * CK)/(LN-k+1)
  • 187. VelvetOptimiser • Encontrar os "melhores" parâmetros (k-mer e cov_cutoff) – VelvetOptimiser.pl [options] -f 'velveth input line' --help This help. --v|verbose+ Verbose logging, includes all velvet output in the logfile. (default '0'). --s|hashs=i The starting (lower) hash value (default '19'). --e|hashe=i The end (higher) hash value (default '31'). --f|velvethfiles=s The file section of the velveth command line. (default '0'). --a|amosfile! Turn on velvet's read tracking and amos file output. (default '0'). --o|velvetgoptions=s Extra velvetg options to pass through. eg. -long_mult_cutoff -max_coverage etc (default ''). --t|threads=i The maximum number of simulataneous velvet instances to run. (default '48'). --g|genomesize=f The approximate size of the genome to be assembled in megabases. Only used in memory use estimation. If not specified, memory use estimation will not occur. If memory use is estimated, the results are shown and then program exits. (default '0'). --k|optFuncKmer=s The optimisation function used for k-mer choice. (default 'n50'). --c|optFuncCov=s The optimisation function used for cov_cutoff optimisation. (default 'Lbp'). --p|prefix=s The prefix for the output filenames, the default is the date and time in the format DD-MM-YYYY-HH-MM_. (default 'auto'). Advanced!: Changing the optimisation function(s) Velvet optimiser assembly optimisation function can be built from the following variables. Lbp = The total number of base pairs in large contigs Lcon = The number of large contigs max = The length of the longest contig n50 = The n50 ncon = The total number of contigs tbp = The total number of basepairs in contigs Examples are: 'Lbp' = Just the total basepairs in contigs longer than 1kb 'n50*Lcon' = The n50 times the number of long contigs. 'n50*Lcon/tbp+log(Lbp)' = The n50 times the number of long contigs divided by the total bases in all contigs plus the log of the number of bases in long contigs.
  • 188. Parâmetro crítico: K • O parâmetro K (k-mers) para a construção do grafo de-Bruijn é fator determinante para a montagem – Sensibilidade x Especificidade • valor baixo de k (mais sensível) • valor alto de k (mais específico) Soluções: • Escolher um parâmetro de k que forneça a montagem com melhores resultados (N50)
  • 189. Tablet - Next Generation Sequence Assembly Visualization • http://bioinf.scri.ac.uk/tablet/ • Sistema Estável • Interface intuitiva • Instalação simples • Suporte a vários formatos de arquivos – ACE, AFG, MAQ, SOAP2, SAM and BAM • Importa atributos – GFF3 • Exportar dados de cobertura por contig (transcrito) – número de profundidade por base do contig – oases_asm.afg.txt • Script para sumarizar os dados de cobertura (coveragestats.py) • Requer muita memória
  • 191. SPAdes pipeline • Módulos – BayesHammer – read error correction tool for Illumina reads, which works well on both single-cell and standard data sets. – IonHammer – read error correction tool for IonTorrent data, which also works on both types of data. – SPAdes – iterative short-read genome assembly module; values of K are selected automatically based on the read length and data set type. – MismatchCorrector – a tool which improves mismatch and short indel rates in resulting contigs and scaffolds; this module uses the BWA tool [Li H. and Durbin R., 2009]; MismatchCorrector is turned off by default, but we recommend to turn it on (see SPAdes options section).
  • 193. Correção de erros • Distância de Hamming – Número de posições em que as sequências divergem entre si. • Grafo de Hamming • Agrupamento
  • 194. Performance Data set E. coli isolate Stage Time Peak RAM usage (Gb) Additional disk space (Gb) BayesHammer 26m 7.1 11 SPAdes 8m 8.1 1.5 MismatchCorrector 20m 1.8 27.7 Whole pipeline 54m 8.1 30.2 Standard isolate E. coli; 6.2Gb, 28M reads, 2x100bp, insert size ~ 215bp 16 threads on a server with Intel Xeon 2.27GHz processors and SSD hard drive
  • 195. Linha de ComandoSPAdes genome assembler v3.13.0 Usage: /usr/local/bin/spades.py [options] -o <output_dir> Basic options: -o <output_dir> directory to store all the resulting files (required) --sc this flag is required for MDA (single-cell) data --meta this flag is required for metagenomic sample data --rna this flag is required for RNA-Seq data --plasmid runs plasmidSPAdes pipeline for plasmid detection --iontorrent this flag is required for IonTorrent data --test runs SPAdes on toy dataset -h/--help prints this usage message -v/--version prints version Input data: --12 <filename> file with interlaced forward and reverse paired-end reads -1 <filename> file with forward paired-end reads -2 <filename> file with reverse paired-end reads -s <filename> file with unpaired reads --merged <filename> file with merged forward and reverse paired-end reads --pe<#>-12 <filename> file with interlaced reads for paired-end library number <#> (<#> = 1,2,...,9) --pe<#>-1 <filename> file with forward reads for paired-end library number <#> (<#> = 1,2,...,9) --pe<#>-2 <filename> file with reverse reads for paired-end library number <#> (<#> = 1,2,...,9) --pe<#>-s <filename> file with unpaired reads for paired-end library number <#> (<#> = 1,2,...,9) --pe<#>-m <filename> file with merged reads for paired-end library number <#> (<#> = 1,2,...,9) --pe<#>-<or> orientation of reads for paired-end library number <#> (<#> = 1,2,...,9; <or> = fr, rf, ff) --s<#> <filename> file with unpaired reads for single reads library number <#> (<#> = 1,2,...,9) --mp<#>-12 <filename> file with interlaced reads for mate-pair library number <#> (<#> = 1,2,..,9) --mp<#>-1 <filename> file with forward reads for mate-pair library number <#> (<#> = 1,2,..,9) --mp<#>-2 <filename> file with reverse reads for mate-pair library number <#> (<#> = 1,2,..,9) --mp<#>-s <filename> file with unpaired reads for mate-pair library number <#> (<#> = 1,2,..,9) --mp<#>-<or> orientation of reads for mate-pair library number <#> (<#> = 1,2,..,9; <or> = fr, rf, ff) --hqmp<#>-12 <filename> file with interlaced reads for high-quality mate-pair library number <#> (<#> = 1,2,..,9) --hqmp<#>-1 <filename> file with forward reads for high-quality mate-pair library number <#> (<#> = 1,2,..,9) --hqmp<#>-2 <filename> file with reverse reads for high-quality mate-pair library number <#> (<#> = 1,2,..,9) --hqmp<#>-s <filename> file with unpaired reads for high-quality mate-pair library number <#> (<#> = 1,2,..,9) --hqmp<#>-<or> orientation of reads for high-quality mate-pair library number <#> (<#> = 1,2,..,9; <or> = fr, rf, ff) --nxmate<#>-1 <filename> file with forward reads for Lucigen NxMate library number <#> (<#> = 1,2,..,9) --nxmate<#>-2 <filename> file with reverse reads for Lucigen NxMate library number <#> (<#> = 1,2,..,9) --sanger <filename> file with Sanger reads --pacbio <filename> file with PacBio reads --nanopore <filename> file with Nanopore reads --tslr <filename> file with TSLR-contigs --trusted-contigs <filename> file with trusted contigs --untrusted-contigs <filename> file with untrusted contigs
  • 196. Linha de ComandoSPAdes genome assembler v3.13.0 Usage: /usr/local/bin/spades.py [options] -o <output_dir> Basic options: -o <output_dir> directory to store all the resulting files (required) Input data: -1 <filename>file with forward paired-end reads -2 <filename>file with reverse paired-end reads -s <filename>file with unpaired reads --pe<#>-12 <filename> file with interlaced reads for paired-end library number <#> (<#> = 1,2,...,9) --pe<#>-1 <filename> file with forward reads for paired-end library number <#> (<#> = 1,2,...,9) --pe<#>-2 <filename> file with reverse reads for paired-end library number <#> (<#> = 1,2,...,9) --pe<#>-s <filename> file with unpaired reads for paired-end library number <#> (<#> = 1,2,...,9) --pe<#>-m <filename> file with merged reads for paired-end library number <#> (<#> = 1,2,...,9) --pe<#>-<or> orientation of reads for paired-end library number <#> (<#> = 1,2,...,9; <or> = fr, rf, ff) --s<#> <filename> file with unpaired reads for single reads library number <#> (<#> = 1,2,...,9) --trusted-contigs <filename> file with trusted contigs --untrusted-contigs <filename> file with untrusted contigs
  • 197. Linha de Comando Pipeline options: --only-error-correction runs only read error correction (without assembling) --only-assembler runs only assembling (without read error correction) --careful tries to reduce number of mismatches and short indels --continue continue run from the last available check-point --restart-from <cp> restart run with updated options and from the specified check-point ('ec', 'as', 'k<int>', 'mc', 'last') --disable-gzip-output forces error correction not to compress the corrected reads --disable-rr disables repeat resolution stage of assembling Advanced options: --dataset <filename> file with dataset description in YAML format -t/--threads <int> number of threads [default: 16] -m/--memory <int> RAM limit for SPAdes in Gb (terminates if exceeded) [default: 250] --tmp-dir <dirname> directory for temporary files [default: <output_dir>/tmp] -k <int,int,...> comma-separated list of k-mer sizes (must be odd and less than 128) [default: 'auto'] --cov-cutoff <float> coverage cutoff value (a positive float number, or 'auto', or 'off') [default: 'off'] --phred-offset <33 or 64> PHRED quality offset in the input reads (33 or 64) [default: auto-detect]
  • 198. Coverage cutoff • Caminho com maior suporte de leituras (reads)
  • 200. minimus2 is a modified version of the minimus pipeline designed for merging one or two sequence sets (S1,S2). It uses a nucmer based overlap detector which is much faster than the Smith- Waterman hash-overlap program used by minimus.
  • 201. scaffolding / GAP filling • Scaffolding Pre-Assemblies After Contig Extension (SSPACE) – Algoritmo baseado em grafos do tipo Greedy https://github.com/nsoranzo/sspace_basic
  • 202. Gap closing Figure 3 Example of a gap-closing approach using paired-end reads. (a) Taking as example a scaffold constituted by two contigs joined by an assembly gap (a run of `N's) by remapping the reads back to the contigs (b) it is possible to identify reads that have at least one of the mates in the gap region. Finally, (c) the reads identified inside the gap can be de novo assembled to fill the region, resulting in a (d) closed gap.
  • 204. Conclusão • Há diferenças relevantes entre abordagens, funcionalidades e eficiência entre os diferentes algoritmos e implementações para as tarefas de alinhamento de sequências e montagem; – As diferentes abordagens refletem diretamente no processamento e especialmente no resultado das análises; • Portanto é necessário conhecer os princípios de cada abordagem, reconhecer os parâmetros e os resultados, para podermos utilizá-los da melhor forma possível. – Promover a utilização racional dos programas disponíveis!!!
  • 205. Referências • Miller JR, Koren S, Sutton G. Assembly algorithms for next-generation sequencing data. Genomics. 2010 Jun;95(6):315- 27. Epub 2010 Mar 6. Review. PubMed PMID: 20211242; PubMed Central PMCID: PMC2874646; • Li R, Fan W, Tian G, et al. The sequence and de novo assembly of the giant panda genome. Nature. 2010 Jan 21;463(7279):311-7. Epub 2009 Dec 13. Erratum in: Nature. 2010 Feb 25;463(7284):1106. PubMed PMID: 20010809; • Zerbino DR, Birney E. Velvet: algorithms for de novo short read assembly using de Bruijn graphs. Genome Res. 2008 May;18(5):821-9. Epub 2008 Mar 18. PubMed PMID: 18349386; PubMed Central PMCID: PMC2336801; • Schatz MC, Phillippy AM, Shneiderman B, Salzberg SL. Hawkeye: an interactive visual analytics tool for genome assemblies. Genome Biol. 2007;8(3):R34. PubMed PMID: 17349036; PubMed Central PMCID: PMC1868940; • Milne I, Bayer M, Cardle L, Shaw P, Stephen G, Wright F, Marshall D. Tablet--next generation sequence assembly visualization. Bioinformatics. 2010 Feb 1;26(3):401-2. Epub 2009 Dec 4. PubMed PMID: 19965881; PubMed Central PMCID: PMC2815658; • Kremer, Frederico Schmitt, McBride, Alan John Alexander, & Pinto, Luciano da Silva. (2017). Approaches for in silico finishing of microbial genome sequences. Genetics and Molecular Biology, 40(3), 553-576 • http://pt.wikipedia.org/wiki/Teoria_dos_grafos • http://contig.wordpress.com • http://genepool.bio.ed.ac.uk/bioinformatics/index.html • http://cbsu.tc.cornell.edu/nextgenworkshop2010w5.aspx • https://banana-slug.soe.ucsc.edu • http://www.stanford.edu/class/gene211 • http://www.slideshare.net/bosc2010/chambwe-bosc2010 • http://www.nesc.ac.uk/action/esi/contribution.cfm?Title=1104 • https://pt.slideshare.net/aubombarely/genome-assembly2014/10