Montagem de Genomas

Montagem “de novo” de
Genomas
Daniel Guariz Pinheiro
Laboratório de Bioinformática
Departamento de Tecnologia
Faculdade de Ciências Agrárias e Veterinárias de Jaboticabal (FCAV)
Universidade Estadual Paulista “Júlio de Mesquita Filho” (UNESP)

Tópicos
• Introdução
– Montagem de Sequências
– Algoritmos para Montagem de
Sequências
– Softwares para Montagem
• Newbler
• Velvet
• SPADES
• Prática Montagem

Genoma
• Sequência(s) completa(s) de DNA
[cromossomo(s)] de um organismo específico –
indivíduo – ou representantes [genoma
referência] para uma determinada espécie.
– Conjunto de todos os genes

Conceito de Gene
• 1866 - Conceito clássico em genética - Gregor Mendel
• Unidade discreta de herança ("fatores" heredítários);
• 1909 - O termo gene foi cunhado - Wilhelm L. Johannsen
• Conceito abstrato das unidades de herança ("entidade quasi mítica" [Keller, E.F, 2000]);
• 1915 - Teoria acerca dos cromossomos - Thomas Hunt Morgan
• Determinado locus em um cromossomo;
• 1941 - Conceito "um-gene-uma-enzima" - George W. Beadle e Edward L. Tatum
• 1953 - O gene começa a ganhar uma definição ainda mais materialista.
• Sequências de nucleotídeos;
• 1959 - Conceito "um-gene-um-polipeptídeo" - George W. Beadle e Edward L. Tatum
• 1961 - Conceitos de genes estruturais e regulatórios - François Jacob e Jacques Monod
• 1977 - Um-gene-múltiplos-produtos - Richard J. Robets e Phillip A. Sharp
• 1990 - Composição de domínios no DNA (Modelos da estrutura gênica) - Thomas Fogle;
• 1999 - Conceitos de "gene molecular" e "gene evolutivo" - Paul E. Griffiths; Eva M. Neumann-Held;
• …
• Conceito moderno: Entidade codificada em ácidos polinucléicos a qual ao menos pode ser transcrita
[Stephen T. Abedon].
Abstrato
Concreto

Conceito Simplificado de Gene
• Gene é um segmento de DNA que contém
informação codificada para a execução de
determinada função.

Definição operacional de gene
(proposta)
Gene é a união de sequências genômicas que
codificam um conjunto coerente de produtos funcionais
que potencialmente possuem regiões sobrepostas.
[Gerstein et al., 2007]
Segmentos de DNA
codificadores
de proteínas
(ORFs):
A
B
C
D
E

O produto gênico funcional pode ser
o RNA e não a proteína
• non-coding RNAs
tRNAs (tRNA Phe) rRNAs (ribossomo 70S)
(1965)
snRNAs (U1 spliceosomal RNA)
miRNAs (mir-34)
scaRNAs (Small Cajal Body Specific RNAs)
snoRNAs (small nucleolar RNAs - C/D Box)
piRNAs ( Aub/PIWI/RISC complex)
...

Aspectos que devem ser considerados
• Gene é a união de sequências genômicas que
codificam um conjunto coerente de produtos
funcionais (que possuem regiões que se sobrepoem
considerando a referência genômica)
[Gerstein et al., 2007]
– Três aspectos devem ser considerados:
• Gene é uma sequência genômica que codifica precisamente um
produto funcional (RNA ou proteína);
• Nos casos onde há muitos produtos funcionais compartillhando
regiões sobrepostas, a união de todas as regiões de sequências
genômicas sobrepostas que codificam cada produto é um gene;
• A união deve ser coerente (RNA/proteína) – porém não requer
que todos os produtos necessariamente compartilhem
exatamente as mesmas regiões.

Dogma Central da Biologia Molecular
Crick F. Central dogma of molecular biology. Nature. 1970 Aug 8;227(5258):561-3. PubMed PMID: 4913914.
[Crick, F. , 1970]
transcrição
FLUXO DA INFORMAÇÃO GÊNICA
tradução
replicação
casos especiais

GENÔMICA ESTRUTURAL
Introdução
[Crick, F. , 1970]

Genômica
• Estudo do(s) genomas usando métodos de
montagem de sequências, que exigem obtenção
de dados em larga-escala.
– Comparações de genomas entre espécies permitem a
identificação de genes com relação de ancestralidade
(ortólogos);
– Comparações de genomas entre indivíduos de uma
mesma espécie permitem a identificação de
polimorfismos genéticos (SNPs, InDels e variações
estruturais – translocações, deleções e amplificações);

Genômica Estrutural / Funcional
• A Genômica Estrutural estuda a organização e
estrutura dos genes.
• A Genômica Funcional utiliza os dados
produzidos pelas análises genômicas para
descrever funções e interações dos genes e das
proteínas.
– O foco da genômica funcional é compreender as
funções do DNA através dos genes, da transcrição, da
tradução, e das interações proteína-proteína.
• As técnicas mais usadas nessa área são as análises de
expressão gênica utilizando técnica de RNA-Seq

TECNOLOGIAS DE SEQUENCIAMENTO E
NOVA GERAÇÃO
DNA Sequencing

DNA: o código da vida
• Biblioteca de
Informações Gênicas

Necessidade de decodificar...
• Decodificar
– Definição: Traduzir em
linguagem clara uma
informação codificada
• Informação biológica
– codificada em uma
macromolécula (combinação
de moléculas: Adeninas,
Guaninas, Citosinas e
Timinas)

Para iniciar o processo de
decodificação...
• ... é necessário primeiramente ler o código
GGTTAGTTTTCC..

Primeiros passos...
• Primeiros Métodos de Sequenciamento
• Baseados em eletroforese
WalterGilbert
FrederickSanger
Prêmio Nobel em Química - 1980
Método Químico
Tratamento químico para degradar o
DNA em nucleotídeos específicos para
posterior leitura
[Maxam e Gilbert, 1977]
Método Enzimático
Baseado na síntese enzimática de uma
fita complementar interrompida pela
incorporação de um didesoxinucleotídeo
(terminação da cadeia) para posterior leitura
[Sanger et al., 1977]
Prêmio Nobel em Química – 1958
Prêmio Nobel em Química – 1980

Sequenciamento “Manual”
Sequenciamento com
leitura manual

Primeiro Genoma Sequenciado - RNA
(bacteriófago MS2) - 1976
• MS2
– Vírus icosaédrico
– Fita simples RNA
• Infecta Escherichia coli e outros membros da família Enterobacteriaceae.

O primeiro genoma de DNA !!!
Phi X 174
genoma circular
5.386 nucleotídeos
...será que podemos sequenciar um
organismo mais complexo com
genoma maior com muitos cromossomos?
PRECISA SER OTIMIZADO E
AUTOMATIZADO!

Sequenciador semi-automático
• Sequenciador semi-automático
– Desenvolvido
– Leroy Hood, 1986
– Comercializado
– Applied Byosystems
Sequenciador automático
Ampliação da capacidade - várias
reações ao mesmo tempo)
Eletroforese capilar
Eletroforese em géis capilares ultra-finos

Primeiro protótipo de sequenciador
semi-automático
http://lifesciencesfoundation.org/events-Automated_DNA_sequencing.html

Protótipo de sequenciador automático
comercial ABI 370 (1987)
http://www.sciencemuseum.org.uk

ABI3730xl
• Ano de lançamento 2002

Sequenciamento do genoma
de um único indivíduo
John Craig Venter

Crescimento do número de dados de
sequências biológicas
1982
606 seqüências
2.427 bases
2008
98.868.465 seqüências
99.116.431.942 bases
Genbank: banco de dados
público de coleções de
sequências biológicas
anotadas do NIH (National
Institute of Health)

Marcos do sequenciamento
Iniciativa pública
Projeto Genoma
Humano
Publicação
do rascunho
do Genoma Humano
1990 2001
2000
Genoma
bactéria
Xylella fastidiosa
1997
Organization for
Nucleotide
Sequencing and
Analysis
19991996
Cancer Genome
Anatomy Project
1988
National Center
for
Biotechnology
Information
...
2003
Conclusão do
Projeto Genoma
Humano
1977
Sequenciamento
de DNA
Método de Sanger
1987
Sequenciamento
de DNA
automático
PGHC: Iniciativa brasileira
de sequenciamento de
cDNA tumores
Genoma
diploide de
um
indivíduo
2005, 2006, 2007
...
Next-Generation
Sequencing
2007
1000
Genomes Project
2010

Projeto Genoma
Humano
• The International Human Genome Sequencing Consortium
• 13 anos (1990-2003)
• U$3.000.000.000,00
• Avanços imediatos proporcionados
• Identificação de milhares de genes;
• Alguns deles relacionados a doenças;
• Desenvolvimento de produtos biotecnológicos e fármacos
resultantes deste conhecimento;
• Desenvolvimentos de ferramentas para análise genômica, inclusive de
outras espécies de interesse biomédico e econômico;
• Promoveu discussões éticas, legais e implicações sociais em torno do
assunto;
Atualmente é a principal base de conhecimento do genoma, utilizada como
referência para diversos estudos;

Publicações (rascunho do genoma)
CraigVenter
FrancisCollins
Iniciativa
privada
Iniciativa
pública
Atualizações constantes
Dez. 2013
Versão GRCh38 (hg38)

Nova Geração de Sequenciadores de
DNA
Roche (454) Illumina GA ABI SOLiDABI 3730xl
ABI 3730xl Roche (454) Illumina GA ABI SOLiD
Método Sequenciamento
por ddNTP
Pirosequenciamento Sequenciamento
por Síntese
Seqüenciamento
por Ligação
Ano de lançamento 2002 2005 2006 2007
AdaptedfromRichardWilson,SchoolofMedicine,WashingtonUniversity,“Sequencingthe
CancerGenome”
- Aumento da quantidade de dados por corrida (kilobases a gigabases);
- Redução do tamanho das sequências (~700 bases Sanger para até 2x300 bases
(paired-end) no caso de Illumina nas versões mais recentes -MiSeq, no caso do
454 o tamanho é em média de 400 bases, e no caso de SOLiD o tamanho máximo é de 75
bases);
-Redução do tempo (escala de dias para horas);
-Redução do custo por base sequenciada;

Novas Gerações de Sequenciadores
3ª Geração
(single molecule)
Single Molecule Real Time – SMRT
(Pacific Bioscience)
HeliScope (Helicos Bioscience)
454 (Roche)
2ª Geração
(amplificação clonal)
SOLiD (Life Technologies)
HiSeq2000, HiSeq2500, MiSeq
Illumina
Ion Torrent- PGM, Proton
(Life Technologies)
GridION-Oxford Nanopore
4ª Geração
(Post-Light)
1ª Geração
(clonagem)
Sanger

MÉTODOS PARA MONTAGEM DE
SEQUÊNCIAS GENÔMICAS
Introdução

Por quê montar?
• Obtenção de uma nova referência;
• Obter genes inteiros:
– Aumentar a capacidade de encontrar correspondências mais
verossímeis através das buscas por similaridade de sequências para
então obter boas inferências de homologia (identificação de
ortólogos);
– Aumento do sinal filogenético
• Essencialmente uma dependência para todo sistema de anotação funcional;
• Identificação de longas regiões variáveis, como por exemplo, ilhas
de patogenicidade;
• Descoberta de operons (co-incidência de genes);
• Discriminação de membros de famílias gênicas;
• Análise de sintenia;
• …

Fluxo de trabalho
“SIMPLIFICADO”

Há alguma referência?
• Resequenciamento
– Existem sequências produzidas a partir de um genoma da
mesma espécie da amostra ou de uma espécie relacionada
que podem ser usadas como referências para a montagem
(assembly) das sequências alvo. Envolve um processo de
alinhamento com a(s) referência(s) e análise desse
alinhamento para a reconstrução das sequências.
• Sequenciamento "de novo"
– Não há sequências que podem ser usadas como
referências. Este tipo de sequenciamento exigirá uma
montagem (assembly) das sequências utilizando apenas os
dados obtidos desse sequenciamento. Envolve um
processo de alinhamento entre as sequências geradas, que
permitirá obter sequências consensos, os alinhamentos
são analisados para a reconstrução das sequências.

Alinhamento de Sequências
Em Bioinformática, alinhamento de
sequências é uma forma de dispor as
sequências de DNA, RNA, ou proteínas para
identificar regiões de similaridade que podem
ser consequência de relacionamentos
funcionais, estruturais ou relações evolutivas
entre elas.

Significado Biológico do Alinhamento
de Sequências
• Definição de 3 termos importantes:
– identidade: refere-se à fração de
aminoácidos ou nucleotídeos idênticos
entre pares de sequências após um
alinhamento dessas sequências;
– similaridade: refere-se à fração de
aminoácidos ou nucleotídeos similares
(por exemplo, com propriedades físico-
químicas semelhantes) entre pares de
sequências após um alinhamento
dessas sequências;
– homologia: representa uma relação
evolutiva entre as sequências;
• Homólogos
– Parálogos;
– Ortólogos;

Estratégias de
Sequenciamento
visando a
reconstrução da
sequência
genômica
a) Shotgun sequencing
b) Hierarchical sequencing

Estratégia de sequenciamento
shotgun
[Commins, Toft e Fares, 2009]

Mapeamento de leituras e
Montagem “de novo”
[Haas and Zody, Nature Biotechnology 28, 421–423 (2010)]

Identificação das sequências
• Resequenciamento
– Alinhamento: Conjunto de Sequências X Sequências Referências (Ex.:
Genoma)
>seq1
TGACAGATACAGAAAGATACAGTACATAGaCAG
>seq2
AAATCTTAGAGTGTCCCATCTGTCTGGAGTTGA
>seq3
CGATACAAGTAGGTTACAGTACAAAGTACAGTA
>seq4
CCGTACCACCACCTAGACCTGTACATGGTCAGT
...
>chrX
...
GGGGTTTCTCAGATAACTGGGCCCCT
GCGCTCAGGAGGCCTTCACCCTCTGC
TCTGGGTAAAGTTCATTGGAACAGAA
AGAAATGGATTTATCTGCTCTTCGCG
TTGAAGAAGTACAAAATGTCATTAAT
GCTATGCAGAAAATCTTAGAGTGTCC
CATCTGTCTGGAGTTGATCAAGGAAC
...
Objetivos:
- Eliminar as sequência sem identidade
- Eliminar as sequência com múltiplas identidades (ambiguous)
- Encontrar as sequência com identidade única (unambiguous) em relação a
elementos previamente mapeados (transcritos);
Human genome reference hg19Sequencing Result
MATCH

Montagem “de novo”
de sequências
• Sequenciamento “de novo”
– Alinhamentos múltiplos de
sequências de leituras
(evidências experimentais)
• Montagem de fragmentos de
sequências genômicas originais
através de um consenso
CTGTTATGGGCAACCCTAAGGTGAAGGCTCATGGCAAGAAAGTGCTCGGTGCCTTTAGTGATGGCCTGGCTCACCTGTGGAC
ATGGGCAACCCTAAGGTGAAGGCT TGCTCGGTGCCTTTAGTGATGGCCTGGCTCACCTGTG
TAAATGGGCAACCCTAAG
GCCGGCAACCCGAAGGTG
CCTAAGGTGAAGGCTAGC
GTTTGCTCGGTGCCTTTA
GTGCCTTTAGTGATGAAA
GATGGCCTGGCTCACAGC
GCCCCTGGCTCACCTGTG
Original:
Consensus :
Read 1
Read 2
Read 3
Read 4
Read 5
Read 6
Read 7
[Blanca, J. COMAV Institute]
Original:
Consensus :
Leitura 1
Leitura 2
Leitura 3
Leitura 4
Leitura 5
Leitura 6
Leitura 7
Leitura 8
Leitura 9
Leitura 10
Leitura 11
ACCCTAAGGTGAAGG
CCGAAGGTGAAGGCT
GGCAACCCTAAGGTG
GCAACCCGAAGGTGA
ATGGGCAACCCGAAGGTGAAGGCT

MONTAGEM "DE NOVO" DE
SEQUÊNCIAS
Introdução

Quebra-cabeças
(rompecabezas) (jigsaw puzzle)

O maior quebra-cabeças
• 32.256 peças

MONTAGEM DE SEQUÊNCIAS DE DNA:
CONCEITOS E DEFINIÇÕES
Introdução

Montagem
• Definição
– É uma estrutura hierárquica que mapeia os dados
de sequências de fragmentos para uma
reconstrução aproximada do alvo (neste caso
transcritos) em sua forma original;
– A montagem agrupa leituras em contigs e contigs
em scaffolds (supercontigs);
• leituras (reads) => contigs => scaffolds

Montagem de sequências consenso
(contigs)

Gap
Terminologia e Conceitos Básicos (I)
• contig – alinhamento múltiplo de leituras de onde é extraída uma
sequência consenso (termos derivados: unitig - contig de alta
confiabilidade; isotig - contig que representa uma isoforma de transcrito);
• scaffold – definem a ordem e orientação dos contigs além do tamanho
dos gaps entre os contigs;
• singlets – leituras não agrupadas em um contig;
• gap – espaço entre dois contigs, onde não se conhece a sequência;

Terminologia e Conceitos Básicos (II)
• Cobertura (coverage) – fold coverage
– Total de bases sequenciadas [N * L] dividido pelo
tamanho da região de interesse (e.g. genoma) [G]
• (N * L)/G
– N = Número de leituras
– L = Tamanho da leitura
– G = Tamanho da região de interesse
• Exemplo
– Tamanho do Genoma (G): 1 Mbp
– Quantidade de leituras (N): 5 milhões de reads
– Tamanho das leituras (L): 50 bp
» Cobertura = (5.000.000 * 50) / 1.000.000 = 25X
– Na prática, corresponde a quantas vezes, em média,
cada base do alvo (genoma) foi sequenciada;

Terminologia e Conceitos Básicos (III)
• Cobertura necessária em projetos de
sequenciamento de genomas:
– Resequenciamento:
• Sanger (Leituras de ~800bp): C. Venter (3Gb ~7.5x)
– [Levy et al., 2007]
• Roche 454 (Leituras de ~400bp): J. Watson (3Gb ~7.4x)
– [Wheeler et al., 2008]
– Sequenciamento “de novo”:
• Illumina (Leituras de 52pb): Panda (Ailuropoda
melanoleura) (2,4Gb ~56x)
– [Li et al., 2010]

Como estimar os parâmetros de
sequenciamento?
Estimar parâmetros (número esperado de contigs, tamanho dos contigs)
[Lander e Waterman, 1988]
Considerações:
Amostragem equivalente a um processo de Poisson;
Assume que as leituras serão amostradas aleatoriamente no genoma;
L = tamanho das leituras
T = mínimo de sobreposição entre as leituras
G = tamanho do genoma
N = número de leituras
c = cobertura = (N*L/G)
σ = 1 –(T/L)
e = 2,718
E(número de contigs) = Ne(-c*σ)
E(tamanho dos contigs) = L*( ((e(c*σ)–1)/c) + (1–σ) )
Modelo Lander-Waterman

Cobertura - Simulação
Genoma 1Mb
* quanto maior a cobertura
menos contigs são produzidos
porém maiores;
• Número esperado de contigs em relação à cobertura
Modelo Lander-Waterman
Simulação número de contigs
x
cobertura

Illumina - Estimação de parâmetros
com Modelo Lander-Waterman
• http://www.illumina.com/CoverageCalculator
Perform the following steps to run the
calculator:
1. Click on the tab to choose your
instrument
(HiSeq/GAIIx/HiScanSQ/MiSeq).
2. Enter numbers:
• Target genome or region size,
for example, input 3000000000
(3 Gb) for human genome;
• Coverage you want;
• Total number of cycles. For
example, if you want to perform
100 bp paired-end runs (2×100),
enter 200.
3. Read out the total output required,
output per lane, and number of lanes
you need to use for the desired
coverage.
http://www.illumina.com/documents/products/technotes/technote_coverage_calculation.pdf

Será que o modelo se aplica aos
dados de NGS?
• Genoma do Panda (Ailuropoda melanoleura)
– Tamanho do genoma 2,4 Gb
C = (N*L)/G C = 8x
G = 2.400.000.000 (2,4Gb)
L = 52 pb
[Li R et al., 2010]
8 = (N*52)/2400000000
52*N = 8*2400000000
N=19200000000/52
N=369.230.769
37 bibliotecas do tipo paired-end e mate-pair (150 bp, 500 bp, 2 kbp, 5 kbp, and 10 kbp)
Média de tamanho de 52 pb
218 lanes Illumina Genome Analyzer (17 lanes descartadas por baixa qualidade)
3.379.000.000 de reads (96% cobertura do genoma)
176 Gb (73×) de cobertura – fold coverage (reads utilizáveis)
134 Gb (56×) de cobertura – fold coverage (reads de alta qualidade)

Leituras pequenas exigem maior
quantidade para ter um resultado
comparável
Exemplos de montagens com a mesma entrada (270 bp sequenciadas = mesma
“cobertura” = C) e mesmo parâmetro de sobreposição: 20 bp
Assembly 1 (incompleta)
E(número de contigs) = Ne(-c*σ)
Para aumentar o valor de C é necessário aumentar o
número de reads ou o tamanho das reads, ou seja, o
número de bases sequenciadas

Maior dificuldade em atravessar
repetições
Quanto maior a sequência, maior a capacidade de atravessar as regiões repetitivas no genoma
(encontrar uma região específica onde possa ancorar e resolver a ambiguidade).

Cobertura – nova geração de
sequenciadores
• Tamanho esperado de contigs em relação à cobertura
Panda e Cachorro
genomas de ~2,4Gb[Schatz et al., 2010]
Discrepância grande
entre o predito (Modelo LW) e o
observado (média e N50)
Resultado de um modelo
simplificado, que não leva em
consideração:
- leituras curtas e genomas
repetitivos;
- qualidade das leituras;
- sequenciamento não uniforme
-vieses (ex.: conteúdo de GC);
- ...

Importância do tamanho das leituras
[Whiteford et al., 2005]
Contigs > que o tamanho
indicado no gráfico.
 200000 = ~35% genoma
de E. coli
Leituras de tamanho 200

Tamanho do Genoma
• Quantidade total de DNA contido dentro de
um genoma (cópia única – genoma haplóide).
– Valor C [ C-value ]
• Massa
– Picograma (trilionésimo [10-12] de grama - pg)
• Número total de nucleotídeos em pares de
base (pb)
– 1 pg = 978 pb

Resumo: Montagem "de novo"
• Reconstrução da sequência (genoma) em sua forma
original, sem a consulta de sequências previamente
resolvidas de genomas, transcritos e proteínas.
• A montagem é possível quando o alvo é excessivamente
amostrado com leituras "shotgun" que se sobrepõem.
• Montagem de novo de dados de Next-Generation
Sequencing (NGS)
– Levar em consideração:
• tamanho das leituras (menos informação por leitura)
– necessidade de maior cobertura – aumento da complexidade;
• grande volume de dados
– necessidade de algoritmos que utilizem de forma racional e eficiente os
recursos computacionais (CPU/RAM);

Avaliação da Montagem
Tamanho|
Contiguidade
Completude |
Plenitude|
Integralidade
Exatidão|
Acurácia

Tamanho e contiguidade
– Tamanhos das sequências obtidas:
• tamanho máximo;
• tamanho médio ou mediano;
• tamanho total combinado;
– Contiguidade
• N50 (tamanho do menor contig no conjunto dos
maiores contigs que combinados representam 50% da
montagem) – contiguity;
– Valores muito altos podem representar erros na montagem e
valores muito pequenos podem representar montagem
incompleta;
• L50 (número de contigs maiores que o N50)

Tamanho e Contiguidade
• Objetivo
– Poucos contigs porém longos
• Métricas
– Tamanho
• Número de contigs;
• Média ou mediana de tamanho dos contigs;
• Tamanho total combinado;
• Tamanho de contigs acima de 10 kbp, 100 kbp, etc.;
– Contiguidade
• N50 (tamanho do menor contig no conjunto dos maiores contigs
que combinados representam 50% da montagem) – contiguity;
– Valores muito altos podem representar erros na montagem e valores
muito pequenos podem representar montagem incompleta;
• L50 (número de contigs maiores que o N50)
• Etc.

N = tamanho ?
L = quantidade ?
“(…)We used a statistic called the ‘N50 length’, defined as the largest length L
such that 50% of all nucleotides are contained in contigs of size at least L. (…)”
http://www.acgt.me/blog/2015/6/11/l50-vs-n50-thats-another-fine-mess-that-
bioinformatics-got-us-into
[International Human Genome Sequencing Consortium Lander et al., 2001]

N50
• https://www.broad.harvard.edu/crd/wiki/index.php/N50
• N50 - representação do tamanho médio (mediana
ponderada) de um conjunto de sequências;
• Dado um conjunto de sequências de tamanhos variáveis;
– N50 = indica que as sequências com tamanho l < N50
representam (somadas as bases) 50% (bases) de toda a
montagem;
– L = {2,2,2,3,3,4,8,8}
– Método para calcular
• Exemplo acima:
– tamanho combinado 32
– L' = {2,2,2,2,2,2,3,3,3,3,3,3,4,4,4,4,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8}
– 6 x (2); 6 x (3); 4 x (4); 16 x (8)
– N50(L) = mediana(L') = 6
50% < N50(L) = 6

N50
Indicador de contiguidade,
O valor de N50 representa que metade da montagem possui tamanho menor que
esse valor enquanto a outra metade possui tamanho maior que esse valor.
L50 é o menor número de contigs cuja soma dos tamanhos
representa metade da montagem (Exemplo acima: 5)
https://www.molecularecologist.com/2017/03/whats-n50/

assemblathon2-analysis
• This repo contains a motley assortment of
unpublished scripts and commands used by
Ian Korf, Keith Bradnam, and Joe Fass in the
analysis of Assemblathon 2 competition
entries (assemblies).
• https://github.com/ucdavis-
bioinformatics/assemblathon2-analysis
– assemblathon_stats.pl
• used to calculate many of the basic contig- and
scaffold-level statistics (requires FAlite.pm)

Problema do N50
https://www.molecularecologist.com/2017/04/the-n50-misassembly-problem/
Metade é maior que
1 Mbp e metade é
menor que 1Mbp

Uma outra métrica…
• NG50
[Considera o tamanho estimado do genoma para definir o que está acima de 50%]
http://www.molecularecologist.com/2017/04/a-solution-to-the-n50-filtering-problem/
NG50 = o cálculo do N50 é realizado com o valor estimado
do tamanho do genoma. Neste caso 500 kbp e não com o
tamanho da montagem 400 kbp.

outra métrica…
• NA50
– N50 para o conjunto
de blocos alinhados
(ao invés do
conjunto inicial de
contigs)
• Dessa forma, se
alguns dos contigs
falham em alinhar,a
métrica NA50 ainda
é computada com
respeito aos 50% da
montage total
(incluindo os contigs
que alinharam e
não alinharam)
Necessita haver uma sequência referência onde os blocos podem alinhar
https://www.molecularecologist.com/2017/04/a-solution-to-the-n50-misassembly-problem/
[Considera o tamanho da montagem para os 50%]

NGA50
• NG50 + NA50
– Considera somente os blocos alinhados na
referência, porém, diferente do NA50, considera o
tamanho da referência em que os contigs alinham
e não o tamanho da montagem com todos os
contigs iniciais (mesmo os que não alinham).
https://www.molecularecologist.com/2017/04/a-solution-to-the-n50-misassembly-problem/

COMPASS
[https://gigascience.biomedcentral.com/articles/10.1186/2047-217X-2-10.ris]

Exatidão
ou Acurácia
• Avaliação de erros na montagem
Alinhamento das leituras (reads) x Montagem e avaliação da consistência do alinhamento
Exemplos de inconsistências:
- Inserções, deleções ou substituições causadas pelo montador;
- União de sequências não contíguas (quimeras);
- Compressão de repetições ou duplicações desnecessárias;
- etc.

Informação de pareamento
e marcadores genéticos

Alguns erros
• Misassemblies

Acurácia dos contigs
• Medidas de satisfação e violações de restrições de
montagem
– e.g. sequências sobrepostas no contig devem ter
concordância entre si (poucas variações e variações
concordantes);
– e.g. sequências em pares das extremidades (paired-ends)
devem ser consistentes com tamanho do fragmento e
orientação;
• Se referências existem podem ser utilizadas para este
propósito;
– Comparações com proteomas de espécies próximas
também podem ser úteis para avaliação da montagem;
• Cobertura no alinhamento das reads X contigs

QUAST
• MISASSEMBLIES
– No. of misassemblies:
• Número de erros, usando definição de Plantagora [Barthelson et al., 2011]
– misassembly breakpoint : posição no contig onde a sequência no flanco esquerdo
com relação à sequência no flanco direito neste alinhamento com a referência
» alinha acima de 1kb de distância;
» sobrepõem acima 1 Kb;
» alinha em fitas opostas;
» alinha em diferentes cromossomos;
– No. of misassembled contigs:
• Número de contigs que contêm misassembly breakpoints.
– Misassembled contigs length:
• Número de bases em todos os contigs com um ou mais misassemblies.
– No. of unaligned contigs:
• Número de contigs que não têm alinhamento com a sequência referência.
– No. of ambiguously mapped contigs:
• Número de contigs que têm bom mapeamento (altos escores e idênticos) em múltiplos
locais no genoma.
QUAST também provê relatório com detalhamento dos contigs que estão em cada categoria.

REAPR
“We have validated REAPR on complete genomes or de novo assemblies from
bacteria, malaria and Caenorhabditis elegans, and demonstrate that 86% and 82%
of the human and mouse reference genomes are error-free, respectively.”

Fragment Coverage Distribution (FCD)

Staphylococcus aureus
Montagem com Velvet
(Circos plot)
a) Cores representam mapeamentos
- Vermelho (pares corretos)
- Verde (órfãs)
- Azul (pares com leituras muito próximas ou distantes)
b) Muitas repetições

Completude
… ou Integralidade
Proporção do genoma original representado pela
montagem
Baseado na estimativa de tamanho do genoma
Baseado na proporção de genes montados que fazem
parte do conjunto de genes considerados essenciais ( core
genes ) para um grupo de organismos.

Avaliação mais acurada que as
métricas baseadas em tamanho

BUSCO
• Benchmarking Universal Single-
Copy Orthologs
• CEGMA (Core Eukaryotic Genes Mapping Approach)
– Identificação de genes ortólogos conservados (core genes –
genes essenciais) em centenas de espécies eucarióticas
• Mende D.R. et al. . (2013) Accurate and universal
delineation of prokaryotic species. Nat. Methods , 10,
881–884.

Generalizado e cópia simples
Dissecting the Drosophila melanogaster gene set by orthologous group universality and duplicability highlights how the largest
fractions of genes are preserved as single-copy orthologues across all 80 insects or specific to the 12 drosophilids. Orthologous
groups with 80 insect species from OrthoDB: universality, from widespread to specific or sparse species representation; duplicability,
from mostly single-copy to mostly multi-copy orthologue counts.
[https://doi.org/10.1016/j.cois.2015.01.004]

gVolante
• https://gvolante.riken.jp/
Comparação com avaliações [CEGMA, CVG, BUSCO] de genomas pré-computadas.
[https://doi.org/10.1093/bioinformatics/btx445]

Comparação entre estimativas

Novo genoma =
Nova espécie?
• Taxonomia molecular
– DNA-DNA Hybridization

Average Nucleotide Identity
(ANI)
• Nova espécie abaixo de 95% ANI
– 70% DDH (limiar recomendado)

FastANI
• Fast Whole-Genome Similarity (ANI) Estimation

DESAFIOS NO PROCESSO DE
MONTAGEM
Introdução

Desafios (1)
• Contaminates ambientais nas amostras (e.g. Bactérias, Fungos, Virus, …);
• Artefatos gerados durante as etapas (e.g. PCR) do sequenciamento (e.g. Quimeras e
mutações);
• Poliploidia e heterozigoze (Polimorfismos), Mutações;
• Erros de sequenciamento
– e.g. Roche 454 e ION - erros de homopolímeros (3 ou mais bases consecutivas);
• Vieses
– composição: frequência de nucleotídeos (conteúdo de GC);
– posicional: sequenciamento não uniforme do transcrito (degradação);
• Presença de moléculas adaptadores

Viés na composição
[Hansenetal.,2010]
Mapeamento genômico
DOI: 10.1093/nar/gkq224
[Hansen et al., 2010]

Viés no conteúdo de GC (1)
Sequenciamento do Panda Gigante
(Ailuropoda melanoleuca)
[Li R et al., 2010] [Li R et al., 2010]
% GENOMA MONTADO x CONTEÚDO G+C QUANTIDADE DE LEITURAS x CONTEÚDO G+C

A tecnologia de sequenciamento e
viés no conteúdo GC
As tecnologias de sequenciamento possuem um
viés com relação ao conteúdo de GC no resultado
do sequenciamento, nas leituras obtidas.

Viés no conteúdo de GC
nas plataformas NGS
[Quail et al., 2012]Viés: Illumina livre de amplificação [Kozarewa I, et al., 2009] (menor o viés)
/ PGM (maior o viés)
Genoma protozoário
Plasmodium falciparum (19,4%GC)

Erros inerentes às plataformas de
sequenciamento
[Fox et al., 2014]
doi:10.4172/jngsa.1000106

Sequenciamento de Homopolímeros
na plataforma 454/Ion Torrent
0
1
2
3
4
5
6
1 2 3 4 5 6 7 8 9
A
C
T
G
T C A G A ?c GG - AAAAA ?a
key sequence (TCAG) – Calibragem do sinal 454
Eixo Y
Sinal
Intensidade de
Fluorescência
(454)
ou de alteração
no pH (Ion
Torrrent).
Eixo X
Ciclos de
infusão
ordenada de
nucleotídeos
(A, C, T e G)
ACTG ACTG ACTG ACTG ACTG ACTG ACTG ACTG ACTG

Erros no Sequenciamento de
Homopolímeros na plataforma 454
Linearidade mantida até
homopolímeros de tamanho 8 nt
Distribuição dos erros
em homopolímeros
[Margulies M, et al. , 2006]
[Margulies M, et al. , 2006]
Dentre os erros até 6-mers:
Inserções (azul) Deleções (vermelho)

Desafios (2)
Regiões de baixa complexidade são as mais difíceis de serem montadas!
• Repetições (sequências repetitivas no transcritoma torna a
montagem mais difícil);
– Necessidade de "spanners" – leituras que atravessam uma região de
repetição e que possuem suficientes regiões únicas em ambos os lados;
• Utilização de leituras paired-ends/mate-pairs e suas propriedades de tamanho
e orientação, estando um dos pares ancorado em uma região única;

Terminologia e Conceitos Básicos (IV)
• Conceito de "k-mers"
– Subsequências de tamanho k
• Em uma sequência de tamanho (L) há (L-k+1) k-mers;
• Exemplo: sequência de tamanho L=8 tem 5 k-mers com
k=4
ACGTACGA
ACGT
CGTA
GTAC
TACG
ACGA
1
2
3
4
5
monomers

k-mers Uniqueness ratio
k-mers uniqueness ratio – número de k-mers distintas que ocorrem uma única vez no genoma
número total de k-mers distintas que ocorrem no genoma
[Schatz et al., 2010]
Trichomonas vaginalis
Exige um tamanho maior
de k-mer para alcançar a
unicidade

Problemas recorrentes causados por
repetições

Rochas, pedras e pedregulhos
[http://www.genomenewsnetwork.org/articles/03_00/assemble_genome_3_24.shtml]
paired-end/mate-pair
Classificação desses fragmentos
nos montadores:
mais confiáveis (Rochas) aos
menos confiáveis (Pedregulhos)

ALGORITMOS PARA MONTAGEM DE
SEQUÊNCIAS
Introdução

Algoritmos para montagem
• Três categorias (baseadas em grafos)
– Overlap/Layout/Consensus (OLC)
• grafo de sobreposições;
– de Bruijn Graphs (DBG)
• grafo de sobreposição de sufixo-prefixo de k-mers;
– Greedy graphs
• estrutura implícita de grafos de sobreposições;

Grafo
• Não ! Isto é um Gráfico !!!

Grafo
Grafo é uma estrutura G(V, A) onde V é um conjunto não
vazio de objetos denominados nós ou vértices
(nodes/vertices) e A é um conjunto de pares não
ordenados de V, chamado arestas ou arcos
(edges/arcs).
Nós (vértices): V = {U, V, W, X, Y, Z}
Arestas (arcos): A = {a, b, c, d, e, f, g, h, i, j}
Representação simplificada de um grafo

Grafo (1)
• Grafo é uma estrutura abstrata, pode ser representada por uma
rede de nós conectados por arcos
• Königsberg (Kaliningrad, Russia)
– Século 18
• Problema proposto: Cruzar as sete pontes numa caminhada contínua sem
passar duas vezes por qualquer uma delas.
• Caminho euleriano: passar por todas as arestas (pontes) uma única vez.
• Solução: não há (nós possuem valência – ou grau – ímpar)
Regiões de Königsberg = nós ou vértices
Pontes = arcos ou arestas[Compeau, Pevzner & Tesler, 2011]

Grafo (2)
• O Problema do Caixeiro
Viajante
– determinar a menor rota
para percorrer uma série de
cidades (visitando uma única
vez cada uma delas),
retornando à cidade de
origem.
– Meados de 1800
• William Rowan Hamilton e
Thomas Penyngton Kerkman
Caminho hamiltoniano: passar por todas
os nós (cidades) uma única vez.

Overlap-Layout-Consensus (OLC)
• 1º detecção de sobreposição;
– Alinhamento pareado entre todas as
leituras – identificação dos pares com
melhor match (alinhamento
global/local + heurísticas [e.g. seed &
extend]);
• 2º layout dos fragmentos (montagem do
contig);
– Construção e manipulação do grafo de
sobreposição
(Analisar/Simplificar/Limpar);
– Caminho Hamiltoniano;
• 3º decisão da sequência (montagem do
consenso);
– Alinhamento Múltiplo de Sequências
(Layout obtido percorrendo o(s)
caminho(s) mais provável(l/is) –
maior suporte);
– Obtenção da sequência consenso
(Normalmente a frequência de um
nucleotídeo em determinada
posição determina a base
consenso;)

Grafo de sobreposição para OLC
Caminho Hamiltoniano – caminho
(elementar) que permite passar uma
única vez por todos os nós do grafo –
contig;
Grafo de sobreposição:
nós - leituras;
arestas - sobreposições;
sobreposições não consideradas – caminhos alternativos

Softwares montadores (OLC)
• Utilizam o paradigma OLC:
– Phrap (http://www.phrap.org/)
• genoma, cDNA
• Sanger, 454
• (Green, P., 1994 - unpublished)
– CAP3 (http://seq.cs.iastate.edu/)
• genoma, cDNA
• Sanger, 454
• (Huang, X. and Madan, A., 1999)
– MIRA (http://sourceforge.net/projects/mira-assembler/)
• genoma, cDNA
• Sanger, 454, Illumina, Ion Torrent, PacBio, SOLiD (convertido para bases)
• (Chevreux, B. et al., 1999) (Chevreux, B. et al., 2004)
– Newbler (https://valicertext.roche.com/)
• genoma, cDNA
• Sanger, 454, Illumina, Ion Torrent, PacBio, SOLiD (convertido para bases)
• Software Proprietário da Roche

Greedy Graphs
• A partir de múltiplos alinhamentos pareados entre todas as leituras;
• Operação básica: dada alguma leitura ou contig, adiciona uma ou mais
leituras ou contigs (mais similares uns aos outros) de forma progressiva
até que não haja mais operações possíveis;
• Estrutura implícita de grafo, em que somente são consideradas as
arestas (alinhamentos) com alto score (define o caminho);
• O algoritmo deve incorporar mecanismos para lidar com sobreposições
falsas.
– Sobreposições de regiões repetitivas podem ter score alto e levar a erros na
montagem.
I - reads 1 e 2 (score 200)
II - reads 3 e 4 (score 150)
III - reads 2 e 3 (score 50)
1
2
3
4
Consenso a
partir das
sobreposições

Softwares montadores (Greedy)
• Baseados em grafos do tipo Greedy:
– SSAKE (http://www.bcgsc.ca/platform/bioinfo/software/ssake)
• genoma
• Illumina
• (Warren, R.L. et al., 2007)
– SHARCGS (http://sharcgs.molgen.mpg.de/)
• genoma
• Illumina
• (Dohm, J.C. et al., 2007)
– VCAKE (http://sourceforge.net/projects/vcake/)
• genoma
• Illumina
• (Jeck, W.R. et al., 2007)

Grafos de Bruijn
• Sequência De Bruijn:
– Sequência cíclica S de um alfabeto (por exemplo A={0,1}), de onde são derivadas
subsequências de tamanho k, consecutivas e que aparecem exatamente uma única
vez, percorrendo um caminho Euleriano em um grafo dessas subsequências
conectadas.
Nicolaas Govert de BruijnIrving John Good
{0,0}
{0,1}
{1,0}
{1,1}
1946

Exemplo de grafo de Bruijn
Alfabeto (A={0,1})

K-mers
• Subsequências de tamanho k
Subsequências de tamanho
K=7
Grafo de sobreposição de k-mers
sufixo (k-1) = prefix (k-1)

Grafos de-Bruijn
• Grafos de k-mers
– nós – todas as subsequências de tamanho k (ex. abaixo
K=4);
– arestas – todas as sobreposições (k-1 bases) entre essas
subsequências que são consecutivas na sequência original;
AACCGG
k-mer = 4
AACC
ACCG
CCGG
CCGGTT
k-mer = 4
CCGG
CGGT
GGTT
Exemplo: k= 4 => arestas representam as sobreposição de k-1 (3) bases

Grafos: Overlap Layout Consensus e de Bruijn

K-mers como nós
• No grafo ao lado, TODAS as
sobreposições entre os k-
mers extraídos foram
consideradas, dessa forma,
há arcos que ligam k-mers,
porém sem suporte nas
leituras
– Por exemplo:
• Não há leituras que possuem a
subsequência “ATGC” sendo
assim a aresta que liga os k-
mers “ATG” com “TGC” não
tem suporte

K-mers como nós e somente as arestas
com suporte
AAT
ATG
TGG GGC
GCG
TGC
CGT
GCA
GTG
CAA
AT
TG
GG
GC
CG
GT
AA
TG
CA
GC
Nós = k-mers
Arestas = sobreçosições
Nós = sobreposições
Arestas = k-mers

Estratégia utilizando grafos de-Bruijn
[Schatz M C et al. Genome Res. 2010;20:1165-1173]
Grafo de k-mers (subsequências de tamanho k = 3)
e sobreposições de tamanho k-1 (3-1=2)
Grafo de Reads e
suas sobreposições

Características dos grafos k-mers
• Em geral
– A montagem é um problema de redução de grafos.
• NP-difíceis, não há uma solução determinística eficiente (tempo polinomial) conhecida para
encontrar o caminho exato (pode nem ser possível);
• Utilização de heurísticas: reduzir a redundância, reparar erros, reduzir a complexidade, alargar
caminhos simples e simplificar o grafo;
• Vantagens
– Desenvolvidos para lidar com a alta complexidade e o grande volume de dados dos
NGS;
– Rápida detecção de k-mers compartilhados - reduz custo computacional em relação à
busca de sobreposições em alinhamentos pareados;
• Não necessita comparações pareadas (todas x todas);
• Desvantagens
– Usam muita memória (tabela hash k-mers);
– Mais sensível a repetições e a erros de sequenciamento;
– Baixa sensibilidade (pode perder algumas sobreposições verdadeiras), dependendo:
• tamanho de k
– tamanho da sobreposição
• taxa de erro nas leituras (criam vértices e arestas no grafo aumentando a complexidade)
• Repetições (aumentam exponencialmente o número de caminhos no grafo)

Tamanho das leituras e Profundidade
do Sequenciamento
• Quanto maior o tamanho maior será a confiança nas
sobreposições e maior pode ser o k, evitando
problemas de sobreposições errôneas de k-mers,
possibilitando também ultrapassar pequenas
repetições;
– Sequências paired-end também contribuem pois há a
informação da distância entre os fragmentos;
• Profundidade do Sequenciamento contribui para
aumentar a cobertura do transcritoma e aumentar a
quantidade de suporte nos vértices (permitindo
aumentar o limiar estabelecido de cobertura e
evitando erros de sequenciamento)

Tamanho de k
• Tamanho de k :não pode ser nem muito grande, nem muito pequeno:
– grande o suficiente para não pegar falsas sobreposições que
compartilham k-mers em comum (resolução de repetições);
• k-mers grandes
– menor conectividade nos grafos com maior especificidade;
– grafos menores consomem menos memória RAM;
– pequeno o suficiente para encontrar o máximo de sobreposições
verdadeiras (maior aproveitamento, lidando com pequenos erros de
sequenciamento);
• k-mers pequenos
– alta conectividade nos grafos com maior sensibilidade;
– maior divergência e ambiguidade;
– grafos maiores consomem mais memória RAM;
• Solução para minimizar o problema:
– Combinar as informações dos grafos com diferentes tamanhos de k;
• [Surget-Groba et al., 2010]
• [Schulz et al., 2012]

Características dos grafos de-Bruijn
• No caso de sequenciamentos que não têm orientação específica (ambas
as fitas do cDNA podem ser sequenciadas) é necessário um mecanismo
para identificar a correta orientação;
– e.g. os nós (subsequências) podem possuir dois canais de entrada/saída –
forward/reverse;
• Repetições complexas (repetições em tandem, repetições invertidas,
repetições imperfeitas, repetições inseridas em outras repetições).
Repetições maiores ou iguais a k levam a grafos complicados, que não
contêm por si só informações suficientes para resolver ambiguidades;
– e.g. recorrer às sequências originais e possivelmente a fragmentos mate-
pairs/paired-ends;
• Sequências palíndromes (idênticas à reversa complementar) induzem a
caminhos que retornam a si (k=6; ACGCGT == ACGCGT) e podem causar
ambiguidade quanto à orientação do transcrito;
– e.g. utilização de um k ímpar (k=7; ACGCGTA ≠ TACGCGT) evita esse tipo de
ocorrência;
• Erros de sequenciamento;
– e.g. pesar os vértices pelo número de leituras que lhes dão suporte auxilia na
identificação de erros;
ACGCGTA
TACGCGT

Complexidades em k-mers
• Ramificações – caminhos sem-saídas
divergentes;
– Induzidos por erros no sequenciamento nas
extremidades das leituras;
• Bolhas – caminhos que divergem e depois
convergem;
– Induzidos por erros no sequenciamento no meio
das leituras;
• Corda esfiapada – caminhos que convergem e
divergem;
– Induzidos por repetições;
• Ciclos – caminhos que convergem neles
mesmos;
– Induzidos por repetições (e.g. repetições em
tandem – pequenos ciclos);
[Miller, J.R., et al., 2010]
"tips"

Exemplo
AGTCGAG CTTTAGA CGATGAG CTTTAGA
GTCGAGG TTAGATC ATGAGGC GAGACAG
GAGGCTC ATCCGAT AGGCTTT GAGACAG
AGTCGAG TAGATCC ATGAGGC TAGAGAA
TAGTCGA CTTTAGA CCGATGA TTAGAGA
CGAGGCT AGATCCG TGAGGCT AGAGACA
TAGTCGA GCTTTAG TCCGATG GCTCTAG
TCGACGC GATCCGA GAGGCTT AGAGACA
TAGTCGA TTAGATC GATGAGG TTTAGAG
GTCGAGG TCTAGAT ATGAGGC TAGAGAC
AGGCTTT ATCCGAT AGGCTTT GAGACAG
AGTCGAG TTAGATT ATGAGGC AGAGACA
GGCTTTA TCCGATG TTTAGAG
CGAGGCT TAGATCC TGAGGCT GAGACAG
AGTCGAG TTTAGATC ATGAGGC TTAGAGA
GAGGCTT GATCCGA GAGGCTT GAGACAG

Exemplo
• Grafo completo (sem simplificação)
AGAT
(8x)
ATCC
(7x)
TCCG
(7x)
CCGA
(7x)
CGAT
(6x)
GATG
(5x)
ATGA
(8x)
TGAG
(9x)
GATC
(8x)
GATT
(1x)
TAGT
(3x)
AGTC
(7x)
GTCG
(9x)
TCGA
(10x)
GGCT
(11x)
TAGA
(16x)
AGAG
(9x)
GAGA
(12x)
GACA
(8x)
ACAG
(5x)
GCTT
(8x)
GCTC
(2x)
CTTT
(8x)
CTCT
(1x)
TTTA
(8x)
TCTA
(2x)
TTAG
(12x)
CTAG
(2x)
AGAC
(9x)
AGAA
(1x)
CGAG
(8x)
CGAC
(1x)
GAGG
(16x)
GACG
(1x)
AGGC
(16x)
ACGC
(1x)

Simplificação do grafo
1ª etapa

Exemplo
• Após primeira simplificação (agrupamento de k-
mers consecutivos, sem ambiguidade)
TAGTCGA
AGAGATAGA
AGAT
GCTTTAG
GCTCTAG
AGACAG
AGAA
CGAG
CGACGC
GAGGCT
GATCCGATGAG
GATTTAGT
(3x)
AGTC
(7x)
GTCG
(9x)
TCGA
(10x)

Identificação de pontas (Tips) e
bolhas
Tips = Nós desconectados no terminal e de baixo suporte

Exemplo
• Após remoção de tips (caminhos que levam a nós com
baixo suporte * e a vértices sem grau de emissão)
TAGTCGA
AGAGATAGA
AGAT
GCTTTAG
GCTCTAG
AGACAG
CGAG
GAGGCT
GATCCGATGAG
* o suporte do vértice é dado pela sua multiplicidade,
a qual deve representar a cobertura das bases em
determinada região.

Algoritmo para remoção de
bolhas (Tour bus algorithm)
• Exemplo 1:
• Exemplo 2:
Largura
Profundidade
Velvet (Tour bus)
caminho em largura no grafo (breadth-first traversal)
prioridade ao que tem maior suporte (multiplicidade no vértice)

Exemplo
• Após remoção de bolhas (nova etapa de
simplificação
TAGTCGA
AGAGATAGA
AGAT
GCTTTAG AGACAG
CGAG
GAGGCT
GATCCGATGAG
?
Ambos
Com
suporte

Exemplo
• Simplificação final
TAGTCGAG AGAGACAG
AGATCCGATGAG
GAGGCTTTAGA
TAGTCGAG GAGGCTTTAGA AGATCCGATGAG GAGGCTTTAGA AGAGACAG
TAGTCGAGGCTTTAGATCCGATGAGGCTTTAGAGACAG
Sequência consenso:
Caminho pelos vértices (uma única vez em cada aresta – caminho euleriano):

Softwares montadores (de-Bruijn)
• Baseados em grafos de de-Bruijn:
– VELVET /Oases (http://www.ebi.ac.uk/~zerbino/velvet/)
• genoma, cDNA
• Illumina, SOLiD (2-base encoding)
• (Zerbino, D.R. e Birney E., 2008)
– SPADES/rnaSPAdes
(http://cab.spbu.ru/software/spades/)
• genoma, cDNA
• Illumina
• (Bankevich, A. et al., 2012)
– Etc.

SPAdes x Velvet
• 50 Salmonella enterica subsp. enterica serovar Paratyphi B dTa+ (S. Java) isolates were tested. DNA
[http://www.engage-europe.eu/-/media/Sites/engage-europe/Final-website-documents/ENGAGE_AppE_benchmarking_Velvet-
SPAdes_final.ashx?la=da&hash=A6AB88A45DC9205300258FCD824D4C7304214551]

FERRAMENTAS PARA MONTAGEM
DE SEQUÊNCIAS
Introdução

Funcionamento (1)
• 1ª ETAPA: Alinhamentos pareados entre as leituras (seed & extend);
• Identificação prévia de possívels sequências de adaptadores (regiões 3' ou
5' que frequentemente se repetem nas leituras) ou adaptadores podem
ser removidos previamente caso informados. (Parâmetros: -vt e -vs)
• Realizado em 2 fases:
• Leituras longas
• Leituras curtas

seed-and-extend
Estende, considerando o mínimo de
sobreposição (default 40 bp) e o mínimo de
identidade de alinhamento (default 90%)
Nº de SEEDs: 1 (default)
Tamanho da SEEDs: 16-mers (default) de
cada leitura, sendo uma SEED a cada 12 bp
(default) a partir da anterior;
step size
seed length seed count
base a base seed and extend

Sobreposições
[http://www.genomenewsnetwork.org/articles/03_00/assemble_genome_3_24.shtml]
ERRO DE MONTAGEM FRAGMENTO IGNORADO

Unitig
• O newbler constrói alinhamentos múltiplos de leituras com sobreposição e
identifica regiões com diferenças consistentes entre os conjuntos de
leituras e as divide em contigs (unitigs) – mini-montagens;
• Unitig – Uniquely Assemble-able Contig - contig formado pela sobreposição
de sequências que alinham unicamente entre si, sem contradições, ou seja,
sem ambiguidades;

Unitigs Únicos (U-Unitigs) e
Repetitivos

Funcionamento (3)
• Montagem do grafo de contigs, baseado no alinhamento das
leituras que atravessam as mini-montagens;
nós – leituras alinhadas de forma contígua (contigs)
arestas – leituras que alinham parte em um contig e
parte em outro

Funcionamento (4)
• Resolução de estruturas de ramificação no grafo (simplificação);
• Extensão dos "contigs" é realizada por meio da visita a cada um dos nós do
grafo (Caminho Hamiltoniano);
• Montagem da sequência consenso usando a informação da qualidade/sinal
para cada base nos alinhamentos múltiplos;
Se há dados disponíveis de sequências paired-end inclui uma etapa adicional:
• Organização dos contigs em scaffolds, usando a informação dos pares e da
distância aproximada dos pares entre os contigs.

Overview
• ( ) Identificar as sobreposições entre as leituras;
– seed & extend;
– Grafo de sobreposição e reads;
– Identificação de unitigs (A,B,C e Repeat);
• ( ) Construção do grafo de sobreposições;
• ( ) Percorrendo o grafo para obter a sequência consenso;

Princípios básicos e Terminologia
Newbler
Definições (-cdna):
contig: Conjunto de leituras com regiões de sobreposição não contestáveis ("unitigs")
e com diferenças consistentes entre os demais conjuntos de leituras. Um contig
pode representar um exon ou parte dele.
isogroup: É uma coleção de contigs que contêm leituras que os conectam, podendo
representar os contigs de um mesmo locus (gene).
isotig: Caminhos alternativos no grafo de contigs dentro de um isogroup. Um isotig
pode representar um transcrito individual, ou seja, uma variante transcricional
(isoforma) do gene.

Chamada básica do Montador
runAssembly [parâmetros] seqs.fasta
• Procura pelo arquivo seqs.fasta.qual no
mesmo diretório
• Cria o seguinte diretório (por padrão):
– P_yyyy_mm_dd_hh_min_sec_runAssembly
• P_ = Projeto, seguido de data e hora
2.6+ - aceita sequências no formato FASTQ

Parâmetros mais comuns (1)
• -cdna
– montagem em projetos transcritomas (cDNA);
• -urt
– "use read tips" (extremidades das leituras) para produzir isotigs mais longos a partir de
únicas leituras;
• -o output_directory
– informar o diretório onde serão armazenados os resultados;
• -force
– força o reinicio da montagem, caso o diretório informado para os resultados já exista;
• -vt trimmingFile.fasta
– informar um arquivo fasta com as sequências de vetores, primers ou adaptadores , que devem
ser excluídas das extremidades das leituras;
• -vs screeningFile.fasta
– informar um arquivo fasta com as sequências cujas regiões devem ser mascaradas nas
leituras;

Parâmetros mais comuns (2)
• -a num
– tamanho mínimo para o contig em 454AllContigs (default 100) – obs.: 0 se -cdna;
• -l num
– tamanho mínimo para o contig em 454LargeContigs/454Isotigs (default 500);
• -m
– mantém os dados de sequências na memória para aumentar a velocidade (necessita de RAM);
• -cpu num
– número de processadores para uso pelo montador (default 1);
• -minlen num
– tamanho mínimo para as leituras serem usadas na montagem;
• -het
– habilita o modo para considerar heterozigozidade (e.g., organismos diplóides). Esperar uma maior
variabilidade.
• -rip
– parâmetro de restrição, a leitura deve ser alocada em somente um contig – obs.: não considerado se -cdna

Outros parâmetros (1)
-cdna options
• -ig
– Isogroup Threshold (número máximo de contigs em um isogroup). Não serão formados isotigs
e aparecerão como contigs nos arquivos de saída (default: 500 contigs);
• -it
– Isotig Threshold (número máximo de isotigs em um isogroup). O processo de percorrer o
grafo termina e aparecerão como contigs nos arquivos de saída (default: 100 isotigs);
• -icc
– Isotig Contig Count Threshold (número máximo de contigs em um isotig). Isotig não aparece
na lista e seus contigs poderão ou não aparecer na lista, dependendo se ele pertence ou não a
outro isotig (default: 100 contigs);
• -icl
– Isotig Contig Length Threshold (tamanho mínimo de um contig para o isotig). Isotig não
aparece na lista e seus contigs poderão ou não aparecer na lista, dependendo se ele pertence
ou não a outro isotig (default: 3 bp);

Outros parâmetros (2)
• -notrim
– desabilitar trimagem padrão de qualidade e primer;
• -p
– especificar que as leituras são paired-ends, caso contrário isso será detectado automaticamente;
• -ud
– trata leituras separadamente, não agrupamento de duplicatas;
• -ss
– especificar seed step parameter – distância para início de uma nova seed (default: 12 bp);
• -sl
– especificar seed length parameter – tamanho da seed (default: 16 bp);
• -sc
– especificar seed count parameter – quantas seeds são necessárias para o alinhamento (default: 1);
• -ml
– especificar tamanho mínimo da sobreposição (default: 40bp);
• -mi
– especificar a identidade mínima da sobreposição (default: 90bp);
Parâmetros que afetam diretamente o rigor do alinhamento!!!

Parâmetros 2.6+
• -isplit
– Procurar por "depth spike" gerando um número
maior de isotigs;
• -scaffold
– Gera arquivos de saída (output) .fasta e .qual
gerados como resultados do processo de
scaffolding;

Arquivos de saída (1)
• Arquivos de sequências e qualidades
– Contigs
• 454AllContigs.fna
>contig00001 length=542 numreads=16 gene=isogroup00001 status=isotig
>contig00002 length=2 numreads=43 gene=isogroup00001 status=it_thresh
• 454AllContigs.qual
– Isotigs
• 454Isotigs.fna
>isotig00018 gene=isogroup00002 length=2494 numContigs=6
>isotig00003 gene=isogroup00004 length=2675 numContigs=10
• 454Isotigs.qual
• 454Isotigs.faa (ORFs traduzidas - considerando 6 frames {-3, -2, -1, +1, +2 e +3})
>isotig00018 1503 3236 -1 1734 577 19
>isotig00003 1824 2369 +3 546 181 1
name/start/end/coding frame/nucleotide length/protein length/number of methionines

• Arquivos extras
– Alinhamentos de ORFs
• 454IsotigOrfAlign.txt
isotig00018 2881 GGCGGGCAGTAAATATCATCATTGAGAATGCCCTCTTTCACTTGCAGAAAGAACAGGCGCTGAGTGATGTCCTGAATCAA 2960
-1:1503..3236* 119 .P..P..C..Y..I..D..D..N..L..I..G..E..K..V..Q..L..F..F..L..R..Q..T..I..D..Q..I..L 93
-2:2660..2902 8 L..R..A..T..F..I..M..M 1
+3:2709..3152 59 ..R..A..V..N..I..I..I..E..N..A..L..F..H..L..Q..K..E..Q..A..L..S..D..V..L..N..Q.. 84
– ACE (Como as leituras foram alinhadas para a formação dos Isotigs
– visualização no programa Tablet)
• 454Isotigs.ace
– Estatísticas (Estatísticas da montagem, e.g. número de leituras e
bases alinhadas, sobreposições, tamanho médio dos contigs, etc.)
• 454NewblerMetrics.txt
– http://contig.wordpress.com/2010/03/11/newbler-output-i-the-
454newblermetrics-txt-file/
– Progresso de execução
• 454NewblerProgress.txt
R (Arg) A (Ala) ...

• Leituras
– Status no alinhamento (extremidade 3' e 5' do contig);
• 454ReadStatus.txt
AccnoRead Status 5' Contig 5' Position 5' Strand 3' Contig 3' Position 3' Strand
F62E2P401D47TD Singleton
F62E2P401ALCTK Outlier
F62E2P401CVVLA TooShort
F62E2P401ANAAD Repeat
F62E2P401CE0XB PartiallyAssembled contig03687 124 - contig03687 493 +
F62E2P401EC2X1 Assembled contig02209 322 - contig02209 48 +
F62E2P401C259U Assembled contig00119 21 + contig00129 38 -
– Pontos de trimagem originais e revisados para a
montagem
• 454TrimStatus.txt
Accno Trimpoints Used Used Trimmed Length Orig Trimpoints Orig Trimmed Length Raw Length
F62E2P401BCQ2E 18-543 526 5-543 539 557
F62E2P401BGGG5 38-149 112 5-149 145 779
F62E2P401ATLP4 5-97 93 5-97 93 297
F62E2P401BJE8M 5-66 62 5-66 62 260
Assembled – Utilizada integralmente na montagem
Too Short – Muito pequena
Repeat – Identificada como repetitiva
Outlier – Leitura problemática (e.g. quimera)
PartiallyAssembled – Somente aproveitada uma parte da leitura na montagem
F62E2P401EC2X1 – inicia na base 48 contig02209 e termina na base 322 do
contig02209 (a leitura na forma complementar-reversa está integralmente
dentro do contig02209)
F62E2P401C259U – inicia na base 21 contig00119 e termina na base 38 do
contig00129 (leitura atravessa dois contigs)
Trimpoints Orig – pontos de trimagem originais (presentes no sff ou fasta) ou caso não informado: 1 até tamanho da sequência
Trimpoins Used – trimagem realizada pelo montador

• Montagem
– Informações relacionadas à sequência consenso, qualidade,
profundidade de sequências únicas, ou seja, não duplicadas e
alinhadas na posição, profundidade de sequências mapeadas
unicamente e alinhadas na posição, profundidade de sequências
únicas e repetitivas mapeadas na posição, média de sinal das
reads nessa posição no pirograma e desvio padrão para cada
posição do contig.
• 454AlignmentInfo.tsv
Position Consensus Quality Score Unique Depth Align Depth Total Depth Signal StdDeviation
>isotig00001 1
1 C 64 2 2 2 1.00 0.00
2 A 64 2 2 2 1.00 0.00
3 G 64 2 2 2 2.00 0.00
4 G 64 2 2 2 2.00 0.00
5 A 64 2 2 2 1.00 0.00
6 G 64 2 2 2 1.00 0.00

• Grafos
– Estrutura de conexão entre contigs [3 seções – Nós (1) /Arestas (2)(3)];
• 454ContigGraph.txt
(1) ContigNum ContigName Length Average_depth
...
31 contig00031 12 1.4
32 contig00032 1633 80.3
33 contig00033 947 105.7
...
(2) Edge FromContigNum FromEnd ToContigNum ToEnd AlignmentReadDepth
...
C 32 5' 31 3' 5
C 32 3' 33 5' 20
...
S 22 2592 31:+;32:+;33:+
S 23 2580 32:+;33:+
S 24 947 33:+
...
(3) Edge ContigNum Sequence Thru-FlowInformation
...
I 4 TGTTCGGTGTTCTCCGCCTCGGGCTGTCACAAATCGTGCTGCTGTGAGCCACTGCGTGCAGGTCTCAT 2:2-3'..3-5';1:6-3'..3-5'
...
– Layout dos Isotigs
• 454IsotigsLayout.txt
>isogroup00007 numIsotigs=3 numContigs=3
Length : 12 1633 947 (bp)
Contig : 00031 00032 00033 Total:
isotig00022 >>>>> >>>>> >>>>> 2592
isotig00023 >>>>> >>>>> 2580
isotig00024 >>>>> 947
"I" short contig - seq. acima inicia antes do contig4 e termina depois = dois fluxos
de informação separados por ; qtd de sequências:contig_anterior-
extremidade..contig_posterior extremidade
"P" paired-ends – como as sequências em pares atravessam contigs e permitem
scaffolds
"F" read-flow – como as sequências simples atravessam contigs e permitem
scaffolds

Etapas de montagem com grafos
de-Bruijn

Velvet: Pebble and Rock Band
• Resolução de Repetições e Scaffolding
– Paired-end sequencing (Pebble, Breadcrumb)
– Long-read sequencing (Rock Band)
Pebble
[Zerbino e Birney, 2009]
[ZerbinoeBirney,2009]
Rock Band
Breadcrumb
[ZerbinoeBirney,2008]
(miolo de pão)

Construção da tabela hash
• velveth
– Extração dos k-mers e indexação por meio de uma tabela hash a partir de um conjunto de
leituras. As sobreposições entre os k-mers imediatamente são obtidas.
– São gerados 2 arquivos (Sequences e Roadmaps) necessários para a construção do grafo de-
Bruijn pelo programa seguinte: velvetg;
• Sequences: sequências indexadas;
• Roadmaps: representação das sobreposições entre os k-mers únicos;
./velveth output_directory hash_length [[-file_format] [-read_type] filename]
• Principais parâmetros
– hash_length é o tamanho dos k-mers em bp. Quanto menor o k mais lento!!!
– read_type pode ser:
• -short / -shortPaired
• -short2 / -shortPaired2
• -long / -longPaired
– file_format pode ser:
• -fasta (default)
• -fastq
• ...
Hash Table (Array Associativo)
1 | ACGACA
2 | CGACAT
k-mer=3
ACG 1
CGA 1 2
GAC 1 2
ACA 1 2
CAT 2
K-mer

Opções extras (velveth)
• Em hash_length é possível utilizar um intervalo m,M,s
minimum,Maximum,step
• Quando utilizando paired reads
-interleaved (default - um único arquivo intercaladas)
-separate (arquivos separados)
• Cria uma versão binária dos arquivos Sequences e Roadmaps;
-create_binary
• Identifica as leituras como provenientes de sequenciamento
orientação específica
-strand_specific

Construção do Grafo de-Bruijn (1)
• velvetg
– Construção e manipulação do grafo de-Bruijn, correção de erros e
resolução de repetições.
– Arquivos gerados:
• contigs.fa - sequências consensos (gaps dentro contigs = N's);
• PreGraph - grafo intermediário 0;
• Graph - grafo intermediário 1;
• Graph2 - grafo intermediário 2;
• LastGraph - descrição plena do grafo de-Bruijn produzido;
• Log - descrição das ações executadas;
• stats.txt - números relativos à montagem;
• UnusedReads.fa - sequências não utilizadas na montagem;
• velvet_asm.afg - formato compatível com AMOS (-amos_file yes);
./velvetg output_directory [options]

Construção do grafo de-Bruijn (2)
• Simplificação do grafo
– unificação de nós em cadeia
• Remoção de erros
– remoção de "tips" – cadeia de nós desconectada
no fim;
– remoção de "bubbles" – dois caminhos que
iniciam e terminam nos mesmos nós (Algoritmo
Tour Bus);
• remoção de conexões errôneas – remoção de nós e arcos
de baixa cobertura (erro sequenciamento);

Algoritmo Tour bus
• Exemplo 1:
• Exemplo 2:

Construção do Grafo de-Bruijn (3)
Principais parâmetros
-cov_cutoff <floating-point|auto> : remoção de nós/arcos baixa cobertura
(sem remoção)
-ins_length <integer> : distância esperada entre pares (sem
pareamento|auto)
-read_trkg <yes|no> : rastreamento das posições das leituras na
montagem (Graph2 e LastGraph/ oases) (no)
-min_contig_lgth <integer> : tamanho mínimo da sequência consenso (k*2)
-amos_file <yes|no> : exportar montagem para arquivo AMOS (no)
-exp_cov <floating point|auto> : estimativa da cobertura esperada
para regiões únicas, é usado na
resolução de repetições (sem leituras
longas ou em pares)
-long_cov_cutoff <floating-point> : remoção de nós com baixa cobertura
de leituras longas (sem remoção)
-unused_reads <yes|no> : exportar leituras não aproveitadas em
UnusedReads.fa (no)
-exportFiltered <yes|no> : exportar nós que foram eliminados pelo filtro
de cobertura (no)
-shortMatePaired* <yes|no> : indica que a biblioteca mate-pair pode ser
contaminada com leituras paired-end (no)
-scaffolding <yes|no> : fazer scaffolding (no)
-conserveLong <yes|no> : conservar sequências com leituras longas (no)

Estatísticas
• Arquivo tabular
– ID identificador do contig
– lgth tamanho em k-mers
– out número de arcos 3'
– in número de arcos 5'
– long_cov cobertura em k-mers (long)
– short1_cov cobertura em k-mers (short1)
– short1_Ocov cobertura em k-mers – mapeamento perfeito (short1)
– short2_cov cobertura em k-mers (short2)
– short2_Ocov cobertura em k-mers - mapeamento perfeito (short2)
– long_nb número de reads (long)
– short1_nb número de reads (short1)
– short2_nb número de reads (short2)

Cobertura k-mers
• Tamanho k-mers: Quantas subsequência de tamanho k
são observadas para uma sequência de tamanho LN;
• Tamanho k-mers (Lk) e tamanho nucleotídeos (LN)
– Lk= LN-(k-1) = LN-k+1
– LN = Lk+(k-1) = Lk+k-1
– e.g. ACGTGAAG (LN = 8)
• k = 3
– ACG / CGT / GTG / TGA / GAA / AAG (6)
– Lk = 8-3+1 = 6
• Cobertura k-mers (Ck) e cobertura nucleotídeos (CN)
– Ck = CN * (LN–k+1)/LN
– CN = (LN * CK)/(LN-k+1)

VelvetOptimiser
• Encontrar os "melhores" parâmetros (k-mer e cov_cutoff)
– VelvetOptimiser.pl [options] -f 'velveth input line'
--help This help.
--v|verbose+ Verbose logging, includes all velvet output in the logfile. (default '0').
--s|hashs=i The starting (lower) hash value (default '19').
--e|hashe=i The end (higher) hash value (default '31').
--f|velvethfiles=s The file section of the velveth command line. (default '0').
--a|amosfile! Turn on velvet's read tracking and amos file output. (default '0').
--o|velvetgoptions=s Extra velvetg options to pass through. eg. -long_mult_cutoff -max_coverage etc (default '').
--t|threads=i The maximum number of simulataneous velvet instances to run. (default '48').
--g|genomesize=f The approximate size of the genome to be assembled in megabases.
Only used in memory use estimation. If not specified, memory use estimation
will not occur. If memory use is estimated, the results are shown and then program exits. (default '0').
--k|optFuncKmer=s The optimisation function used for k-mer choice. (default 'n50').
--c|optFuncCov=s The optimisation function used for cov_cutoff optimisation. (default 'Lbp').
--p|prefix=s The prefix for the output filenames, the default is the date and time in the format DD-MM-YYYY-HH-MM_.
(default 'auto').
Advanced!: Changing the optimisation function(s)
Velvet optimiser assembly optimisation function can be built from the following variables.
Lbp = The total number of base pairs in large contigs
Lcon = The number of large contigs
max = The length of the longest contig
n50 = The n50
ncon = The total number of contigs
tbp = The total number of basepairs in contigs
Examples are:
'Lbp' = Just the total basepairs in contigs longer than 1kb
'n50*Lcon' = The n50 times the number of long contigs.
'n50*Lcon/tbp+log(Lbp)' = The n50 times the number of long contigs divided
by the total bases in all contigs plus the log of the number of bases
in long contigs.

Parâmetro crítico: K
• O parâmetro K (k-mers) para a construção do
grafo de-Bruijn é fator determinante para a
montagem
– Sensibilidade x Especificidade
• valor baixo de k (mais sensível)
• valor alto de k (mais específico)
Soluções:
• Escolher um parâmetro de k que forneça a montagem com melhores
resultados (N50)

Tablet - Next Generation Sequence
Assembly Visualization
• http://bioinf.scri.ac.uk/tablet/
• Sistema Estável
• Interface intuitiva
• Instalação simples
• Suporte a vários formatos de arquivos
– ACE, AFG, MAQ, SOAP2, SAM and BAM
• Importa atributos
– GFF3
• Exportar dados de cobertura por contig
(transcrito) – número de profundidade
por base do contig
– oases_asm.afg.txt
• Script para sumarizar os dados de
cobertura (coveragestats.py)
• Requer muita memória

SPAdes pipeline
• Módulos
– BayesHammer – read error correction tool for Illumina reads,
which works well on both single-cell and standard data sets.
– IonHammer – read error correction tool for IonTorrent data,
which also works on both types of data.
– SPAdes – iterative short-read genome assembly module; values
of K are selected automatically based on the read length and
data set type.
– MismatchCorrector – a tool which improves mismatch and
short indel rates in resulting contigs and scaffolds; this module
uses the BWA tool [Li H. and Durbin R., 2009];
MismatchCorrector is turned off by default, but we recommend
to turn it on (see SPAdes options section).

Correção de erros
Hammer
https://academic.oup.com/bioinformatics/article/27/13/i137/178096/Error-
correction-of-high-throughput-sequencing

Correção de erros
• Distância de Hamming
– Número de posições em que as sequências divergem entre si.
• Grafo de Hamming
• Agrupamento

Performance
Data set E. coli isolate
Stage Time
Peak RAM
usage (Gb)
Additional
disk space (Gb)
BayesHammer 26m 7.1 11
SPAdes 8m 8.1 1.5
MismatchCorrector 20m 1.8 27.7
Whole pipeline 54m 8.1 30.2
Standard isolate E. coli; 6.2Gb, 28M reads, 2x100bp, insert size ~ 215bp
16 threads on a server with Intel Xeon 2.27GHz processors and SSD hard drive

Linha de ComandoSPAdes genome assembler v3.13.0
Usage: /usr/local/bin/spades.py [options] -o <output_dir>
Basic options:
-o <output_dir> directory to store all the resulting files (required)
--sc this flag is required for MDA (single-cell) data
--meta this flag is required for metagenomic sample data
--rna this flag is required for RNA-Seq data
--plasmid runs plasmidSPAdes pipeline for plasmid detection
--iontorrent this flag is required for IonTorrent data
--test runs SPAdes on toy dataset
-h/--help prints this usage message
-v/--version prints version
Input data:
--12 <filename> file with interlaced forward and reverse paired-end reads
-1 <filename> file with forward paired-end reads
-2 <filename> file with reverse paired-end reads
-s <filename> file with unpaired reads
--merged <filename> file with merged forward and reverse paired-end reads
--pe<#>-12 <filename> file with interlaced reads for paired-end library number <#> (<#> = 1,2,...,9)
--pe<#>-1 <filename> file with forward reads for paired-end library number <#> (<#> = 1,2,...,9)
--pe<#>-2 <filename> file with reverse reads for paired-end library number <#> (<#> = 1,2,...,9)
--pe<#>-s <filename> file with unpaired reads for paired-end library number <#> (<#> = 1,2,...,9)
--pe<#>-m <filename> file with merged reads for paired-end library number <#> (<#> = 1,2,...,9)
--pe<#>-<or> orientation of reads for paired-end library number <#> (<#> = 1,2,...,9; <or> = fr, rf, ff)
--s<#> <filename> file with unpaired reads for single reads library number <#> (<#> = 1,2,...,9)
--mp<#>-12 <filename> file with interlaced reads for mate-pair library number <#> (<#> = 1,2,..,9)
--mp<#>-1 <filename> file with forward reads for mate-pair library number <#> (<#> = 1,2,..,9)
--mp<#>-2 <filename> file with reverse reads for mate-pair library number <#> (<#> = 1,2,..,9)
--mp<#>-s <filename> file with unpaired reads for mate-pair library number <#> (<#> = 1,2,..,9)
--mp<#>-<or> orientation of reads for mate-pair library number <#> (<#> = 1,2,..,9; <or> = fr, rf, ff)
--hqmp<#>-12 <filename> file with interlaced reads for high-quality mate-pair library number <#> (<#> = 1,2,..,9)
--hqmp<#>-1 <filename> file with forward reads for high-quality mate-pair library number <#> (<#> = 1,2,..,9)
--hqmp<#>-2 <filename> file with reverse reads for high-quality mate-pair library number <#> (<#> = 1,2,..,9)
--hqmp<#>-s <filename> file with unpaired reads for high-quality mate-pair library number <#> (<#> = 1,2,..,9)
--hqmp<#>-<or> orientation of reads for high-quality mate-pair library number <#> (<#> = 1,2,..,9; <or> = fr, rf, ff)
--nxmate<#>-1 <filename> file with forward reads for Lucigen NxMate library number <#> (<#> = 1,2,..,9)
--nxmate<#>-2 <filename> file with reverse reads for Lucigen NxMate library number <#> (<#> = 1,2,..,9)
--sanger <filename> file with Sanger reads
--pacbio <filename> file with PacBio reads
--nanopore <filename> file with Nanopore reads
--tslr <filename> file with TSLR-contigs
--trusted-contigs <filename> file with trusted contigs
--untrusted-contigs <filename> file with untrusted contigs

Linha de ComandoSPAdes genome assembler v3.13.0
Usage: /usr/local/bin/spades.py [options] -o <output_dir>
Basic options:
-o <output_dir> directory to store all the resulting files (required)
Input data:
-1 <filename>file with forward paired-end reads
-2 <filename>file with reverse paired-end reads
-s <filename>file with unpaired reads
--pe<#>-12 <filename> file with interlaced reads for paired-end library number <#> (<#> = 1,2,...,9)
--pe<#>-1 <filename> file with forward reads for paired-end library number <#> (<#> = 1,2,...,9)
--pe<#>-2 <filename> file with reverse reads for paired-end library number <#> (<#> = 1,2,...,9)
--pe<#>-s <filename> file with unpaired reads for paired-end library number <#> (<#> = 1,2,...,9)
--pe<#>-m <filename> file with merged reads for paired-end library number <#> (<#> = 1,2,...,9)
--pe<#>-<or> orientation of reads for paired-end library number <#> (<#> = 1,2,...,9; <or> = fr,
rf, ff)
--s<#> <filename> file with unpaired reads for single reads library number <#> (<#> =
1,2,...,9)
--trusted-contigs <filename> file with trusted contigs
--untrusted-contigs <filename> file with untrusted contigs

Linha de Comando
Pipeline options:
--only-error-correction runs only read error correction (without assembling)
--only-assembler runs only assembling (without read error correction)
--careful tries to reduce number of mismatches and short indels
--continue continue run from the last available check-point
--restart-from <cp> restart run with updated options and from the specified check-point ('ec', 'as', 'k<int>', 'mc', 'last')
--disable-gzip-output forces error correction not to compress the corrected reads
--disable-rr disables repeat resolution stage of assembling
Advanced options:
--dataset <filename> file with dataset description in YAML format
-t/--threads <int> number of threads
[default: 16]
-m/--memory <int> RAM limit for SPAdes in Gb (terminates if exceeded)
[default: 250]
--tmp-dir <dirname> directory for temporary files
[default: <output_dir>/tmp]
-k <int,int,...> comma-separated list of k-mer sizes (must be odd and
less than 128) [default: 'auto']
--cov-cutoff <float> coverage cutoff value (a positive float number, or 'auto', or 'off') [default: 'off']
--phred-offset <33 or 64> PHRED quality offset in the input reads (33 or 64)
[default: auto-detect]

Coverage cutoff
• Caminho com maior suporte de leituras (reads)

Combinando montagens
(MeGAMerge)

minimus2 is a modified version of
the minimus pipeline designed for
merging one or two sequence
sets (S1,S2). It uses a nucmer
based overlap detector which is
much faster than the Smith-
Waterman hash-overlap program
used by minimus.

scaffolding / GAP filling
• Scaffolding Pre-Assemblies After Contig Extension (SSPACE)
– Algoritmo baseado em grafos do tipo Greedy
https://github.com/nsoranzo/sspace_basic

Gap
closing
Figure 3 Example of a gap-closing approach using paired-end reads. (a) Taking as example a scaffold constituted by two contigs joined by an assembly gap (a run of `N's)
by remapping the reads back to the contigs (b) it is possible to identify reads that have at least one of the mates in the gap region. Finally, (c) the reads identified inside
the gap can be de novo assembled to fill the region, resulting in a (d) closed gap.

CONSIDERAÇÕES FINAIS
Conclusão

Conclusão
• Há diferenças relevantes entre abordagens,
funcionalidades e eficiência entre os diferentes
algoritmos e implementações para as tarefas de
alinhamento de sequências e montagem;
– As diferentes abordagens refletem diretamente no
processamento e especialmente no resultado das análises;
• Portanto é necessário conhecer os princípios de cada
abordagem, reconhecer os parâmetros e os resultados,
para podermos utilizá-los da melhor forma possível.
– Promover a utilização racional dos programas disponíveis!!!

Referências
• Miller JR, Koren S, Sutton G. Assembly algorithms for next-generation sequencing data. Genomics. 2010 Jun;95(6):315-
27. Epub 2010 Mar 6. Review. PubMed PMID: 20211242; PubMed Central PMCID: PMC2874646;
• Li R, Fan W, Tian G, et al. The sequence and de novo assembly of the giant panda genome. Nature. 2010 Jan
21;463(7279):311-7. Epub 2009 Dec 13. Erratum in: Nature. 2010 Feb 25;463(7284):1106. PubMed PMID: 20010809;
• Zerbino DR, Birney E. Velvet: algorithms for de novo short read assembly using de Bruijn graphs. Genome Res. 2008
May;18(5):821-9. Epub 2008 Mar 18. PubMed PMID: 18349386; PubMed Central PMCID: PMC2336801;
• Schatz MC, Phillippy AM, Shneiderman B, Salzberg SL. Hawkeye: an interactive visual analytics tool for genome
assemblies. Genome Biol. 2007;8(3):R34. PubMed PMID: 17349036; PubMed Central PMCID: PMC1868940;
• Milne I, Bayer M, Cardle L, Shaw P, Stephen G, Wright F, Marshall D. Tablet--next generation sequence assembly
visualization. Bioinformatics. 2010 Feb 1;26(3):401-2. Epub 2009 Dec 4. PubMed PMID: 19965881; PubMed Central
PMCID: PMC2815658;
• Kremer, Frederico Schmitt, McBride, Alan John Alexander, & Pinto, Luciano da Silva. (2017). Approaches for in silico
finishing of microbial genome sequences. Genetics and Molecular Biology, 40(3), 553-576
• http://pt.wikipedia.org/wiki/Teoria_dos_grafos
• http://contig.wordpress.com
• http://genepool.bio.ed.ac.uk/bioinformatics/index.html
• http://cbsu.tc.cornell.edu/nextgenworkshop2010w5.aspx
• https://banana-slug.soe.ucsc.edu
• http://www.stanford.edu/class/gene211
• http://www.slideshare.net/bosc2010/chambwe-bosc2010
• http://www.nesc.ac.uk/action/esi/contribution.cfm?Title=1104
• https://pt.slideshare.net/aubombarely/genome-assembly2014/10

dgpinheiro@gmail.com
Daniel Guariz Pinheiro

Montagem de Genomas

Mais conteúdo relacionado

Mais procurados

Semelhante a Montagem de Genomas

Último

Montagem de Genomas