UNIVERSIDADE FEDERAL DO PARÁ 
INSTITUTO DE CIÊNCIAS BIOLÓGICAS 
Edson Silva 
BELÉM-PA 
2014
Efficient de novo assembly of single-cell 
bacterial genomes from short-read data sets 
Chitsaz H. et al (2011)
INTRODUÇÃO
Introdução 
● Metagenômica 
● MDA (Multiple Displacement Amplification) 
● Amplificação de viés e formação de Chimeras 
● Cobertura do sequenciamento ajuda aliviar o 
problema
Introdução 
● O total potencial de montagens single-cell ainda 
não foi alcançado 
● Desafios são mais computacionais do que 
experimentais
Introdução 
● Cobertura não uniformes 
● Necessidade de adaptar as ferramentas de 
montagens 
Velvet Velvet-SC
Introdução 
● Aplicado à 2 genomas conhecidos e 1 
desconhecido 
● Identificando a maioria dos genes com nenhum 
esforço no fechamento de gaps e resolução de 
repeats 
SILVA[2012]
RESULTADOS
Velvet-SC improves assembly of 
short reads with highly nonuniform 
coverage 
● Velvet poda regiões de baixa cobertura 
● Velvet-SC 
● EULER+Velvet-SC
Characteristics of single-cell 
sequences 
● DNA amplificado: Escherichia coli (lane 1 e lane 
6) e Staphylococcus aureus 
● Chimeras: 2% E. coli read pairs e 5% S. aureus 
read pairs
Characteristics of single-cell 
sequences 
● Alta não uniformidade de cobertura 
● Blackout 
● As regiões de blackout podem ser eliminadas por 
combinação de reads de múltiplas single-cell
Characteristics of single-cell 
sequences 
Data sets ~600x 
(Blackout) 
0x ou 1x 
(kbp) 
~2,300x 
(Blackout) 
0x ou 1x 
(bases) 
E. coli lane 1 94 ~116 - - 
E. coli lane 6 50 ~13 - - 
S. aureus - - 2 143
De novo single-cell assembly of E. 
coli and S. aureus 
● Velvet, Velvet-SC e EULER+Velvet-SC foram 
comparados 
● Fração selecionada aleatoriamente de reads de 
entrada variando de 0.1 à 0.9 do total e montado 
com EULER+Velvet-SC e Velvet
De novo single-cell assembly of E. 
coli and S. aureus 
● Aumento da cobertura gerou os melhores resultados 
● EULER+Velvet-SC superou o Velvet para o total 
de pb montadas em todas as coberturas
CHITSAZ[2011, p.917]
Single-cell assembly of an 
uncultured Deltaproteobacterium 
● La Jolla, California 
● Análise filogenética de sequencias (16S) revelou 
que esse organismo é membro da não cultivável 
Deltaproteobacteria, chamada SAR324
Single-cell assembly of an 
uncultured Deltaproteobacterium 
● SAR324_MDA reads 
● 57,816,790 de 67,995,232 reads passaram pelo 
filtro de pureza do Illumina
Assembly statistic 
CHITSAZ[2011, p.919]
Assembly statistic 
● MetaGene 
● Rendeu ao EULER+Velvet-SC um conjunto mais 
robusto para a anotação
Assembly purity 
● A contaminação no SAR324_MDA foi analisada 
pelo conteúdo GC, frequências de nucleotídeos das 
reads e contigs comparando com as referências de 
genomas bacteriabacteriano e o BLAST
Assembly purity 
● Árvore filogenética para cada ORF (Open Reading 
Frame) usando o APIS (Automated Phylogenetic 
Inference System)
Assembly purity 
● APIS pode ser usado para a identificação de 
contigs contaminantes 
● SAR324 possui dados filogenéticos inconsistentes
Insights from the SAR324_MDA 
Deltaproteobacterium genome 
● Características mais marcantes da montagem 
SAR324 é a presença de 18 Phytanoyl 
Dioxygenase 
● Catalisam a degradação da cadeia lipídica em 
clorofila
Insights from the SAR324_MDA 
Deltaproteobacterium genome 
● Características metabólicas de SAR324 sugerem 
que elas rastreiam e degradam afundando 
biomassa fotossintética 
● Deixa a superfície do oceano iluminado pelo sol
Insights from the SAR324_MDA 
Deltaproteobacterium genome 
● SAR324 
– Cosmopolita 
– Aeróbico – ATP através de O2 e C6H12O6 
– Móvel – utiliza flagelos 
– Quimiotáxico – processo de locomoção de células em 
direção a um gradiente químico
DISCUSSÃO
Discussão 
● Não uniformidade da cobertura 
● Validação do EULER-SR + Velvet-SC com 
genomas de referência 
● Método apresentou sucesso
Discussão 
● O rápido desenvolvimento de tecnologias de 
sequenciamento e a redução dos custos também 
prometem acelerar o processo
Discussão 
● Maior meta da genômica única célula é 
complementar o seu largo volume da dados 
metagenômicos com montagens de genomas de 
organismos não cultiváveis que suportam a 
anotação da maioria dos genes
Discussão 
● Essa tecnologia guiará estudos de organismos não 
cultiváveis para o microbioma humano e para o 
marinho e ambientes de solo
Discussão 
● O custo-benefício da abordagem contribui para 
exploração da taxonomia microbiana, evolução e 
extração de organismos ambientais 
● Biotecnologia e biomedicina
Discussão 
● Prever um maior desenvolvimento de EULER + 
Velvet-SC 
● Metagenômica e transcriptoma, que também são 
caracterizadas por uma cobertura altamente não 
uniforme
MÉTODOS
Velvet-SC: modifications to Velvet 
assembly algorithm 
● Sequências mescladas em um contig maior 
● Normalmente funde regiões de baixa cobertura com 
as de altas coberturas, resgatando assim, regiões de 
baixa cobertura da eliminação
EULER+Velvet-SC is EULER-SR's 
error correction combined with 
Velvet-SC 
● Geradas reads de MDAs feitas nas células (E. coli e 
S. aureus) 
● 600x e 2,300x de cobertura 
● 100-bp 
● Executando no Illumina Genome Analyzer IIx
Single-cell isolation 
● E. coli e S. aureus foram isoladas por 
micromanipulação 
● Amostra de célula marinha (La Jolla, Califórnia) foi 
filtrada, rapidamente congeladas e armazenadas a 
-80 ° C em 30% de glicerol
MDA and selection of candidate 
marine amplified DNA 
● Reagente GenomiPhi HY 
● O gene rRNA 16S foi amplificado e sequenciado e 
MDA marinho de interesse foi selecionado por 
análises BLAST de suas sequências 16S
Library generation and sequencing 
● Illumina Genome Analyzer IIx usando reagentes 
padrões 
Data sets Library 
E. coli lane 1 Paired-end 
E. coli lane 6 Paired-end 
S. aureus PCR-free paired-end 
Deltaproteobacteria PCR-free paired-end
Analysis and annotation of the 
single-cell assembly 
● Contigs analizadas pelo BLAST contra um banco 
de dados de sequência de nucleotídeos com entrada 
de GenBank e RefSeq 
● Anotação de genes ORFs, tRNAs, rRNA foi 
realizado usando o pipeline de anotação 
metagenômica JCVI ( J. Craig Venter Institute)
Analysis and annotation of the 
single-cell assembly 
● Análises filogenéticas de seleção de proteínas 
foram conduzidas no Bosque (Integrated 
phylogenetic analysis software) 
● Identificadores de genes utilizados em KEGG 
(Kyoto Encyclopedia of Genes and Genomes) 
Automatic Annotation Server (KAAS)
OBRIGADO!
Referência 
● CHITSAZ, Hamidreza. et al. Efficient de novo assembly of single-cell 
bacterial genomes from short-read data sets. Nature 
Biotechnology, Volume 29, Number 10, October 2011. 
● SILVA, Artur. et al. Next-Generation Sequencing and Assembly 
of Bacterial Genomes. 2012. 
● MetaGene <http://metagene.cb.k.u-tokyo. 
ac.jp/metagene/metagene.html>. Acessado em: 16/09/2014. 
● SAR324 cluster bacterium JCVI-SC AAA005, whole genome 
shotgun sequencing project 
<http://www.ncbi.nlm.nih.gov/nuccore/AGAU00000000.1>. 
Acessado em: 16/09/2014.
SLIDES RESERVAS
CHITSAZ[2011, p.919]

Seminario "Efficient de novo assembly of single-cell bacterial genomes from short-read data sets"

  • 1.
    UNIVERSIDADE FEDERAL DOPARÁ INSTITUTO DE CIÊNCIAS BIOLÓGICAS Edson Silva BELÉM-PA 2014
  • 2.
    Efficient de novoassembly of single-cell bacterial genomes from short-read data sets Chitsaz H. et al (2011)
  • 3.
  • 4.
    Introdução ● Metagenômica ● MDA (Multiple Displacement Amplification) ● Amplificação de viés e formação de Chimeras ● Cobertura do sequenciamento ajuda aliviar o problema
  • 5.
    Introdução ● Ototal potencial de montagens single-cell ainda não foi alcançado ● Desafios são mais computacionais do que experimentais
  • 6.
    Introdução ● Coberturanão uniformes ● Necessidade de adaptar as ferramentas de montagens Velvet Velvet-SC
  • 7.
    Introdução ● Aplicadoà 2 genomas conhecidos e 1 desconhecido ● Identificando a maioria dos genes com nenhum esforço no fechamento de gaps e resolução de repeats SILVA[2012]
  • 8.
  • 9.
    Velvet-SC improves assemblyof short reads with highly nonuniform coverage ● Velvet poda regiões de baixa cobertura ● Velvet-SC ● EULER+Velvet-SC
  • 10.
    Characteristics of single-cell sequences ● DNA amplificado: Escherichia coli (lane 1 e lane 6) e Staphylococcus aureus ● Chimeras: 2% E. coli read pairs e 5% S. aureus read pairs
  • 11.
    Characteristics of single-cell sequences ● Alta não uniformidade de cobertura ● Blackout ● As regiões de blackout podem ser eliminadas por combinação de reads de múltiplas single-cell
  • 12.
    Characteristics of single-cell sequences Data sets ~600x (Blackout) 0x ou 1x (kbp) ~2,300x (Blackout) 0x ou 1x (bases) E. coli lane 1 94 ~116 - - E. coli lane 6 50 ~13 - - S. aureus - - 2 143
  • 13.
    De novo single-cellassembly of E. coli and S. aureus ● Velvet, Velvet-SC e EULER+Velvet-SC foram comparados ● Fração selecionada aleatoriamente de reads de entrada variando de 0.1 à 0.9 do total e montado com EULER+Velvet-SC e Velvet
  • 14.
    De novo single-cellassembly of E. coli and S. aureus ● Aumento da cobertura gerou os melhores resultados ● EULER+Velvet-SC superou o Velvet para o total de pb montadas em todas as coberturas
  • 15.
  • 16.
    Single-cell assembly ofan uncultured Deltaproteobacterium ● La Jolla, California ● Análise filogenética de sequencias (16S) revelou que esse organismo é membro da não cultivável Deltaproteobacteria, chamada SAR324
  • 17.
    Single-cell assembly ofan uncultured Deltaproteobacterium ● SAR324_MDA reads ● 57,816,790 de 67,995,232 reads passaram pelo filtro de pureza do Illumina
  • 18.
  • 19.
    Assembly statistic ●MetaGene ● Rendeu ao EULER+Velvet-SC um conjunto mais robusto para a anotação
  • 20.
    Assembly purity ●A contaminação no SAR324_MDA foi analisada pelo conteúdo GC, frequências de nucleotídeos das reads e contigs comparando com as referências de genomas bacteriabacteriano e o BLAST
  • 21.
    Assembly purity ●Árvore filogenética para cada ORF (Open Reading Frame) usando o APIS (Automated Phylogenetic Inference System)
  • 22.
    Assembly purity ●APIS pode ser usado para a identificação de contigs contaminantes ● SAR324 possui dados filogenéticos inconsistentes
  • 23.
    Insights from theSAR324_MDA Deltaproteobacterium genome ● Características mais marcantes da montagem SAR324 é a presença de 18 Phytanoyl Dioxygenase ● Catalisam a degradação da cadeia lipídica em clorofila
  • 24.
    Insights from theSAR324_MDA Deltaproteobacterium genome ● Características metabólicas de SAR324 sugerem que elas rastreiam e degradam afundando biomassa fotossintética ● Deixa a superfície do oceano iluminado pelo sol
  • 25.
    Insights from theSAR324_MDA Deltaproteobacterium genome ● SAR324 – Cosmopolita – Aeróbico – ATP através de O2 e C6H12O6 – Móvel – utiliza flagelos – Quimiotáxico – processo de locomoção de células em direção a um gradiente químico
  • 26.
  • 27.
    Discussão ● Nãouniformidade da cobertura ● Validação do EULER-SR + Velvet-SC com genomas de referência ● Método apresentou sucesso
  • 28.
    Discussão ● Orápido desenvolvimento de tecnologias de sequenciamento e a redução dos custos também prometem acelerar o processo
  • 29.
    Discussão ● Maiormeta da genômica única célula é complementar o seu largo volume da dados metagenômicos com montagens de genomas de organismos não cultiváveis que suportam a anotação da maioria dos genes
  • 30.
    Discussão ● Essatecnologia guiará estudos de organismos não cultiváveis para o microbioma humano e para o marinho e ambientes de solo
  • 31.
    Discussão ● Ocusto-benefício da abordagem contribui para exploração da taxonomia microbiana, evolução e extração de organismos ambientais ● Biotecnologia e biomedicina
  • 32.
    Discussão ● Preverum maior desenvolvimento de EULER + Velvet-SC ● Metagenômica e transcriptoma, que também são caracterizadas por uma cobertura altamente não uniforme
  • 33.
  • 34.
    Velvet-SC: modifications toVelvet assembly algorithm ● Sequências mescladas em um contig maior ● Normalmente funde regiões de baixa cobertura com as de altas coberturas, resgatando assim, regiões de baixa cobertura da eliminação
  • 35.
    EULER+Velvet-SC is EULER-SR's error correction combined with Velvet-SC ● Geradas reads de MDAs feitas nas células (E. coli e S. aureus) ● 600x e 2,300x de cobertura ● 100-bp ● Executando no Illumina Genome Analyzer IIx
  • 36.
    Single-cell isolation ●E. coli e S. aureus foram isoladas por micromanipulação ● Amostra de célula marinha (La Jolla, Califórnia) foi filtrada, rapidamente congeladas e armazenadas a -80 ° C em 30% de glicerol
  • 37.
    MDA and selectionof candidate marine amplified DNA ● Reagente GenomiPhi HY ● O gene rRNA 16S foi amplificado e sequenciado e MDA marinho de interesse foi selecionado por análises BLAST de suas sequências 16S
  • 38.
    Library generation andsequencing ● Illumina Genome Analyzer IIx usando reagentes padrões Data sets Library E. coli lane 1 Paired-end E. coli lane 6 Paired-end S. aureus PCR-free paired-end Deltaproteobacteria PCR-free paired-end
  • 39.
    Analysis and annotationof the single-cell assembly ● Contigs analizadas pelo BLAST contra um banco de dados de sequência de nucleotídeos com entrada de GenBank e RefSeq ● Anotação de genes ORFs, tRNAs, rRNA foi realizado usando o pipeline de anotação metagenômica JCVI ( J. Craig Venter Institute)
  • 40.
    Analysis and annotationof the single-cell assembly ● Análises filogenéticas de seleção de proteínas foram conduzidas no Bosque (Integrated phylogenetic analysis software) ● Identificadores de genes utilizados em KEGG (Kyoto Encyclopedia of Genes and Genomes) Automatic Annotation Server (KAAS)
  • 42.
  • 43.
    Referência ● CHITSAZ,Hamidreza. et al. Efficient de novo assembly of single-cell bacterial genomes from short-read data sets. Nature Biotechnology, Volume 29, Number 10, October 2011. ● SILVA, Artur. et al. Next-Generation Sequencing and Assembly of Bacterial Genomes. 2012. ● MetaGene <http://metagene.cb.k.u-tokyo. ac.jp/metagene/metagene.html>. Acessado em: 16/09/2014. ● SAR324 cluster bacterium JCVI-SC AAA005, whole genome shotgun sequencing project <http://www.ncbi.nlm.nih.gov/nuccore/AGAU00000000.1>. Acessado em: 16/09/2014.
  • 44.
  • 46.

Notas do Editor

  • #3 Foi descrito um algoritmo para dados de curtas leituras para single-cells que melhora a montagem por utilizar um cutoff progressivo e incremental da cobertura Alguns teste e comparações foram feitas com leituras de single-cells da Escherichia coli e Staphylococcus aureus O método foi aplicado para a montagem de genoma de uma single-cell não cultivável chamada SAR324 que faz parte do grupo da Deltaproteobacteria, bactéria marinha
  • #5 MDA: métofdo que pode rapidamente amplificar em minutos amostras de DNA e gera produtos de grande tamanho com baixa frequências de erros Usado constantemente no whole genome amplification
  • #7 A cobertura não pode ser nem tão alta e nem tão baixa para não comprometer a montagem. Essa variação, a não uniformidade de cobertura são efeitos produzidos por erros nos contigs, ou seja, baixa qualidade em alguns nucleotídeos identificados
  • #8 A cobertura não pode ser nem tão alta e nem tão baixa para não comprometer a montagem. Essa variação, a não uniformidade de cobertura são efeitos produzidos por erros nos contigs, ou seja, baixa qualidade em alguns nucleotídeos identificados
  • #10 OLC: muito utilizado em projetos que utilizam longas leituras para o sequenciamento Sanger DBG: muito utilizado em projetos da NGS, baseados em tecnologias que geram pequenas leituras As duas abordagens podem ser utilizadas em um mesmo projeto, o OLC corrige os erros e o DBG ler os erros corrigidos
  • #11 Loci: local fixo no cromossomo onde se localiza determinado gene/marcador Chimeras: partes não lidas ou identificadas por criarem “grampos” nas leituras
  • #20 MetaGene: ferramenta para anotação de sequências metagenômicas
  • #21 Conteúdo GC: mede a estabilidade do genoma. DNA com maior conteúdo GC é mais estável do que DNA com menor conteúdo GC
  • #22 Conteúdo GC: mede a estabilidade do genoma. DNA com maior conteúdo GC é mais estável do que DNA com menor conteúdo GC
  • #46 OLC: muito utilizado em projetos que utilizam longas leituras para o sequenciamento Sanger DBG: muito utilizado em projetos da NGS, baseados em tecnologias que geram pequenas leituras As duas abordagens podem ser utilizadas em um mesmo projeto, o OLC corrige os erros e o DBG ler os erros corrigidos