UPARSE: An´alises de sequˆencias de 16S
rRNA
Leandro Nascimento Lemos
Doutorando em Biologia na Agricultura e no Ambiente
Supervisor: Profa. Dra. Tsai
Agosto/2017
Leandro Nascimento Lemos UPARSE: An´alises de sequˆencias de 16S rRNA
The Brazilian Microbiome: Current Status and
Perspectives
Leandro Nascimento Lemos UPARSE: An´alises de sequˆencias de 16S rRNA
Perfil de 16S rDNA: Pipelines
Leandro Nascimento Lemos UPARSE: An´alises de sequˆencias de 16S rRNA
UPARSE
Publicado em 2013 na Nature Methods.
Implementado no software Usearch.
Vantagem: Processamento de milhares de sequˆencias com
alta acur´acia em poucas horas.
Leandro Nascimento Lemos UPARSE: An´alises de sequˆencias de 16S rRNA
UPARSE
Obtenc¸˜ao de OTUs (Operational Taxonomic Units).
Remoc¸˜ao de artefatos de sequenciamento (e.g., sequˆencias de
baixa qualidade e quimeras).
Leandro Nascimento Lemos UPARSE: An´alises de sequˆencias de 16S rRNA
USEARCH
Leandro Nascimento Lemos UPARSE: An´alises de sequˆencias de 16S rRNA
Perfil de 16S rDNA
Leandro Nascimento Lemos UPARSE: An´alises de sequˆencias de 16S rRNA
Arquivo em formato fastq (10 minutos)
https://lemosbioinfo.wordpress.com/ufv/
Verificar a qualidade das dez primeiras bases da primeira, segunda e
terceira sequˆencia.
Leandro Nascimento Lemos UPARSE: An´alises de sequˆencias de 16S rRNA
Arquivo em formato fastq - Phred score
Leandro Nascimento Lemos UPARSE: An´alises de sequˆencias de 16S rRNA
Perfil de 16S rDNA
Leandro Nascimento Lemos UPARSE: An´alises de sequˆencias de 16S rRNA
Qualidade de sequenciamento/Remoc¸˜ao de sequˆencias de
baixa qualidade
Qualidade do sequenciamento
Software: FastQC
(http://www.bioinformatics.babraham.ac.uk/projects/fastqc)
Leandro Nascimento Lemos UPARSE: An´alises de sequˆencias de 16S rRNA
Usando o software Usearch: QC
1 Abrir o terminal do Linux.
2 usearch10.0.240 i86linux32 -fastx info reads.fq -output
reads.quality
3 Atividade: Verificar a qualidade das sequˆencias (5 minutos).
Leandro Nascimento Lemos UPARSE: An´alises de sequˆencias de 16S rRNA
Demultiplex
Possibilita o sequenciamento de muitas amostras em uma ´unica corrida.
Leandro Nascimento Lemos UPARSE: An´alises de sequˆencias de 16S rRNA
Usando o software Usearch: Demultiplex
1 Arquivo de barcodes:
Leandro Nascimento Lemos UPARSE: An´alises de sequˆencias de 16S rRNA
Usando o software Usearch: Demultiplex
1 Abrir o terminal do Linux.
2 usearch10.0.240 i86linux32 -fastx demux reads.fq -barcodes
bar.fa -fastqout reads demux.fq
Leandro Nascimento Lemos UPARSE: An´alises de sequˆencias de 16S rRNA
Remoc¸˜ao de primers
Sequˆencia do primer: CCGTCAATTCMTTTRAGT
usearch10.0.240 i86linux32 -fastx truncate reads.fq
-stripleft 18 -fastqout reads stripped.fq
Leandro Nascimento Lemos UPARSE: An´alises de sequˆencias de 16S rRNA
Expected error
Uma sequˆencia com duas bases: A (Q2) e (Q40);
Valor m´edio de Phred Score: Q21
Valor esperado de erro: 0.5
Low Q scores (high error probabilities) dominate expected errors, but this
information is lost by averaging if low Qs appear in a read with mostly
high Q scores. This explains why expected errors is a much better
indicator of read accuracy than average Q.
Leandro Nascimento Lemos UPARSE: An´alises de sequˆencias de 16S rRNA
Remoc¸˜ao de sequˆencias de baixa qualidade
usearch10.0.240 i86linux32 -fastq filter reads stripped.fq
-fastq maxee 1.0 -fastq trunclen 350 -fastaout filtered.fa
-relabel Filt
Leandro Nascimento Lemos UPARSE: An´alises de sequˆencias de 16S rRNA
Dereplicac¸˜ao
Identificar um conjunto ´unico de sequˆencias [Reduzir a complexidade
computacional do conjunto de dados.]
usearch10.0.240 i86linux32 -fastx uniques filtered.fa
-sizeout -relabel Uniq -fastaout uniques.fa
Leandro Nascimento Lemos UPARSE: An´alises de sequˆencias de 16S rRNA
Agrupamento de sequˆencias em OTUs
1 Todos os pares de
sequˆencias OTU devem
ter ¡97% de identidade.
2 Uma sequˆencia OTU deve
ser a mais abundante
dentro de um range de
97%.
3 As seq¨uˆencias quim´ericas
devem ser descartadas
4 Todas as seq¨uˆencias
n˜ao-quim´ericas devem
corresponder a pelo
menos uma OTU com ≥
97% de identidade.
Leandro Nascimento Lemos UPARSE: An´alises de sequˆencias de 16S rRNA
Agrupamento de sequˆencias em OTUs
usearch10.0.240 i86linux32 -cluster otus uniques.fa -otus
otus.fa -relabel Otu
Leandro Nascimento Lemos UPARSE: An´alises de sequˆencias de 16S rRNA
Gerac¸˜ao de OTU table
1 usearch10.0.240 i86linux32 -otutab reads demux.fq
-otus otus.fa -otutabout otutab raw.txt
Leandro Nascimento Lemos UPARSE: An´alises de sequˆencias de 16S rRNA
Normalizac¸˜ao do n´umero de sequˆencias
1 usearch10.0.240 i86linux32 -otutab norm
otutab raw.txt -sample size 1000 -output
otutab.txt
Leandro Nascimento Lemos UPARSE: An´alises de sequˆencias de 16S rRNA
Predic¸˜ao de Taxonomia
1 usearch10.0.240 i86linux32 -sintax otus.fa -db
rdp 16s v16.fa -strand both -tabbedout sintax.txt
-sintax cutoff 0.8
Leandro Nascimento Lemos UPARSE: An´alises de sequˆencias de 16S rRNA
Summary
1 usearch10.0.240 i86linux32 -sintax summary
sintax.txt -otutabin otutab.txt -rank g -output
genus summary.txt
2 usearch10.0.240 i86linux32 -sintax summary
sintax.txt -otutabin otutab.txt -rank p -output
phylum summary.txt
Leandro Nascimento Lemos UPARSE: An´alises de sequˆencias de 16S rRNA
UPARSE
Leandro Nascimento Lemos UPARSE: An´alises de sequˆencias de 16S rRNA
Obrigado pela aten¸c˜ao!
Leandro Nascimento Lemos UPARSE: An´alises de sequˆencias de 16S rRNA

UPARSE: Análises de sequências de 16S rRNA

  • 1.
    UPARSE: An´alises desequˆencias de 16S rRNA Leandro Nascimento Lemos Doutorando em Biologia na Agricultura e no Ambiente Supervisor: Profa. Dra. Tsai Agosto/2017 Leandro Nascimento Lemos UPARSE: An´alises de sequˆencias de 16S rRNA
  • 2.
    The Brazilian Microbiome:Current Status and Perspectives Leandro Nascimento Lemos UPARSE: An´alises de sequˆencias de 16S rRNA
  • 3.
    Perfil de 16SrDNA: Pipelines Leandro Nascimento Lemos UPARSE: An´alises de sequˆencias de 16S rRNA
  • 4.
    UPARSE Publicado em 2013na Nature Methods. Implementado no software Usearch. Vantagem: Processamento de milhares de sequˆencias com alta acur´acia em poucas horas. Leandro Nascimento Lemos UPARSE: An´alises de sequˆencias de 16S rRNA
  • 5.
    UPARSE Obtenc¸˜ao de OTUs(Operational Taxonomic Units). Remoc¸˜ao de artefatos de sequenciamento (e.g., sequˆencias de baixa qualidade e quimeras). Leandro Nascimento Lemos UPARSE: An´alises de sequˆencias de 16S rRNA
  • 6.
    USEARCH Leandro Nascimento LemosUPARSE: An´alises de sequˆencias de 16S rRNA
  • 7.
    Perfil de 16SrDNA Leandro Nascimento Lemos UPARSE: An´alises de sequˆencias de 16S rRNA
  • 8.
    Arquivo em formatofastq (10 minutos) https://lemosbioinfo.wordpress.com/ufv/ Verificar a qualidade das dez primeiras bases da primeira, segunda e terceira sequˆencia. Leandro Nascimento Lemos UPARSE: An´alises de sequˆencias de 16S rRNA
  • 9.
    Arquivo em formatofastq - Phred score Leandro Nascimento Lemos UPARSE: An´alises de sequˆencias de 16S rRNA
  • 10.
    Perfil de 16SrDNA Leandro Nascimento Lemos UPARSE: An´alises de sequˆencias de 16S rRNA
  • 11.
    Qualidade de sequenciamento/Remoc¸˜aode sequˆencias de baixa qualidade Qualidade do sequenciamento Software: FastQC (http://www.bioinformatics.babraham.ac.uk/projects/fastqc) Leandro Nascimento Lemos UPARSE: An´alises de sequˆencias de 16S rRNA
  • 12.
    Usando o softwareUsearch: QC 1 Abrir o terminal do Linux. 2 usearch10.0.240 i86linux32 -fastx info reads.fq -output reads.quality 3 Atividade: Verificar a qualidade das sequˆencias (5 minutos). Leandro Nascimento Lemos UPARSE: An´alises de sequˆencias de 16S rRNA
  • 13.
    Demultiplex Possibilita o sequenciamentode muitas amostras em uma ´unica corrida. Leandro Nascimento Lemos UPARSE: An´alises de sequˆencias de 16S rRNA
  • 14.
    Usando o softwareUsearch: Demultiplex 1 Arquivo de barcodes: Leandro Nascimento Lemos UPARSE: An´alises de sequˆencias de 16S rRNA
  • 15.
    Usando o softwareUsearch: Demultiplex 1 Abrir o terminal do Linux. 2 usearch10.0.240 i86linux32 -fastx demux reads.fq -barcodes bar.fa -fastqout reads demux.fq Leandro Nascimento Lemos UPARSE: An´alises de sequˆencias de 16S rRNA
  • 16.
    Remoc¸˜ao de primers Sequˆenciado primer: CCGTCAATTCMTTTRAGT usearch10.0.240 i86linux32 -fastx truncate reads.fq -stripleft 18 -fastqout reads stripped.fq Leandro Nascimento Lemos UPARSE: An´alises de sequˆencias de 16S rRNA
  • 17.
    Expected error Uma sequˆenciacom duas bases: A (Q2) e (Q40); Valor m´edio de Phred Score: Q21 Valor esperado de erro: 0.5 Low Q scores (high error probabilities) dominate expected errors, but this information is lost by averaging if low Qs appear in a read with mostly high Q scores. This explains why expected errors is a much better indicator of read accuracy than average Q. Leandro Nascimento Lemos UPARSE: An´alises de sequˆencias de 16S rRNA
  • 18.
    Remoc¸˜ao de sequˆenciasde baixa qualidade usearch10.0.240 i86linux32 -fastq filter reads stripped.fq -fastq maxee 1.0 -fastq trunclen 350 -fastaout filtered.fa -relabel Filt Leandro Nascimento Lemos UPARSE: An´alises de sequˆencias de 16S rRNA
  • 19.
    Dereplicac¸˜ao Identificar um conjunto´unico de sequˆencias [Reduzir a complexidade computacional do conjunto de dados.] usearch10.0.240 i86linux32 -fastx uniques filtered.fa -sizeout -relabel Uniq -fastaout uniques.fa Leandro Nascimento Lemos UPARSE: An´alises de sequˆencias de 16S rRNA
  • 20.
    Agrupamento de sequˆenciasem OTUs 1 Todos os pares de sequˆencias OTU devem ter ¡97% de identidade. 2 Uma sequˆencia OTU deve ser a mais abundante dentro de um range de 97%. 3 As seq¨uˆencias quim´ericas devem ser descartadas 4 Todas as seq¨uˆencias n˜ao-quim´ericas devem corresponder a pelo menos uma OTU com ≥ 97% de identidade. Leandro Nascimento Lemos UPARSE: An´alises de sequˆencias de 16S rRNA
  • 21.
    Agrupamento de sequˆenciasem OTUs usearch10.0.240 i86linux32 -cluster otus uniques.fa -otus otus.fa -relabel Otu Leandro Nascimento Lemos UPARSE: An´alises de sequˆencias de 16S rRNA
  • 22.
    Gerac¸˜ao de OTUtable 1 usearch10.0.240 i86linux32 -otutab reads demux.fq -otus otus.fa -otutabout otutab raw.txt Leandro Nascimento Lemos UPARSE: An´alises de sequˆencias de 16S rRNA
  • 23.
    Normalizac¸˜ao do n´umerode sequˆencias 1 usearch10.0.240 i86linux32 -otutab norm otutab raw.txt -sample size 1000 -output otutab.txt Leandro Nascimento Lemos UPARSE: An´alises de sequˆencias de 16S rRNA
  • 24.
    Predic¸˜ao de Taxonomia 1usearch10.0.240 i86linux32 -sintax otus.fa -db rdp 16s v16.fa -strand both -tabbedout sintax.txt -sintax cutoff 0.8 Leandro Nascimento Lemos UPARSE: An´alises de sequˆencias de 16S rRNA
  • 25.
    Summary 1 usearch10.0.240 i86linux32-sintax summary sintax.txt -otutabin otutab.txt -rank g -output genus summary.txt 2 usearch10.0.240 i86linux32 -sintax summary sintax.txt -otutabin otutab.txt -rank p -output phylum summary.txt Leandro Nascimento Lemos UPARSE: An´alises de sequˆencias de 16S rRNA
  • 26.
    UPARSE Leandro Nascimento LemosUPARSE: An´alises de sequˆencias de 16S rRNA
  • 27.
    Obrigado pela aten¸c˜ao! LeandroNascimento Lemos UPARSE: An´alises de sequˆencias de 16S rRNA