UPARSE pipeline for 16S rRNA sequence analysis in chars

UPARSE: Análises de sequências de 16S
rRNA
Leandro Nascimento Lemos
Doutorando em Biologia na Agricultura e no Ambiente
Supervisor: Profa. Dra. Tsai
Agosto/2017
Leandro Nascimento Lemos UPARSE: Análises de sequências de 16S rRNA

The Brazilian Microbiome: Current Status and
Perspectives

Perﬁl de 16S rDNA: Pipelines

UPARSE
Publicado em 2013 na Nature Methods.
Implementado no software Usearch.
Vantagem: Processamento de milhares de sequˆencias com
alta acur´acia em poucas horas.

UPARSE
Obtenção de OTUs (Operational Taxonomic Units).
Remoção de artefatos de sequenciamento (e.g., sequências de
baixa qualidade e quimeras).

USEARCH

Perﬁl de 16S rDNA

Arquivo em formato fastq (10 minutos)
https://lemosbioinfo.wordpress.com/ufv/
Veriﬁcar a qualidade das dez primeiras bases da primeira, segunda e
terceira sequˆencia.

Arquivo em formato fastq - Phred score

Qualidade de sequenciamento/Remoção de sequências de
baixa qualidade
Qualidade do sequenciamento
Software: FastQC
(http://www.bioinformatics.babraham.ac.uk/projects/fastqc)

Usando o software Usearch: QC
1 Abrir o terminal do Linux.
2 usearch10.0.240 i86linux32 -fastx info reads.fq -output
reads.quality
3 Atividade: Veriﬁcar a qualidade das sequˆencias (5 minutos).

Demultiplex
Possibilita o sequenciamento de muitas amostras em uma ´unica corrida.

Usando o software Usearch: Demultiplex
1 Arquivo de barcodes:

Usando o software Usearch: Demultiplex
1 Abrir o terminal do Linux.
2 usearch10.0.240 i86linux32 -fastx demux reads.fq -barcodes
bar.fa -fastqout reads demux.fq

Remoção de primers
Sequência do primer: CCGTCAATTCMTTTRAGT
usearch10.0.240 i86linux32 -fastx truncate reads.fq
-stripleft 18 -fastqout reads stripped.fq

Expected error
Uma sequˆencia com duas bases: A (Q2) e (Q40);
Valor m´edio de Phred Score: Q21
Valor esperado de erro: 0.5
Low Q scores (high error probabilities) dominate expected errors, but this
information is lost by averaging if low Qs appear in a read with mostly
high Q scores. This explains why expected errors is a much better
indicator of read accuracy than average Q.

Remoção de sequências de baixa qualidade
usearch10.0.240 i86linux32 -fastq filter reads stripped.fq
-fastq maxee 1.0 -fastq trunclen 350 -fastaout filtered.fa
-relabel Filt

Dereplicação
Identificar um conjunto único de sequências [Reduzir a complexidade
computacional do conjunto de dados.]
usearch10.0.240 i86linux32 -fastx uniques filtered.fa
-sizeout -relabel Uniq -fastaout uniques.fa

Agrupamento de sequências em OTUs
1 Todos os pares de
sequências OTU devem
ter ¡97% de identidade.
2 Uma sequência OTU deve
ser a mais abundante
dentro de um range de
97%.
3 As seqüências quiméricas
devem ser descartadas
4 Todas as seqüências
não-quiméricas devem
corresponder a pelo
menos uma OTU com ≥
97% de identidade.

Agrupamento de sequˆencias em OTUs
usearch10.0.240 i86linux32 -cluster otus uniques.fa -otus
otus.fa -relabel Otu

Gerac¸˜ao de OTU table
1 usearch10.0.240 i86linux32 -otutab reads demux.fq
-otus otus.fa -otutabout otutab raw.txt

Normalização do número de sequências
1 usearch10.0.240 i86linux32 -otutab norm
otutab raw.txt -sample size 1000 -output
otutab.txt

Predic¸˜ao de Taxonomia
1 usearch10.0.240 i86linux32 -sintax otus.fa -db
rdp 16s v16.fa -strand both -tabbedout sintax.txt
-sintax cutoff 0.8

Summary
1 usearch10.0.240 i86linux32 -sintax summary
sintax.txt -otutabin otutab.txt -rank g -output
genus summary.txt
2 usearch10.0.240 i86linux32 -sintax summary
sintax.txt -otutabin otutab.txt -rank p -output
phylum summary.txt

UPARSE

Obrigado pela aten¸c˜ao!

UPARSE pipeline for 16S rRNA sequence analysis in chars

Recomendados

Recomendados

Mais conteúdo relacionado

Mais de Leandro Lemos

Mais de Leandro Lemos (7)

Último

Último (20)

UPARSE pipeline for 16S rRNA sequence analysis in chars