O documento descreve o pipeline UPARSE para análise de sequências do gene 16S rRNA, incluindo qualidade de sequenciamento, demultiplexagem, remoção de primers, filtragem de sequências de baixa qualidade, agrupamento de OTUs e predição de taxonomia. O pipeline é implementado no software Usearch e permite processar milhares de sequências com alta acurácia em poucas horas.
Reta Final - CNU - Gestão Governamental - Prof. Stefan Fantini.pdf
UPARSE pipeline for 16S rRNA sequence analysis in chars
1. UPARSE: An´alises de sequˆencias de 16S
rRNA
Leandro Nascimento Lemos
Doutorando em Biologia na Agricultura e no Ambiente
Supervisor: Profa. Dra. Tsai
Agosto/2017
Leandro Nascimento Lemos UPARSE: An´alises de sequˆencias de 16S rRNA
2. The Brazilian Microbiome: Current Status and
Perspectives
Leandro Nascimento Lemos UPARSE: An´alises de sequˆencias de 16S rRNA
3. Perfil de 16S rDNA: Pipelines
Leandro Nascimento Lemos UPARSE: An´alises de sequˆencias de 16S rRNA
4. UPARSE
Publicado em 2013 na Nature Methods.
Implementado no software Usearch.
Vantagem: Processamento de milhares de sequˆencias com
alta acur´acia em poucas horas.
Leandro Nascimento Lemos UPARSE: An´alises de sequˆencias de 16S rRNA
5. UPARSE
Obtenc¸˜ao de OTUs (Operational Taxonomic Units).
Remoc¸˜ao de artefatos de sequenciamento (e.g., sequˆencias de
baixa qualidade e quimeras).
Leandro Nascimento Lemos UPARSE: An´alises de sequˆencias de 16S rRNA
7. Perfil de 16S rDNA
Leandro Nascimento Lemos UPARSE: An´alises de sequˆencias de 16S rRNA
8. Arquivo em formato fastq (10 minutos)
https://lemosbioinfo.wordpress.com/ufv/
Verificar a qualidade das dez primeiras bases da primeira, segunda e
terceira sequˆencia.
Leandro Nascimento Lemos UPARSE: An´alises de sequˆencias de 16S rRNA
9. Arquivo em formato fastq - Phred score
Leandro Nascimento Lemos UPARSE: An´alises de sequˆencias de 16S rRNA
10. Perfil de 16S rDNA
Leandro Nascimento Lemos UPARSE: An´alises de sequˆencias de 16S rRNA
11. Qualidade de sequenciamento/Remoc¸˜ao de sequˆencias de
baixa qualidade
Qualidade do sequenciamento
Software: FastQC
(http://www.bioinformatics.babraham.ac.uk/projects/fastqc)
Leandro Nascimento Lemos UPARSE: An´alises de sequˆencias de 16S rRNA
12. Usando o software Usearch: QC
1 Abrir o terminal do Linux.
2 usearch10.0.240 i86linux32 -fastx info reads.fq -output
reads.quality
3 Atividade: Verificar a qualidade das sequˆencias (5 minutos).
Leandro Nascimento Lemos UPARSE: An´alises de sequˆencias de 16S rRNA
14. Usando o software Usearch: Demultiplex
1 Arquivo de barcodes:
Leandro Nascimento Lemos UPARSE: An´alises de sequˆencias de 16S rRNA
15. Usando o software Usearch: Demultiplex
1 Abrir o terminal do Linux.
2 usearch10.0.240 i86linux32 -fastx demux reads.fq -barcodes
bar.fa -fastqout reads demux.fq
Leandro Nascimento Lemos UPARSE: An´alises de sequˆencias de 16S rRNA
16. Remoc¸˜ao de primers
Sequˆencia do primer: CCGTCAATTCMTTTRAGT
usearch10.0.240 i86linux32 -fastx truncate reads.fq
-stripleft 18 -fastqout reads stripped.fq
Leandro Nascimento Lemos UPARSE: An´alises de sequˆencias de 16S rRNA
17. Expected error
Uma sequˆencia com duas bases: A (Q2) e (Q40);
Valor m´edio de Phred Score: Q21
Valor esperado de erro: 0.5
Low Q scores (high error probabilities) dominate expected errors, but this
information is lost by averaging if low Qs appear in a read with mostly
high Q scores. This explains why expected errors is a much better
indicator of read accuracy than average Q.
Leandro Nascimento Lemos UPARSE: An´alises de sequˆencias de 16S rRNA
18. Remoc¸˜ao de sequˆencias de baixa qualidade
usearch10.0.240 i86linux32 -fastq filter reads stripped.fq
-fastq maxee 1.0 -fastq trunclen 350 -fastaout filtered.fa
-relabel Filt
Leandro Nascimento Lemos UPARSE: An´alises de sequˆencias de 16S rRNA
19. Dereplicac¸˜ao
Identificar um conjunto ´unico de sequˆencias [Reduzir a complexidade
computacional do conjunto de dados.]
usearch10.0.240 i86linux32 -fastx uniques filtered.fa
-sizeout -relabel Uniq -fastaout uniques.fa
Leandro Nascimento Lemos UPARSE: An´alises de sequˆencias de 16S rRNA
20. Agrupamento de sequˆencias em OTUs
1 Todos os pares de
sequˆencias OTU devem
ter ¡97% de identidade.
2 Uma sequˆencia OTU deve
ser a mais abundante
dentro de um range de
97%.
3 As seq¨uˆencias quim´ericas
devem ser descartadas
4 Todas as seq¨uˆencias
n˜ao-quim´ericas devem
corresponder a pelo
menos uma OTU com ≥
97% de identidade.
Leandro Nascimento Lemos UPARSE: An´alises de sequˆencias de 16S rRNA
21. Agrupamento de sequˆencias em OTUs
usearch10.0.240 i86linux32 -cluster otus uniques.fa -otus
otus.fa -relabel Otu
Leandro Nascimento Lemos UPARSE: An´alises de sequˆencias de 16S rRNA
22. Gerac¸˜ao de OTU table
1 usearch10.0.240 i86linux32 -otutab reads demux.fq
-otus otus.fa -otutabout otutab raw.txt
Leandro Nascimento Lemos UPARSE: An´alises de sequˆencias de 16S rRNA
23. Normalizac¸˜ao do n´umero de sequˆencias
1 usearch10.0.240 i86linux32 -otutab norm
otutab raw.txt -sample size 1000 -output
otutab.txt
Leandro Nascimento Lemos UPARSE: An´alises de sequˆencias de 16S rRNA
24. Predic¸˜ao de Taxonomia
1 usearch10.0.240 i86linux32 -sintax otus.fa -db
rdp 16s v16.fa -strand both -tabbedout sintax.txt
-sintax cutoff 0.8
Leandro Nascimento Lemos UPARSE: An´alises de sequˆencias de 16S rRNA
25. Summary
1 usearch10.0.240 i86linux32 -sintax summary
sintax.txt -otutabin otutab.txt -rank g -output
genus summary.txt
2 usearch10.0.240 i86linux32 -sintax summary
sintax.txt -otutabin otutab.txt -rank p -output
phylum summary.txt
Leandro Nascimento Lemos UPARSE: An´alises de sequˆencias de 16S rRNA