Computational analisys of bacterial RNA-Seq
data: quantifica¸c˜ao de abundˆancia de transcritos
Ryan McClure, Divya Balasubramanian, Yan Sun, Maksym
Bobrovskyy, Paul Sumby, Caroline A. Genco, Carin K.
Vanderpool e Brian Tjaden
Apresenta¸c˜ao: Vitor Lima Coelho
10 de outubro de 2013
T´opicos
1 Introdu¸c˜ao
Quantifica¸c˜ao de abundˆancia de transcritos
Workflow do Rockhopper
Algoritmo B´asico de Quantifica¸c˜ao (Read alinhada com um
´unico transcrito)
Fontes de variabilidade
2 Normaliza¸c˜ao
M´etrica utilizada
3 Multi-reads
4 Resultados
5 Considera¸c˜oes Finais
6 Referˆencias
Introdu¸c˜ao
Introdu¸c˜ao
RNA-Seq produz de milh˜oes de reads mapeados sobre uma
referˆencia
O n´umero de reads mapeados para um gene em particular reflete a
abundˆancia de um transcrito em uma amostra (RISSO et al, 2011).
As quantidades de reads necessitam ser normalizadas para serem
comparadas entre diferentes genes e estimar os n´ıveis de express˜ao.
Introdu¸c˜ao
Quantifica¸c˜ao de abundˆancia de transcritos
Quantifica¸c˜ao de express˜ao gˆenica
Estimar a abundˆancia de um gene (o n´ıvel de express˜ao de um
transcrito) e suas isoformas e analisar a express˜ao diferencial entre
as amostras.
A express˜ao gˆenica ´e calculada pelo n´umero de reads mapeados na
sequˆencia referˆencia de cada gene
Introdu¸c˜ao
Workflow do Rockhopper
Workflow do Rockhopper
fonte: McClure et al, 2013.
Introdu¸c˜ao
Algoritmo B´asico de Quantifica¸c˜ao (Read alinhada com um ´unico transcrito)
Algoritmo B´asico de Quantifica¸c˜ao (Read alinhada com
um ´unico transcrito)
1 Alinhamento dos reads com o conjunto de sequˆencias de
transcritos de referˆencia
2 Contagem do n´umero de reads alinhados com cada transcrito
3 Convers˜ao da quantidade de reads em n´ıveis de express˜ao
relativa
Introdu¸c˜ao
Fontes de variabilidade
Fontes de variabilidade
Fragmenta¸c˜ao de RNA durante a constru¸c˜ao da biblioteca
Diferentes tamanhos de transcritos
Abundˆancia de reads vari´avel produzida em cada corrida
Varia¸c˜ao no n´umero de reads mapeados entre diferentes
amostras
fonte: Garber et al, 2011.
Normaliza¸c˜ao
Normaliza¸c˜ao
A estimativa de express˜ao gˆenica utilizando RNA-Seq necessita que
a quantidade de reads seja normalizada adequadamente.
fonte: Garber et al, 2011.
Normaliza¸c˜ao
M´etrica utilizada
M´etrica utilizada
Estimativa da probabilidade dos reads terem sido originados a
partir de um transcrito pelo n´umero de reads que alinham com o
transcrito:
θi =
ci
N
(1)
ci = reads mapeadas para o transcrito i
N = n´umero total de reads mapeadas
Normaliza¸c˜ao
M´etrica utilizada
M´etrica utilizada
RPKM (Reads Per Kilobase Per Million):
109
×
ci
li N
(2)
ci = reads mapeadas para o transcrito i
N = n´umero total de reads mapeadas
li = tamanho
Normaliza¸c˜ao
M´etrica utilizada
M´etrica utilizada
1 Os autores calculam o RPKM para cada condi¸c˜ao.
2 Em seguida, removem as express˜oes nulas.
3 Desse conjunto, utilizam o quartil superior de express˜oes
gˆenicas.
Multi-reads
Multi-reads
Read que pode ser derivada a partir de m´ultiplos transcritos:
Alguns genes possuem similaridades nas sequˆencias
Transcritos alternativos compartilham uma fra¸c˜ao significante
da sequˆencia
Multi-reads
Op¸c˜oes de tratamento
Ignorar
Utilizar modelos de quantifica¸c˜ao para isoformas, por
exemplo:
Exon Intersection Method
Exon Union Method
fonte: Garber et al, 2011.
Resultados
Avalia¸c˜ao da estimativa de abundˆancia de transcritos
Compara¸c˜ao com os n´ıveis de express˜ao gˆenica determinados
pelo qRT-PCR
Compara¸c˜ao feita utilizando um experimento simulado de
RNA-Seq em N. gonorrheae
Efeito do conte´udo de GC e an´alise de express˜ao gˆenica
Resultados
Avalia¸c˜ao da estimativa de abundˆancia de transcritos
Compara¸c˜ao com os n´ıveis de express˜ao gˆenica determinados pelo
qRT-PCR:
9 genes de N. gonorrheae oriundos de trˆes r´eplicas biol´ogicas
15 milh˜oes de reads oriundos de dados de RNA-Seq
N´ıveis de express˜ao estimados possuem uma correla¸c˜ao de
0,55
Resultados
Avalia¸c˜ao da estimativa de abundˆancia de transcritos
Compara¸c˜ao feita utilizando um experimento simulado de
RNA-Seq em N. gonorrheae
Essa simula¸c˜ao permite que a abundˆancia dos transcritos
sejam conhecidas a priori.
2002 genes anotados codificadores de prote´ınas.
Os n´ıveis de express˜ao gˆenica estimados tiveram uma
correla¸c˜ao de 0,96 com os n´ıveis de express˜ao gˆenica
simulados.
Resultados
Avalia¸c˜ao da estimativa de abundˆancia de transcritos
Efeito do conte´udo de GC e an´alise de express˜ao gˆenica:
O conte´udo de GC representa um vi´es para an´alise de
express˜ao gˆenica de dados oriundos do RNA-Seq (S´EMON et
al, 2005).
Os autores calcularam a correla¸c˜ao entre os conte´udos de GC
e os n´ıveis de express˜ao dos genes para cada condi¸c˜ao
analisada.
N˜ao foram observadas correla¸c˜oes significantes (< 0.1) entre
conte´udos de GC e n´ıveis de express˜ao dos transcritos.
Considera¸c˜oes Finais
Considera¸c˜oes Finais
Baixa correla¸c˜ao com os n´ıveis de express˜ao determinados pelo
qRT-PCR.
Acredita-se que est´a relacionado as configura¸c˜oes do experimento
de RNA-Seq:
Tamanho de reads menores (36 X 40 - 100 nt)
Baixo score (31 X 35)
Referˆencias
Referˆencias
Dewey, Colin. Notas de aula da disciplina ”Biostatistics & Medical
Informatics 776”. Dispon´ıvel
em:<http://www.biostat.wisc.edu/bmi776/syllabus.html>.
Acessado em:29 set. 2013.
Garber, M. et al (2011). Computational methods for transcriptome
annotation and quantification using RNA-seq. Nature Methods,
vol. 8, n. 6.
McClure, R. et al (2013). Computational analysis of bacterial
RNA-Seq data. Nucleic Acids Research, vol. 41, n. 14.
Referˆencias
Referˆencias
Risso, D.; Schwartz, K.; Sherlock, G.; Dudoit, S. (2011)
GC-content normalization for RNA-Seq data. BMC
Bioinformatics, 12:480.
S´emon, M.; Mouchiroud, D.; Duret, L.(2005). Relationship
between gene expression and GC-content in mammals: statistical
significance and biological relevance. Human Molecular
Genetics, vol. 14, n. 3, p.421-427.
Wang, Z.; Gerstein, M.; Snyder, M. (2009) RNA-Seq: a
revolutionary tool for transcriptomics. Genetics, vol. 10, p.57-63.
Minist´erio de Ciˆencia, Tecnologia e Inova¸c˜ao
Laborat´orio Nacional de Computa¸c˜ao Cient´ıfica
Obrigado!!!
Vitor Lima Coelho

Computational analysis of bacterial RNA-Seq data: quantificação de abundância de transcrito

  • 1.
    Computational analisys ofbacterial RNA-Seq data: quantifica¸c˜ao de abundˆancia de transcritos Ryan McClure, Divya Balasubramanian, Yan Sun, Maksym Bobrovskyy, Paul Sumby, Caroline A. Genco, Carin K. Vanderpool e Brian Tjaden Apresenta¸c˜ao: Vitor Lima Coelho 10 de outubro de 2013
  • 2.
    T´opicos 1 Introdu¸c˜ao Quantifica¸c˜ao deabundˆancia de transcritos Workflow do Rockhopper Algoritmo B´asico de Quantifica¸c˜ao (Read alinhada com um ´unico transcrito) Fontes de variabilidade 2 Normaliza¸c˜ao M´etrica utilizada 3 Multi-reads 4 Resultados 5 Considera¸c˜oes Finais 6 Referˆencias
  • 3.
    Introdu¸c˜ao Introdu¸c˜ao RNA-Seq produz demilh˜oes de reads mapeados sobre uma referˆencia O n´umero de reads mapeados para um gene em particular reflete a abundˆancia de um transcrito em uma amostra (RISSO et al, 2011). As quantidades de reads necessitam ser normalizadas para serem comparadas entre diferentes genes e estimar os n´ıveis de express˜ao.
  • 4.
    Introdu¸c˜ao Quantifica¸c˜ao de abundˆanciade transcritos Quantifica¸c˜ao de express˜ao gˆenica Estimar a abundˆancia de um gene (o n´ıvel de express˜ao de um transcrito) e suas isoformas e analisar a express˜ao diferencial entre as amostras. A express˜ao gˆenica ´e calculada pelo n´umero de reads mapeados na sequˆencia referˆencia de cada gene
  • 5.
    Introdu¸c˜ao Workflow do Rockhopper Workflowdo Rockhopper fonte: McClure et al, 2013.
  • 6.
    Introdu¸c˜ao Algoritmo B´asico deQuantifica¸c˜ao (Read alinhada com um ´unico transcrito) Algoritmo B´asico de Quantifica¸c˜ao (Read alinhada com um ´unico transcrito) 1 Alinhamento dos reads com o conjunto de sequˆencias de transcritos de referˆencia 2 Contagem do n´umero de reads alinhados com cada transcrito 3 Convers˜ao da quantidade de reads em n´ıveis de express˜ao relativa
  • 7.
    Introdu¸c˜ao Fontes de variabilidade Fontesde variabilidade Fragmenta¸c˜ao de RNA durante a constru¸c˜ao da biblioteca Diferentes tamanhos de transcritos Abundˆancia de reads vari´avel produzida em cada corrida Varia¸c˜ao no n´umero de reads mapeados entre diferentes amostras fonte: Garber et al, 2011.
  • 8.
    Normaliza¸c˜ao Normaliza¸c˜ao A estimativa deexpress˜ao gˆenica utilizando RNA-Seq necessita que a quantidade de reads seja normalizada adequadamente. fonte: Garber et al, 2011.
  • 9.
    Normaliza¸c˜ao M´etrica utilizada M´etrica utilizada Estimativada probabilidade dos reads terem sido originados a partir de um transcrito pelo n´umero de reads que alinham com o transcrito: θi = ci N (1) ci = reads mapeadas para o transcrito i N = n´umero total de reads mapeadas
  • 10.
    Normaliza¸c˜ao M´etrica utilizada M´etrica utilizada RPKM(Reads Per Kilobase Per Million): 109 × ci li N (2) ci = reads mapeadas para o transcrito i N = n´umero total de reads mapeadas li = tamanho
  • 11.
    Normaliza¸c˜ao M´etrica utilizada M´etrica utilizada 1Os autores calculam o RPKM para cada condi¸c˜ao. 2 Em seguida, removem as express˜oes nulas. 3 Desse conjunto, utilizam o quartil superior de express˜oes gˆenicas.
  • 12.
    Multi-reads Multi-reads Read que podeser derivada a partir de m´ultiplos transcritos: Alguns genes possuem similaridades nas sequˆencias Transcritos alternativos compartilham uma fra¸c˜ao significante da sequˆencia
  • 13.
    Multi-reads Op¸c˜oes de tratamento Ignorar Utilizarmodelos de quantifica¸c˜ao para isoformas, por exemplo: Exon Intersection Method Exon Union Method fonte: Garber et al, 2011.
  • 14.
    Resultados Avalia¸c˜ao da estimativade abundˆancia de transcritos Compara¸c˜ao com os n´ıveis de express˜ao gˆenica determinados pelo qRT-PCR Compara¸c˜ao feita utilizando um experimento simulado de RNA-Seq em N. gonorrheae Efeito do conte´udo de GC e an´alise de express˜ao gˆenica
  • 15.
    Resultados Avalia¸c˜ao da estimativade abundˆancia de transcritos Compara¸c˜ao com os n´ıveis de express˜ao gˆenica determinados pelo qRT-PCR: 9 genes de N. gonorrheae oriundos de trˆes r´eplicas biol´ogicas 15 milh˜oes de reads oriundos de dados de RNA-Seq N´ıveis de express˜ao estimados possuem uma correla¸c˜ao de 0,55
  • 16.
    Resultados Avalia¸c˜ao da estimativade abundˆancia de transcritos Compara¸c˜ao feita utilizando um experimento simulado de RNA-Seq em N. gonorrheae Essa simula¸c˜ao permite que a abundˆancia dos transcritos sejam conhecidas a priori. 2002 genes anotados codificadores de prote´ınas. Os n´ıveis de express˜ao gˆenica estimados tiveram uma correla¸c˜ao de 0,96 com os n´ıveis de express˜ao gˆenica simulados.
  • 17.
    Resultados Avalia¸c˜ao da estimativade abundˆancia de transcritos Efeito do conte´udo de GC e an´alise de express˜ao gˆenica: O conte´udo de GC representa um vi´es para an´alise de express˜ao gˆenica de dados oriundos do RNA-Seq (S´EMON et al, 2005). Os autores calcularam a correla¸c˜ao entre os conte´udos de GC e os n´ıveis de express˜ao dos genes para cada condi¸c˜ao analisada. N˜ao foram observadas correla¸c˜oes significantes (< 0.1) entre conte´udos de GC e n´ıveis de express˜ao dos transcritos.
  • 18.
    Considera¸c˜oes Finais Considera¸c˜oes Finais Baixacorrela¸c˜ao com os n´ıveis de express˜ao determinados pelo qRT-PCR. Acredita-se que est´a relacionado as configura¸c˜oes do experimento de RNA-Seq: Tamanho de reads menores (36 X 40 - 100 nt) Baixo score (31 X 35)
  • 19.
    Referˆencias Referˆencias Dewey, Colin. Notasde aula da disciplina ”Biostatistics & Medical Informatics 776”. Dispon´ıvel em:<http://www.biostat.wisc.edu/bmi776/syllabus.html>. Acessado em:29 set. 2013. Garber, M. et al (2011). Computational methods for transcriptome annotation and quantification using RNA-seq. Nature Methods, vol. 8, n. 6. McClure, R. et al (2013). Computational analysis of bacterial RNA-Seq data. Nucleic Acids Research, vol. 41, n. 14.
  • 20.
    Referˆencias Referˆencias Risso, D.; Schwartz,K.; Sherlock, G.; Dudoit, S. (2011) GC-content normalization for RNA-Seq data. BMC Bioinformatics, 12:480. S´emon, M.; Mouchiroud, D.; Duret, L.(2005). Relationship between gene expression and GC-content in mammals: statistical significance and biological relevance. Human Molecular Genetics, vol. 14, n. 3, p.421-427. Wang, Z.; Gerstein, M.; Snyder, M. (2009) RNA-Seq: a revolutionary tool for transcriptomics. Genetics, vol. 10, p.57-63.
  • 21.
    Minist´erio de Ciˆencia,Tecnologia e Inova¸c˜ao Laborat´orio Nacional de Computa¸c˜ao Cient´ıfica Obrigado!!! Vitor Lima Coelho